有關 ISO 10646標準的問題

1. 甚麼是中文編碼標準?
中文編碼標準是指一套為了使電腦能夠處理及顯示漢字字符,將其內碼編配給不同中文字符的標準。主要的中文編碼標準可分為台灣及香港通用的『大五碼』、中國內地通用的『國家標準碼』(GB2312-80)。近來,越來越多的電腦系統採用『統一碼』(亦是ISO/IEC 10646的實現碼),並且支持大五碼與統一碼和國家標準碼與統一碼之間的轉換。

2. 甚麼是ISO/IEC 10646?
ISO/IEC 10646是一個由國際標準化組織ISO頒布的國際編碼標準,全稱為:《信息技術 - 通用多八位編碼字符集》。該標準包括世界各地的字符及附加符號,可廣泛應用於表示、傳輸、交換、處理、儲存、輸入及顯現多國文字,以提供一個共通的電子化處理不同文字的基礎。

3. 為甚麼需要統一編碼標準?
當某台電腦上發出的電子資訊傳到另一電腦上時,假若兩台電腦採用了不同的編碼標準,即使通過轉碼,也可能會出現亂碼或某些字符不能正確地顯示等問題。而制訂 ISO 10646 國際編碼標準的目的,便是為了提供一套統一的字符編碼標準,包含世界上所有文字,使電子通訊及資料交換不需轉碼,並且可以在一個電腦平台上處理多種文字。

4. ISO /IEC 10646的發展狀況如何?
ISO 10646國際編碼標準的2000年版本,ISO/IEC 10646-1:2000,已於二零零零年十月發表。當中包括ISO/IEC 10646-1:1993內的20,902個漢字字符之外,又增補了6,582個漢字字符(在擴展區A)。所有在「香港增補字符集」(HKSCS)中包含,但仍未在現有ISO 10646標準中收納的字符,已被提交到表意字符工作小組(IRG)以加入未來的ISO/IEC 10646版本中。

擴充ISO/IEC 10646-1:1993的表意字符集工作是分階段進行的,依次為擴展區A、擴展區B及擴展區C等階段。擴展區A收納了6,582個漢字字符,二零零零年十月發表。擴展區B已隨ISO/IEC 10646-1:2001發表,其字符主要來源於《康熙字典》、《漢語大字典》和《漢語大詞典》內的漢字。目前,表意文字工作小組正致力於擴展區C的工作,發表日期待定。

5. 甚麼是統一碼?
統一碼(Unicode)是Universal Code的縮寫,由一個名為 Unicode 學術學會的機構制訂的字符編碼系統。統一碼與ISO/IEC 10646國際編碼標準是碼位上一一對應的。統一碼定義字符的名稱,碼值,性 質,語義及實現算法,ISO/IEC 10646 國際編碼標準則定義字符以相同的名稱和碼值。因此,統一碼可以視作ISO/IEC 10646 國際編碼標準的實現方法。

統一碼3.0版本與ISO/IEC 10646-1:2000 國際編碼標準所包含的字符及使用的編碼是相同的,包括東亞的漢字字符。統一碼3.1版本在3.0版收納了49,194個字符的基礎上,又增加了44,946個字符(其中42,711個為表意字符)。統一碼3.1版已在2001年發表。

6. 統一碼與ISO /IEC 10646的關係?
統一碼與ISO 10646國際編碼標準從內容上來說是同步一致的。自一九九二年起,統一碼(Unicode)學術學會與ISO國際標準化組織正式合作同步發展一套適用於多種文字的通用編碼標準。一般來講,統一碼定義字符的名稱,碼值,性 質,語義及實現算法,ISO/IEC 10646 國際編碼標準則定義字符以相同的名稱和碼值。因此,統一碼可以視作ISO/IEC 10646 國際編碼標準的實現方法。

7. 甚麼是大五碼?
「大五碼」-是由台灣五大中文軟件發展商於一九八四年所製定的一套實用編碼標準,亦稱工業標準。此編碼標準收納了13,051個繁體中文字,以字符的筆劃數目及字根兩層面作排列。大五碼也是在香港普遍採用的中文編碼標準。

8. 甚麼是國家標準碼 (GB)?
國家標準碼是中國政府製定的一系列國家標準。最常用的電腦編碼標準為GB2312-80。簡稱GB2312或GB。。GB2312-80中的字符作兩層面排列,第一層為字符讀音,第二層為其字根再加上筆劃數目。

9. 字符子集分佈(基本多文種平面)的情況如何?
在ISO/IEC 10646-1:2000編碼標準 (Unicode 3.0版本)當中,基本多文種平面的編碼空間被分成若干的字符區:基本拼音字符區 (0000-1FFF)、符號區 (2000-28FF)、中日韓語音及符號區 (2E80-33FF)、中日韓漢字字符區 (3400-9FA5)、彝族字符區 (A000-A4C6)、韓字符拼音區 (AC00-D7A3)、代理區 (D800-DFFF)、私人專用區 (E000-F8FF)、以及兼容字符區 (F900-FA2D) 。