有關技術方面的問題
1. 甚麼是通用多八位編碼字符集 (UCS)?
UCS的中文全稱為:信息技術--通用多八位編碼字符集 (Universal Multi-octet
Coded Character Set),由ISO/IEC 10646 標準描述。在UCS中,一個單元或被賦予一個字符及其編碼,或暫時不用。
UCS 有2個編碼形式。一個為UCS-4,另一個為UCS-2。UCS-4又稱為UCS的正則形式,每個字符用4字節表示,分配在"128組
(00-7F) - 256面 (00-FF)- 256行 (00-FF)- 256列 (00-FF)"的編碼空間裡。
ISO/IEC 10646將其第一個平面 (00組中的00面) 稱作基本多文種平面 (BMP)
UCS-2是BMP的2字節編碼形式,可編碼所有的 (BMP) 的字符。並且通過代理對,還可以來編碼BMP以外的UCS-4
的 0組的另外16個平面。
2. UCS-2 與UCS-4的分別?
UCS的2字節2字節編碼形式稱為UCS-2,有65536個碼位來編碼0組0平面的字符。並且通過代理對,還可以來編碼UCS-4
0組的另外16個平面。
類似地,UCS-4用4個字節表示ISO/IEC 10646標準中的每個字符,而UCS-2只能
表示UCS-4中的前17個平面。
3. 甚麼是UTF?
UTF為UCS / Unicode Transformation Format“Unicode轉換格式”的縮寫。
UTF 實際上定義了一整套的電腦存取UCS編碼的轉換格式,並考慮了與其它編碼方式兼容。常用的格式有UTF-8和UTF-16。
有時也用到UTF-7來進行7位數據傳輸。
4. UTF-8 與UTF-16的分別?
UTF-8使用了變長技術,在每一個編碼範圍有自己個別的字碼長度,由1位元至6位元不等,因為每組有八位元,所以稱為UTF-8。UTF-8最適合用於互聯網上或網絡上或一些須要經過慢速傳送的文件。
UTF-16是定長十六位統一碼轉換格式。它將統一碼的數值(碼位)變成一串2字節的(定長)Big-endian
或 Little-endian編碼。因為每組有16位元(2字節),所以稱為UTF-16。UTF-16是最常用的一種存取編碼方法。
5. 甚麼是代理區 (Surrogate)?
為了在基本多文種平面(BMP)之外擴展更多的編碼空間,ISO/IEC 10646:2000在BMP中定義一個代理區
(D800-DFFF),代理區提供了用BMP的2字節編碼來表示在基本多文種平面(BMP)之外的16個平面編碼的機製。一些不常用的字符可以用代理組表示。並不是所有的編碼實現方式都要處理代理組。目前,造字廠商常用代理組來支持ISO/IEC
10646-2:2001 和Unicode 3.1。
6. 甚麼是字形?
將抽象觀念的字符,以一個有形的圖形表示出來。一個中文字形給出字符的基本幾何結構,包括筆畫的組合方式,筆畫的相對位置與大小。
7. 統一碼可使用於何種程式語言上?
統一碼可使用於大多數程式語言上,當中包括在Java程式語言上、在C/Linux程式語言上、以及在Microsoft
Visual C++ 程式語言上等。HTML 文件也支持UTF-8。
|