漢字字符與認同

在ISO/IEC 10646-1中,包含27,484個中日韓表意漢字字符,它們是從超過66,000個來源於多個不同國家和地區的編碼字符集標準中甄選出來的。

字符來源共有五種,分別被表示為:G,T,J,K,和V (簡體中文、繁體中文、日文、韓文、和越南漢字)。



為了乎合ISO/IEC 10646的目的,字符由不同來源組加入表意漢字字符表需要一個甄選和排序過程。每個表意漢字字符可聯合兩個或多個來源組在一起,但只能擁有一個編碼位。這種整合方式 (又稱為"認同") 可根據以下的步驟而成:

1. 認同範圍
字源在歷史上不相關的表意漢字字符(不同源字符)不作統一。不同地區來源的表意漢字字符根據互相的相似度及下列的分類系統作統一。

2. 兩層分類系統
兩層分類系統主要用作區分字符的 (a) 抽象外形 (b) 具體外形。無法統一的變體形狀的表意漢字字符,可由其不同的抽象外形作進一步區分鑑定。

3. 認同過程
認同過程取決於兩個表意漢字字符的抽象外形相同與否。它分為兩個階段:

(a) 部件結構分析
每個表意漢字字符的部件結構均是基本元素的幾何結合,故需要經過審查。不同的表意漢字字符可擁有相同的部件排列方法。個別的部件可組成一個結構複雜的新部件。所以,表意漢字字符能以部件樹作定義,最高節點為表意字符,最低節點為其基本元素。

(b) 部件形狀分析
由最初的節點開始,兩個表意漢字字符的部件若位於相對的節點,可作比較。