Unicodeの漢字の不整合2006年08月29日 23:09

Unicodeの漢字といえば、かつては「CJK統合漢字」が槍玉に上がったものです。統合すること自体を問題にする意見から、統合自体は是としながらもそのやり方に疑問を呈する意見まで様々でしたが、それらに確たる答えが提示されないまま、今や別の面からUnicodeの漢字は批判されています。

それは主に、似たような字が重複して入っている、あるいは同じと思われる文字、統合されるはずの文字が紛れ込んでいる、といったことです。

PDFと文字(16) –漢字統合の破綻」では、実例を挙げて疑問を提示しています。ここで挙げている例を見て、あるいは「それは別の字だ」と主張される方があるかも知れませんが、同じなのか違う字なのか、判定する根拠 (JISの包接規準のような) が示されていないことがまさにUnicodeの問題だろうと私は思います。

漢字データベースプロジェクト」では、上記のブログで提示されているような問題点の包括的な調査を行おうとしているようです。このサイトで提供予定となっているデータには、Unicodeの「重複符号化された漢字の一覧」や、「符号としては本来は同一である可能性が高い漢字の一覧」などがあります。これらが公開されれば、Unicodeの実態調査として大変価値の高いものになるでしょう。

もっとも、裏を返せば、このような調査を行わなければならないUnicodeの漢字とはどういうものなのか、ということでもあります。