Unicode正規化の問題点(1)2007年03月11日 23:55

マイクロな話とオングストローム」の中で「正規化を行えば別ですが」と蛇足のように付け加えたのは私の勘違い、誤りでした。

というのは、Unicodeの正規化では実は、マイクロ記号はギリシャ文字μに正規化されないのでした。オングストローム記号は「上リング付きA」に正規化されるのに、です。

なぜこうなっているのかは不明ですが、邪推するに、ISO/IEC 8859-1を特別扱いしたかったからではないでしょうか。マイクロ記号が正規化でギリシャ文字μに変換されてしまうと、「8859-1 → Unicode → 正規化 → 8859-1」という変換を施したときに元に戻らなくなってしまうのです。それを避けるために、敢えて正規化対象から外したということではないでしょうか。

ちなみにJIS X 0208相当の文字では、上記のオングストローム記号が正規化の影響を受けるために、「JIS → Unicode → 正規化 → JIS」と変換するとJIS X 0208の範囲からはみ出してしまいます。こちらの問題については、Unicodeの人は特別な関心を持たなかったのでしょうね。

こういう一件を見ると、国際的な公平性を確保するのは難しいのだなぁという感想を持ってしまいます。

コメント

トラックバック