Unicodeのうつわ: 文字符号化blog

Unicodeのうつわ ― 2007年04月11日 21:31

画像のような文字列をUnicodeで符号化するとしたら、どのようなコードポイントの列になるでしょうか? JIS X 0213でいえば、1-20-79, 1-15-22 です。

日本人、あるいは日本向けのソフトウェアであれば、おそらく U+5668 U+FA38 というコードポイントを用いるでしょう。前者はJIS X 0208の20-79をソースとしており、後者はJIS X 0213で追加された字に相当するからです。ここには何も疑問がなさそうに思えます。

ところが、台湾の人、あるいは台湾向けのソフトウェアであれば、おそらく U+20F96 U+5668 というコードポイント列になるのではないかと思います。なぜか…って、だって、Unicodeの文字表を見ればそうなっているではないですか。ちなみにU+20F96は台湾ソースです。

おや、同じ文字列を同じUnicodeで符号化するのに、日本風のやり方と台湾風のやり方とで違う結果になってしまいました。これは何としたことでしょう。

実際にそんな風になるのか? という向きには、Webで試してみる手があります。テスト用のページを作ってみました。これを表示するには、Unicodeの拡張Bに対応したフォント (Han Nomなど) が必要です。HTMLソースも参照のうえ、吟味してみて下さい。