SKK用のJIS2004対応仮名漢字変換辞書2007年04月02日 11:02

SKK Openlab.から、JIS X 0213:2004対応の仮名漢字変換辞書SKK-JISYO.JIS2004が公開されました。辞書はEUC-JIS-2004で符号化されています。

SKKでは既に6年前から、JIS X 0213対応の辞書SKK-JISYO.JIS3_4を公開、開発してきていますが、これはJIS X 0213:2000のEUC-JISX0213に対応したものであり、2004年改正の追加10文字には対応していませんでした。Emacsの環境で2004改正に対応したものがまだ少ないためです。

今回公開されたSKK-JISYO.JIS2004は、SKK-JISYO.JIS3_4を補完するものです。2004年改正に未対応の環境では従来通りSKK-JISYO.JIS3_4のみを使えば良く、対応済の環境ではSKK-JISYO.JIS2004を併用することで、JIS2004の全ての文字を扱うことができます。

なお、EmacsのLispパッケージMule-UCSのJIS X 0213:2004に対応した版はMule-UCS Unofficial Siteにあります。フォントは定番の「JISX0213(所謂第3,4水準漢字)用bdfフォントのページ」から入手できます。多くの方に、進化した日本語環境を体験していただきたいと思います。

Unicodeのうつわ2007年04月11日 21:31

画像のような文字列をUnicodeで符号化するとしたら、どのようなコードポイントの列になるでしょうか? JIS X 0213でいえば、1-20-79, 1-15-22 です。

日本人、あるいは日本向けのソフトウェアであれば、おそらく U+5668 U+FA38 というコードポイントを用いるでしょう。前者はJIS X 0208の20-79をソースとしており、後者はJIS X 0213で追加された字に相当するからです。ここには何も疑問がなさそうに思えます。

ところが、台湾の人、あるいは台湾向けのソフトウェアであれば、おそらく U+20F96 U+5668 というコードポイント列になるのではないかと思います。なぜか…って、だって、Unicodeの文字表を見ればそうなっているではないですか。ちなみにU+20F96は台湾ソースです。

おや、同じ文字列を同じUnicodeで符号化するのに、日本風のやり方と台湾風のやり方とで違う結果になってしまいました。これは何としたことでしょう。

実際にそんな風になるのか? という向きには、Webで試してみる手があります。テスト用のページを作ってみました。これを表示するには、Unicodeの拡張Bに対応したフォント (Han Nomなど) が必要です。HTMLソースも参照のうえ、吟味してみて下さい。