新しい符号化方式って何だろう2007年01月18日 21:32

JIS X 0213の代表的な符号化方式」を更新しました。2004年改正に対応したときに2000年版の符号化方式名をすっぱり削ってしまったのを反省して、2000年版との対応を記しました。また、Unicodeを使う際の問題点を新たに付け加えました。

これを書いていて思ったこと。JIS X 0213対応を躊躇している人の言い分として、「いまさらUnicode以外の新たな符号化方式に対応するなんて…」ということを聞くことがあります。この「新たな符号化方式」という言葉には要注意だと思いました。

Shift_JIS-2004という「新たな符号化方式」に対応するには何が必要でしょう? 区点位置との計算が必要な場合には、確かに2面の分は新たな計算式を実装する必要があります。でも、それってそんなに難しいですか?

EUC-JIS-2004への対応はどうか? 今までEUC-JPに対応していたのなら超楽勝ですよね。

ISO-2022-JP-2004は? 古いエスケープシーケンスで出力することを考慮しなくていいなら、割に簡単でしょう。

これらは確かに「新しい符号化方式」ですが、対応がそんなに困難だとは思えません。(というか、JIS X 0213自体、そのように設計されているわけです)

翻ってUnicodeではどうか。名前だけは確かにUTF-8でありUTF-16であるかもしれない。でも、今まで対応していなかった結合文字やらサロゲートペアやらにプログラムで対応する必要が新たに生じたのなら、それって事実上「新しい符号化方式」なのではないですか?

もちろん、処理を楽にしてくれるライブラリがあるのならそういうのを活用すれば良いわけですが、どっちみち古いプログラムはそういうのを使ってないわけなので、新たな対応が必要なのは変わりないわけです。大変ですね。

単に名前の違いだけしか見ずに新たな符号化方式だ、いや違う、と言っていると、落とし穴が待っているかも知れませんね。

コメント

トラックバック