JISとUnicodeの妥当な変換とは2006年08月16日 10:42

実に6年ぶりに、「JIS漢字とUCS (Unicode)の文字の対応・変換について」を小改訂しました。今回は、具体的なコード変換表を提供しているサイト (JIS-UCS 変換表JIS X 0213とUnicodeの対応表) ヘのリンクを付け加えました。

6年経っても、この文書の内容は古びていないことが確認できました。もっともそれは、世間の状況があまり進歩していないということでもあるので、一概に歓迎できるものではありませんが……。

この文書の根底にある考え方は、コード変換においては、単にコード値だけを見るのでなく、コード値に対応づけられた現実の文字の対応を調べることが重要だということです。

これはどんなコード間の変換であれ変わらない普遍的な原則ですから、時を経て実装が変わり規格が変わっても、応用のきく考え方です。

特定製品の実装にとらわれることなく、コード変換の普遍原理に基づいて発想し行動することが大切です。

ISO 10646の日本用サブセット2006年05月13日 00:17

ISO/IEC 10646 (Unicodeの国際規格) を管理しているJTC1/SC2/WG2のサイトに、N3091という文書が置いてあります。"Request For Collection Identifiers For Japanese Subsets of ISO/IEC 10646" というタイトルで、膨大なISO 10646の文字集合から日本でよく使うものをサブセットとして定義しようというものです。

そういうものがあっても良いかなとは思いますが、サブセットの定義にちょっと疑問を覚えます。特に、JIS X 0213に相当する文字集合を漢字と非漢字で分ける必然性がわかりません。

私の考えでは、基本的にJIS X 0213相当の集合があれば良い。これにはJIS X 0201、JIS X 0208の文字が全て含まれます (X0208にはX0201の文字全ては含まれていないことに注意)。ただし、まだX0213に対応していない環境を救済するために、X0208相当のサブセットも用意しておく。

N3091の提案にある、JIS X 0212相当の集合とベンダー外字相当の集合は、必要性を再考した方が良い。特に、名称として「common」や「supplement」といった、あまり特徴のない一般的な語を使うのは、ほかのサブセットと区別がつきにくく混乱の元になる恐れがあるでしょう。

JIS X 0213は既にEUC-JISX0213やShift_JISX0213の符号化方式で運用されているわけですが、このサブセットができればUnicodeの符号化方式しか使えない環境でもJIS X 0213相当の文字レパートリーが使えるようになるかも知れませんね。