一般受けするのは難しい2006年05月04日 22:45

Unicodeはなんの役に立つのかというと、世界のあちこちで使われるソフトウェアを開発しているソフトウェアベンダにとって内部処理が統一化できるのが嬉しいということが第一義であって、それ以外の人にはあまり関係がないように思います。

ソフトウェアの国際化というのは得てして地味くさい話が多いわけです。言語依存の部分を切り出して別リソースにまとめたりとか、アイコンを差し換えられるようにしたりとか。そういう仕掛けは開発する側 (もっというと、ソフトウェアを売る側) にとっては大事なのだけれども、普通の人にとってはメリットを感じにくい。各地域版の開発コストが下がったりということで間接的には利益を享受しているのですが、一般受けという面ではインパクトの弱さは否めない。

文字符号化に関して言えば、包摂規準の明確化なんていうのもいかにも一般受けしない話ではあります。これはテキストの符号化を真面目にやろうとすればありがたみが分かるのですが、そうでなければウケるどころか理解すらしてもらえないかもしれない。

しかし世の中一般受けする話だけで成り立ってるわけではないので、そういう地味な部分を引き受けてくれる人は絶対に必要です。そして、一般受けしなさそうな話を、一般受けのための迎合をすることなしに、一般受けさせる人というのも必要なのだろうと思います。

ISO 10646の日本用サブセット2006年05月13日 00:17

ISO/IEC 10646 (Unicodeの国際規格) を管理しているJTC1/SC2/WG2のサイトに、N3091という文書が置いてあります。"Request For Collection Identifiers For Japanese Subsets of ISO/IEC 10646" というタイトルで、膨大なISO 10646の文字集合から日本でよく使うものをサブセットとして定義しようというものです。

そういうものがあっても良いかなとは思いますが、サブセットの定義にちょっと疑問を覚えます。特に、JIS X 0213に相当する文字集合を漢字と非漢字で分ける必然性がわかりません。

私の考えでは、基本的にJIS X 0213相当の集合があれば良い。これにはJIS X 0201、JIS X 0208の文字が全て含まれます (X0208にはX0201の文字全ては含まれていないことに注意)。ただし、まだX0213に対応していない環境を救済するために、X0208相当のサブセットも用意しておく。

N3091の提案にある、JIS X 0212相当の集合とベンダー外字相当の集合は、必要性を再考した方が良い。特に、名称として「common」や「supplement」といった、あまり特徴のない一般的な語を使うのは、ほかのサブセットと区別がつきにくく混乱の元になる恐れがあるでしょう。

JIS X 0213は既にEUC-JISX0213やShift_JISX0213の符号化方式で運用されているわけですが、このサブセットができればUnicodeの符号化方式しか使えない環境でもJIS X 0213相当の文字レパートリーが使えるようになるかも知れませんね。

「約900文字」の謎2006年05月16日 20:48

どちらの記事にも、漢字を「約900文字」追加と書いてあるのですが、この数字はいったい何なのでしょうか? JIS X 0213で追加された文字数よりも明らかに少ない。Windows VistaではJIS X 0213の文字全部は使えないのでしょうか?

Shift_JIS-2004に対応すれば、使える文字種もはっきりするし(計11,233文字)、機種依存文字の問題も解決できるのに、ずいぶん煮えきらないことをするものだなあと思いました。

「約900文字」には何か深い意味があるのでしょうか?