ISOが無料でダウンロードできるサイト2006年11月03日 20:10

Publicly Available Standardsのサイトで、いくつかのISO規格が無料でダウンロードできます。

文字コード関係ではISO/IEC 10646:2003がダウンロードできます。ただし80MBくらいありますので、覚悟の上でどうぞ。

「レガシーエンコーディング」という用語の政治性2006年09月09日 16:19

Unicode以外の文字コードを指して「レガシーエンコーディング legacy encoding」と呼ぶことがあります。この言葉には、世の中全部をUnicodeにしたいという意図がうかがえます。政治性を帯びた用語であり、あまり好ましくない印象があります。

コンピュータの世界で「レガシー」といえば、メインフレームで構築したシステムを指して「レガシーシステム」と呼ぶことがあります。これはUNIX等のオープン系のシステムと対比させた言葉で、オープン系へ移行されるべきものというニュアンスをただよわせています。

本来レガシーという言葉には否定的な意味合いはない筈なのですが、コンピュータの世界では「過去の遺物」的な使われ方をされることがあるようです。

いわゆる「レガシーシステム」の利用者自身がそれを過去の遺物だと思っているならまだしも、メインフレームの信頼性を気に入っている利用者に「おたくのレガシーシステムをマイグレーション(移行)しましょう」などと売り込みに行けば顰蹙を買うのは当然の話です。無神経なレガシーよばわりには手痛いしっぺ返しが待っていることもあるわけです。

Unicode信奉者の使う「レガシーエンコーディング」なる用語も、Unicodeに移行させたいという非技術的・政治的な思惑から出たものであって、思慮深い大人の使うべき言葉としてはちょっとどうなのかと思うのですがいかがでしょうか。

Unicodeの漢字の不整合2006年08月29日 23:09

Unicodeの漢字といえば、かつては「CJK統合漢字」が槍玉に上がったものです。統合すること自体を問題にする意見から、統合自体は是としながらもそのやり方に疑問を呈する意見まで様々でしたが、それらに確たる答えが提示されないまま、今や別の面からUnicodeの漢字は批判されています。

それは主に、似たような字が重複して入っている、あるいは同じと思われる文字、統合されるはずの文字が紛れ込んでいる、といったことです。

PDFと文字(16) –漢字統合の破綻」では、実例を挙げて疑問を提示しています。ここで挙げている例を見て、あるいは「それは別の字だ」と主張される方があるかも知れませんが、同じなのか違う字なのか、判定する根拠 (JISの包接規準のような) が示されていないことがまさにUnicodeの問題だろうと私は思います。

漢字データベースプロジェクト」では、上記のブログで提示されているような問題点の包括的な調査を行おうとしているようです。このサイトで提供予定となっているデータには、Unicodeの「重複符号化された漢字の一覧」や、「符号としては本来は同一である可能性が高い漢字の一覧」などがあります。これらが公開されれば、Unicodeの実態調査として大変価値の高いものになるでしょう。

もっとも、裏を返せば、このような調査を行わなければならないUnicodeの漢字とはどういうものなのか、ということでもあります。