ISOが無料でダウンロードできるサイト2006年11月03日 20:10

Publicly Available Standardsのサイトで、いくつかのISO規格が無料でダウンロードできます。

文字コード関係ではISO/IEC 10646:2003がダウンロードできます。ただし80MBくらいありますので、覚悟の上でどうぞ。

文字は色即是空2006年11月08日 23:13

“同じ”文字とは何が同じなのか」 (ITpro) というタイトルに惹かれて読んでみました。ほうほう、何が同じなら同じ文字なの? と興味津津で読んでみたのですが、答えが書いておらず残念に思いました。

この記事にある超漢字Vのように、ちょっとした形の違いに全部別々のコードを振って「別の字だよ」といわれれば、ああそうなのかという気になるかも知れない。でもそれはちょっと違う。

文字は必ず具体的な図形としてしか現れませんが、その認識には抽象化の過程を経ているわけです。私が書いた「あ」と貴方の書いた「あ」とが、画像パターンとしては全く別物であるにもかかわらず人が見て「同じ文字」と認識されるのは、字形を抽象化して認識しているからにほかならない。

つまり、図像という実体をとるにもかかわらず、文字の本質は実体ではない。自立した実体を持たない、いわば仏教でいう「空」が文字の本質であるわけです。色即是空。

上記記事の記者は、いうなれば「色」をたくさん見せられて、その空性に思いが至っていない状態といえるのではないでしょうか。

文字の空性を悟ったら、文字コードであれこれ悩む苦しみから脱出できるかも知れませんね。

Windows Vista狂想曲2006年11月29日 23:31

Windows Vistaの文字コードについてにわかに騒がれているようです。例えばITproの特番。前から分かっていた話なんですけどね。

どういう点が問題かというと、例えば、今まで1文字2バイトと仮定していたのが、これからはUnicodeのPlane 2の漢字も含まれるのでサロゲートペアを使って4バイトの文字が入ってき得る、とか。アイヌ語表記用の片仮名 (相変わらず「アイヌ文字」などと誤って呼んでいる記事もあるようですね) や鼻濁音表記用の仮名では合成文字を使うのでやはり1文字4バイトになったり、というのもありますね。

そんなことで騒ぐんだったら、Shift_JIS-2004を使えばどうですか? いわゆる「全角文字」は全部2バイトで済みますよ。でもMSの資料やそのへんの解説記事では「JIS2004というのは (符号化文字集合ではなく) 字体の規格である」ということになってしまっているので、そういう便利な符号化方式のことには頭が回らない、というか知りさえしないんでしょうなぁ。

もう何年も前からEUC-JISX0213やShift_JISX0213を使って改善された日本語環境を使っている身としては、いまごろご苦労さまという感じです。

あるいは、6年前に「括弧つきUCS」にごちゃごちゃと文句つけていた人はどう思っているのでしょう? Unicodeが「括弧つきUCS」のとおりに改正されていれば、JIS X 0213の文字は全部BMPに入って、いま騒いでいる問題の半分は何もしなくても片付いていたことになりますね。まぁ「括弧つきUCS」が無用の反感を買ってしまった面はあるとしても、とにかく全部BMPに入れようよという意図は圧倒的に正しかった筈なのですが。そういう実用的な物の見方をする人はなぜか少ないようです。