開設にあたって2005年05月20日 04:18

このブログは、新JIS漢字実践情報の後継となる予定のものです。

書く内容は基本的に以前と変わりありません。ただ、JIS X 0213に限定せず、他の符号化文字集合規格についての話題も取り上げる予定です。また、個別の規格に関する情報だけでなく、文字符号化一般の理論に関して書くことがあるかもしれません。私の手に負えるものであればですが!

移行するにあたり、ブログという形式がベストなものかどうかまだ確信が持てていないのが実際のところです。もしかすると、何ヶ月か試してみた後で、もっと別の形式の方が良いという結論に達するかもしれません。そのときはまた新たな容れ物を求めることになるでしょう。

いずれにしても、基本理念は新JIS漢字実践情報を始めた5年前と同じです。文字コード標準(JIS X 0213)を実際に使うための情報を、利用者の立場から提供するということ。この路線は堅持したいと考えています。

最後に一言: JIS X 0213に関心のある方は、JIS X 0213メーリングリストに参加されることをお勧めします。

Python 2.4がJIS X 0213をサポート2005年05月22日 18:13

プログラミング言語Pythonはバージョン2.4からJIS X 0213を標準でサポートしています。codecで、EUC-JIS-2004, ISO-2022-JP-2004, Shift_JIS-2004が使用できます。

以前から、Pythonで日中韓の文字コードを扱うCJKCodecsというモジュールが 配布されていましたが、それがPython本体に取り込まれたということのようです。

これからプログラミングを始める方はPythonを試してみるのも良いかもしれま せんね。

例えば、下記のようなコードで、「EUC-JIS-2004で符号化されたファイルを1行ずつ読み込み、各行の先頭にビュレット(箇条書きの頭に打つ、中ぐらいの大きさの点)を付加し、Shift_JIS-2004に変換して出力する」といった処理が可能です。

#!/usr/local/bin/python
import sys, codecs

dec = codecs.lookup('euc-jis-2004')[1]

f1 = open(sys.argv[1], 'r')
f2 = open(sys.argv[2], 'w')
while 1:
	s = f1.readline()
	if not s:
		break
	unicode_obj = dec(s)[0]
	unicode_obj = u'\u2022' + unicode_obj
	f2.write(unicode_obj.encode('shift_jis-2004'))
f1.close
f2.close

なお、私はPythonはほとんど全く分からないので、上のコードは以下のページを参考にしました。

JIS X 0213のテキストをワープロ文書に変換2005年05月29日 22:21

JIS X 0213の符号化方式によるプレーンテキストを、StarSuite/OpenOffice.org Writerのワープロ文書に変換するツールtxt2sxw 0.2を公開しました。

このツールは、Shift_JISX0213ならびにEUC-JISX0213で符号化されたテキストをsxw形式に変換します。当然、JIS X 0208のSJISならびにEUCも変換できます。

また、青空文庫で使われている形式のルビを、Writerのルビに変換できます。これによって、青空文庫に収録されている様々な作品をルビつきで読むことが可能になります。

フォントはデフォルトでStarSuiteに付属のものを使いますが、このフォントは、アイヌ語の表記に用いる小書きの「プ」の表示がうまくありません (半濁点が右側に離れてしまいます)。修正を期待したいところです。