文字のコード化

情報を伝達する場合、特に時間や距離を隔てた場合には、何らかの符号化が必要となる。符号化というと難しそうに聞こえるが、たとえば狼煙をあげて合図するようなものから、手旗信号などがそうだ。これらの場合情報を送る側と受ける側が同じ符号を使わなければ意思疎通が不可能になってしまうのはわかると思う。

たとえばモールス信号は次のような信号の長短でアルファベットを送るがことができるが、これは世界共通の符号として取り決められているためだ。

モールス信号の例：
A=・━  B=━・・・  C=━・━・  D=━・・

コンピュータでの文字の符号化も同じことだ。必要な文字を洗い出して一覧を作り、それぞれに順番にコードを付けていけばよい。A=1, B=2, C=3... という感じだ。コンピュータ内部では１バイト単位で処理するのが都合が良いため16進数で表記すると、たとえばA=0x01, B=0x02, C=0x03...となる。

実はコンピュータがデータ処理に使われ出した当初は、単体で利用しネットワークやテープなどを通じてデータの受け渡しを行うことは想定されていなかった。そのため、符号化も機種毎、メーカー毎に異なるものになってしまう。そこでモールス信号のように規格が決められた。代表的なのはANSI(アメリカ規格協会)のASCIIだ。ASCIIとは American Standard Code for Information Interchange 情報交換のためのアメリカ標準符号の略称で、128文字(制御文字を含む)が定義されている。

昔からコンピュータを使っている方は知っていると思うが、昔はコンピュータで使える文字はアルファベットだけで、その後カナだけが使えるようになり、やがて漢字も使えるようになっていった。しかしこれらの文字の符号はJIS規格として定められてはいるが、同じように諸外国が独自に自国の文字が使えるコード体系で符号化をした結果、あるコードに国によって違う文字が割り当てられてしまうことになった。このため、たとえばホームページを閲覧しているときブラウザは『このページは日本語でJISコードが使われている』とか、『このページはフランス語でISO8859-1が使われている』という情報が埋め込まれていないと正しいコードがわからず間違ったコードで表示してしまう。ホームページが文字化けして読めないことがあるのはこういう訳だ。

日本のパソコンで一般に使える文字はJIS X 208(第1,2水準)で定義されている6000字あまりで、常用漢字が2000文字ほどなので十分に思われる。しかし固有名詞で使われる難しい文字や、異体字のような文字を表現することが出来ず、JIS X 213(第3,4水準)として4000字ほど追加された。だが日本最大の漢和辞典『大漢和辞典』には約5万の漢字が収録されており、たとえば国会図書館にある書籍を電子化しようにも、現状ではコード化されていない文字が大量にあることになる。

これらの問題をクリアすべく、世界中の文字を１つのコード体系で表現しようと言う理想の元にUnicodeコンソーシアムが設立され、様々な企業が参加してコード化が現在も進められている。また日本が誇るTRONでもTRONコードとして、すべてのコード体系を内包するという方針でコード化されている。

JISコードからUnicodeへデータをやりとりするためにコード変換を行う場合、たとえば『高』という文字の異体字のいわゆるハシゴ高はJISコードには存在しないためUnicode へ変換するにも『高』なのか『ハシゴ高』なのかがわからず、Unicodeでは『ハシゴ高』が存在するにもかかわらず『高』の字に変換せざるを得ない。このようにコード体系や規格によって１対多の関係があると変換が容易ではなくデータ交換時に情報が失われてしまうことになる。

さて、2002年にスタートした住基ネットではUnicodeをベースに不足する文字を追加した『統一文字コード』を利用している。しかし残念ながら各自治体が独自に作り上げたシステムで利用されているすべての文字が登録されているわけではなく、そのような文字を含むデータをやりとりするにはまだまだ問題があるようだ。

なお、UnicodeのUNIとはUniversal(普遍的な), Unique(唯一の), Uniform(一定の)といった言葉から命名されたそうだ。

Unicode Consortium

前へ| 次へ
コンピュータの部屋
トップページ