文字のコード化

情報を伝達する場合、特に時間や距離を隔てた場合には、何らかの符号化が必要となる。 符号化というと難しそうに聞こえるが、たとえば狼煙をあげて合図するようなものから、 手旗信号などがそうだ。これらの場合情報を送る側と受ける側が同じ符号を使わなけれ ば意思疎通が不可能になってしまうのはわかると思う。

たとえばモールス信号は次のような信号の長短でアルファベットを送るがことができる が、これは世界共通の符号として取り決められているためだ。

モールス信号の例:
A=・━  B=━・・・  C=━・━・  D=━・・ 

コンピュータでの文字の符号化も同じことだ。必要な文字を洗い出して一覧を作り、そ れぞれに順番にコードを付けていけばよい。A=1, B=2, C=3... という感じだ。コンピ ュータ内部では1バイト単位で処理するのが都合が良いため16進数で表記すると、たと えばA=0x01, B=0x02, C=0x03...となる。

実はコンピュータがデータ処理に使われ出した当初は、単体で利用しネットワークやテ ープなどを通じてデータの受け渡しを行うことは想定されていなかった。そのため、符 号化も機種毎、メーカー毎に異なるものになってしまう。そこでモールス信号のように 規格が決められた。代表的なのはANSI(アメリカ規格協会)のASCIIだ。ASCIIとは American Standard Code for Information Interchange 情報交換のためのアメリカ標 準符号の略称で、128文字(制御文字を含む)が定義されている。

昔からコンピュータを使っている方は知っていると思うが、昔はコンピュータで使える 文字はアルファベットだけで、その後カナだけが使えるようになり、やがて漢字も使え るようになっていった。しかしこれらの文字の符号はJIS規格として定められてはいる が、同じように諸外国が独自に自国の文字が使えるコード体系で符号化をした結果、あ るコードに国によって違う文字が割り当てられてしまうことになった。このため、たと えばホームページを閲覧しているときブラウザは『このページは日本語でJISコードが 使われている』とか、『このページはフランス語でISO8859-1が使われている』という 情報が埋め込まれていないと正しいコードがわからず間違ったコードで表示してしまう。 ホームページが文字化けして読めないことがあるのはこういう訳だ。

日本のパソコンで一般に使える文字はJIS X 208(第1,2水準)で定義されている6000字あ まりで、常用漢字が2000文字ほどなので十分に思われる。しかし固有名詞で使われる難 しい文字や、異体字のような文字を表現することが出来ず、JIS X 213(第3,4水準)とし て4000字ほど追加された。だが日本最大の漢和辞典『大漢和辞典』には約5万の漢字が 収録されており、たとえば国会図書館にある書籍を電子化しようにも、現状ではコード 化されていない文字が大量にあることになる。

これらの問題をクリアすべく、世界中の文字を1つのコード体系で表現しようと言う理 想の元にUnicodeコンソーシアムが設立され、様々な企業が参加してコード化が現在も 進められている。また日本が誇るTRONでもTRONコードとして、すべてのコード体系を内 包するという方針でコード化されている。

JISコードからUnicodeへデータをやりとりするためにコード変換を行う場合、たとえば 『高』という文字の異体字のいわゆるハシゴ高はJISコードには存在しないためUnicode へ変換するにも『高』なのか『ハシゴ高』なのかがわからず、Unicodeでは『ハシゴ高』 が存在するにもかかわらず『高』の字に変換せざるを得ない。このようにコード体系や 規格によって1対多の関係があると変換が容易ではなくデータ交換時に情報が失われて しまうことになる。

さて、2002年にスタートした住基ネットではUnicodeをベースに不足する文字を追加した 『統一文字コード』を利用している。しかし残念ながら各自治体が独自に作り上げたシ ステムで利用されているすべての文字が登録されているわけではなく、そのような文字 を含むデータをやりとりするにはまだまだ問題があるようだ。

なお、UnicodeのUNIとはUniversal(普遍的な), Unique(唯一の), Uniform(一定の)とい った言葉から命名されたそうだ。


前へ| 次へ
コンピュータの部屋
トップページ