JIS漢字とUCS (Unicode)の文字の対応・変換について

ここでは、JIS漢字(JIS X 0208)とUCS (ISO/IEC 10646-1, JIS X 0221, Unicode)の文字の対応関係について述べる。この文書の内容は、JISとUnicode の間の妥当なコード変換を理解するために必要となる。制定されたばかりでまだ規格票の出版されていない新JIS漢字 (JIS X 0213)については詳しく触れることができなかった。【追記: 今後記述予定】

結論

UCS (Unicode) の各文字には、文字を一意に識別するための名前が付けられている。一方、JIS漢字の各文字にも、これに対応する文字名称が1997年の改正において付けられた。これによってJIS漢字とUCSの各文字について対応を知ることができる。

ただし、シフトJISの場合には1文字(FULLWIDTH OVERLINE)だけ例外がある。付録Cを参照されたい。

JIS/Unicodeの妥当な変換表

コード変換の実装の際に参考になる、テキスト形式の変換表を公開しているサイトを以下に掲げる。これらのサイトにある変換表は、標準に則っている。

JIS-UCS 変換表 (JIS X 0208:1997ならびにJIS X 0213:2000とUnicodeとの変換表)
JIS X 0213とUnicodeの対応表 (JIS X 0213:2004とUnicodeとの変換表)

また、GNU C Libraryのiconvで、妥当な変換表を挙げると以下のようになる。

EUC-JP, EUC-JISX0213
ISO-2022-JP, ISO-2022-JP-3
Shift_JIS, SHIFT_JISX0213

一方、CP932 (MS社のプロプライエタリな変換表) などは、異種プラットフォーム間のデータ交換で支障が出るので、一般には使うべきでない。(ただし、MS 社製品の内部処理用としては使わざるを得ないことがある。その場合、 CP932で変換したUnicode (MS-Unicode) はメモリ上でのみ用い、外部に流出させないような工夫が必要である)

付録A・漢字に関する補足

JIS漢字とUCSとでは、例示字形が同じに見えてもそのコードポイントが表現し得る字形の範囲に違いのある漢字がある。

たとえば、JIS X 0208:1997の「解説」に示されている例に、JIS漢字の「姫」という字に対応する文字がUCSには2種類あるということがある。

つまり、JIS漢字とUCSとでは漢字のコードポイントが一対一に対応しない。これはUCSの「統合漢字」における原規格分離規則(source separation rule) による。この規則は、「統合漢字」の元になった各文字コード規格において異なるコードポイントに当てられている漢字は、UCSにおいても別のコードポイントを与える(つまり、分離する)というものである。上の例においては、日本の規格で分離しない字体が中国と台湾の規格で分離されていたためにUCSでも分離されているのである。

UCSで採用された「文字名称」という識別方法は、このような多対一の対応関係を記述できない。便宜的な解決法としては、対応する複数の文字のうち、例示字形の似ている方の文字名称を採用するという考え方が妥当だろう。これはあくまでも便宜的な解決であって、論理的には、より精密な記述方法が考えられるべきである。

付録B・非漢字に関する補足

漢字以外の文字・記号については、対応関係の問題はほとんど存在しない。

ただし、実際に使われているコード変換プログラムには、文字名称と食い違うやりかたで変換するものがあることが知られている。(というよりは寧ろ、困ったことに、大抵のコード変換器はどこかで間違っている)

波ダッシュ

JIS漢字の波ダッシュ(～)の名前はWAVE DASHである。対応するUCSのコードポイントはU+301Cである。

ところが、シフトJISからUCSへの変換で、この記号をUCSのFULLWIDTH TILDEに変換するものがある。

この変換は次の点でおかしい。

記号の意味を理解していない。JISの規格票には「波ダッシュ」と記されており、音声記号のチルダとは考えられない。なお、新JIS漢字ではチルダが収録されることとなった。
シフトJISには元々チルダがないので、「FULLWIDTH」になる理由がない。 (「FULLWIDTH」名は、シフトJISのように重複符号化のあるコードとの往復変換を可能にするために設けられている。付録Cも参照のこと)

また、Unicode 2.0の仕様書ではWAVE DASHに「JIS punctuation」との注釈があり、JISの波ダッシュに対応させる意図が読み取れる。

ダッシュ(全角)

JIS漢字の全角ダッシュ(―)はEM DASHである。対応するUCSのコードポイントはU+2014である。

しかし、Unicodeコンソーシアムが提供する変換表では、Unicodeで対応する文字はEM DASHでなくHORINZONTAL BAR (U+2015)になっている。

これはUnicodeの変換表の間違いであろう。仮にJISの文字名称を見ないことにしても、JISの規格票では記号の意味として「ダッシュ(全角)」と記されているので、EM DASHとHORINZONTAL BARのどちらが適切かといえばEM DASHである。

負符号

JIS漢字の負符号(－)はMINUS SIGNである。対応するUCSのコードポイントはU+2212である。

これをUCSのFULLWIDTH HYPHEN-MINUSに変換するものがあるが、このような変換は、文字集合の体系としての理解に基づいているとはいえない。

JIS漢字においては、負符号とハイフン(‐)とは明確に分離されており、紛れがない。一方、HYPHEN-MINUSはASCIIの「-」のことで、ハイフンにも負符号にも使われる、意味の曖昧な記号である。JIS漢字にHYPHEN-MINUSは存在しない。よって上のような変換は不適切である。

対応関係を整理すると次の表のようになる。

ハイフンと負符号
文字名称	ASCII (ISO 646)	JIS X 0208	UCS
HYPHEN-MINUS	2/13	無し (JIS X 0213にはある)	U+002D
HYPHEN	無し	1-30	U+2010
MINUS SIGN	無し	1-61	U+2212

セント記号

JIS漢字のセント記号(￠)はCENT SIGNである。対応するUCSのコードポイントはU+00A2である。

ところが、これをUCSのFULLWIDTH CENT SIGNに変換するものがある。ASCII にもJIS X 0201にもセント記号はないので、これが「FULLWIDTH」になる理由はない。従ってこの変換は不適切である。

ポンド記号

JIS漢字のポンド記号(￡)はPOUND SIGNである。対応するUCSのコードポイントはU+00A3である。

ところが、これをUCSのFULLWIDTH POUND SIGNに変換するものがある。 ASCIIにもJIS X 0201にもポンド記号はないので、これが「FULLWIDTH」になる理由はない。従ってこの変換は不適切である。

否定記号

JIS漢字の否定記号(￢)はNOT SIGNである。対応するUCSのコードポイントはU+00ACである。

ところが、これをUCSのFULLWIDTH NOT SIGNに変換するものがある。ASCII にもJIS X 0201にも否定記号はないので、これが「FULLWIDTH」になる理由はない。従ってこの変換は不適切である。

双柱

JIS漢字の双柱(∥)はDOUBLE VERTICAL LINEである。対応するUCSのコードポイントはU+2016である。

これをUCSのPARALLEL TOに変換するものがある。こちらは数学で「平行」を表す記号である。双柱と平行とは、実際のテキストの中で使われる文脈から切り離すと形の上からは区別しがたい。また、90JISではこの文字の説明として「双柱」とともに「平行」をも挙げていた。

しかしJIS漢字の「∥」が双柱か平行かといえば、双柱とするのが適当であり、平行とはしがたい。区点の並びの中で双柱は、斜線や波ダッシュ、縦線などとともに一般的な記述記号のグループの中にあり、学術記号(角∠、垂直⊥、弧⌒等が含まれる)のグループとは区別されているからである。

なお、JIS X 0213では、学術記号としての「平行」(PARALLEL TO)が「平行の否定」(NOT PARALLEL TO)とともに追加された。

大きな丸

JIS漢字の「大きな丸」(◯)はLARGE CIRCLEである。対応するUCSのコードポイントはU+25EFである。

JISではこれは元々「合成用」という位置付けだったが、どのような文字をどうすれば合成できるのかが不明であり、また実際にも合成することはできなかったので、97JISではとうとう「合成のために用いてはならない」とされることとなった。

Unicode 2.0仕様書のCOMBINING ENCLOSING CIRCLE (U+20DD)の注釈には「JIS composition circle」とあるが、Unicodeコンソーシアムの提供する変換表にはこの文字は現れず、JISの文字名称と同じLARGE CIRCLE (U+25EF)が対応させられているので問題はない。

付録C・シフトJISコードに関する補足

シフトJISコードはJIS X 0201 (ラテン文字・片仮名の両方)とJIS漢字とを符号化する符号化文字集合である。(97JISの附属書1を参照のこと)

「FULLWIDTH OVERLINE」欠落問題

オーバライン「￣」(OVERLINE)はJIS X 0201とJIS X 0208の両方に存在するので、シフトJISにおいては、JIS X 0208の方のオーバラインは代替名称の FULLWIDTH OVERLINEとなる。(JIS X 0208のオーバラインが本質的に「FULLWIDTH」なのではなく、JIS X 0201ともに使う場合にはオーバラインが重複してしまうために片方が代替名称になるのだということに注意されたい)

ところが、現在のUCSには、このFULLWIDTH OVERLINEが存在しない。この1 文字に関してはシフトJISとUCSとの間で往復変換の結果が保証されないということになる。また、代替名称とはいえ、「UCSはシフトJISをカバーしきれていない」という言い方もできよう。

Unicodeコンソーシアムの変換表では、FULLWIDTH OVERLINEにあたる文字が「FULLWIDTH MACRON」になっている。もしこれがシフトJISの「FULLWIDTH OVERLINE」の役割を果たすつもりのものであったならば、UCS側の文字名称の付け間違いである。

従って、シフトJISからUCSへの変換では、FULLWIDTH OVERLINEについて、変換先の候補が二つあることになる。OVERLINEとFULLWIDTH MACRONである。

UCSの意図からすると、シフトJISとの往復変換を保証するつもりであった筈であるから、とりあえずFULLWIDTH MACRONにうつしておき、この文字名称が FULLWIDTH OVERLINEに訂正されるのを待つというのが無難な考え方といえよう。ただし、代替名称にあたる文字が無いのだから、FULLWIDTHでないOVERLINEに変換することも間違いとはいいきれない。

円記号問題

シフトJISにおけるバイト値0x20～0x7fの範囲はJIS X 0201と同等であって、 ASCII (ISO/IEC 646 IRV)ではない。これはシフトJISの由来による。日本のパソコンでJIS X 0201の8ビットコード(ラテン文字・片仮名)を使っていたところに、これと互換性を保ちながらJIS漢字をも使おうとして生み出されたのが、既存のコードの隙間にJIS漢字を「シフト」して強引に詰め込む「シフトJIS」コードであった。よって、シフトJISの1バイトコードはJIS X 0201なのであり、 ASCIIではあり得ない。

(ちなみに、シフトJISでなくEUCの場合は、UnixでASCIIを使っていたところに漢字コードを追加したコードなので、0x20～0x7fはASCIIである)

従って、シフトJISにおけるバイト値0x5cは円記号(YEN SIGN)であり、 ASCIIで同じバイト値の逆斜線(REVERSE SOLIDUS。「バックスラッシュ」とも) ではない。

さりながら、シフトJISの円記号をUCSの逆斜線(REVERSE SOLIDUS)に変換するものがある。

バイト値が同じであるために円記号と逆斜線を混同して使われてきた経緯があるので、状況に応じて、円記号を逆斜線に変換することがあるかもしれない。しかしそれは特殊な目的のための変換であり、常用するものではないことに注意されたい。

なお、シフトJISのYEN SIGNをREVERSE SOLIDUSに変換し、FULLWIDTH YEN SIGNをそのままの文字名称としてUCSに変換するものがあるが、この方法では FULLWIDTHでない普通のYEN SIGNが存在しないことになる。

円記号およびチルダについて、シフトJISとEUCの違いを正しくまとめると次のようになる。少々込み入って見えるが、要は「ASCII/JISラテン文字とJIS 漢字とで重複している文字があるとき、JIS漢字の方がFULLWIDTHになる」ということである。シフトJISにチルダが無いのは意外かもしれないが、規格をよく読むとこれが正しいということが分かる。新JIS漢字にはチルダが入るので、シフトJISでもチルダを表現できることになる。

シフトJISの場合、円記号とオーバラインには1バイトのものが使われる。2バイトの方は代替名称(FULLWIDTH)になる。逆斜線は(1バイトのものはないので)2バイトのものが使われる(つまりFULLWIDTHにはならない)。チルダはどこにも存在しない。
EUCの場合、逆斜線とチルダには1バイトのものが使われる。2バイトの逆斜線は代替名称(FULLWIDTH)になる。円記号とオーバラインは(1バイトのものはないので)2バイトの方が使われる(つまりFULLWIDTHにはならない)。チルダは重複しないが、もし補助漢字(JIS X 0212)を使うと、その中のチルダは FULLWIDTH TILDEになる。

円記号、逆斜線、オーバライン、チルダ
文字名称	EUC (ASCII + JIS漢字)	シフトJIS (JISラテン文字 + JIS漢字)
YEN SIGN	0xa1ef	0x5c
FULLWIDTH YEN SIGN	-	0x818f
REVERSE SOLIDUS	0x5c	0x815f
FULLWIDTH REVERSE SOLIDUS	0xa1c0	-
OVERLINE	0xa1b1	0x7e
FULLWIDTH OVERLINE	-	0x8150
TILDE	0x7e	-
FULLWIDTH TILDE	-	-

ただし、97JISをよく読むと、代替名称「FULLWIDTH REVERSE SOLIDUS」がどこにも見当たらない。これは編集上の誤りのようだ。

付録D・コード変換器の実装についての情報源

本稿では具体的にどの実装がどのようなコード変換を行うかについては立ち入らない。下記の資料を参考にされたい。

付録E・本稿の動機

日本で使われる文字コードとUCSとの間の変換については既にいくつかの文書で言及されているが、今回敢えてこのような文書を作成したのは以下のような理由による。

それらの文書で有力なものは、JIS X 0208の1997年改正より前に書かれたものらしく、97JISの成果が取り入れられていない。UCSとの対応については97JISで一通りの決着を見ている。
「全角・半角」等についての理解が必ずしも正確でない解説が見受けられる。

特に前者については、変換プログラムによって違いのある文字について、 97JISを参照するのみならず、90JISでの記述に溯って97JISで付けられた文字名称の検討を行った。その結果、規格の一貫性という点からみても十分に妥当な文字名称が付けられていることを確認できた。(付録 B)

あとがき

文字集合は体系として理解される。例えば、ラテン文字とギリシャ文字とを含む文字集合があり、両方のアルファベットの最初の文字「A」を区別しなかったとする。だとすれば、きっと「B」も「D」も「E」も、形の同じものは全部統合している筈だと考えるのが普通である。ところが、もし「M」と「Μ」だけは区別していたとしたら不思議である。何か特別な理由があるとすれば、文字集合の表にでもその理由が付せられていることだろう。合理的な理由が見つからないとなると、統合のし忘れと考えられる。JIS漢字で「飲」と「飮」が統合されていないのを97JISの附属書7が「第1次規格の見落とし」と判断したのは、JIS漢字を体系として調査した成果である。この附属書では「見落とし」の原因も推測されている。

近頃、体系としての理解を等閑にし、文字や記号の意味を無視し、ただバイト値だけしか見ていない文字コード論を見かけることがある。このような議論は極端に走るほど文字コードの本質からかけ離れてゆく。誤った理解に基づいたコード変換プログラムの実装だけを根拠にして既存の文字コード規格を欠陥呼ばわりするなどはその最たるものであり――この手の言い種は特定のコード系のプロパガンダだけを目的としており、論理性などはもとより期待すべくもないが――本末転倒も甚だしい。規格票のように紙に印刷された資料を掘り起こすことを厭わずに確かな調査を行い、深い理解に基づいた議論が展開されることを切望する。

主要参考文献

芝野耕司編著、『JIS漢字字典』、日本規格協会、1997。
豊島正之、『コードのはなし:追補』、情報処理語学文学研究会会報第17号、1995。
The Unicode Consortium, The Unicode Standard, Version 2.0, Addison-Wesley, 1996.

2000年2月1日仮公開, 2000年2月6日正式版公開, 2006年8月16日最終更新
矢野啓介 yano AT moon.email.ne.jp
文責・著作権等は諸注意のページによります。