本文へ

CyberLibrarian

図書館員のコンピュータ基礎講座

Unicode(東アジア)

【2015-07-31更新】

Unicodeの字種の表です。
下表のリンク先のページに、十六進数の数値文字参照で記述した文字コード表を掲載しています。文字コード表中の各文字は、ユニコード・コンソーシアム外部へのリンクが提供しているUnihanデータベース外部へのリンクの該当文字へリンクしてあります。文字コード表中の文字は、環境によっては正しく表示されない場合がありますが、各ページからリンクしているPDFでは正しく表示されます。

文字ブロック Unicode範囲 説明
CJK統合漢字
CJK統合漢字 CJK Unified Ideographs 4E00~9FFF 字源的には同じだが字形の異なる中国語、日本語、朝鮮語、ベトナム語の漢字に同じコードを与えて統合した漢字です。詳細は「文字コード」のページの「Unicode」の項目を参照してください。
CJK統合漢字拡張A~Eは、主にCJK統合漢字と比べて使用頻度の低い漢字で、CJK統合漢字に統合できないものです。拡張Aと拡張Bには、JIS X 0213の漢字も含まれています。また拡張Bには、多数の重複字が指摘されています。
CJK統合漢字拡張A CJK Unified Ideographs Extension A 3400~4DBF
CJK統合漢字拡張B CJK Unified Ideographs Extension B 20000~2A6DF
CJK統合漢字拡張C CJK Unified Ideographs Extension C 2A700~2B73F
CJK統合漢字拡張D CJK Unified Ideographs Extension D 2B740~2B81F
CJK統合漢字拡張E CJK Unified Ideographs Extension E 2B820~2CEAF
CJK互換漢字 CJK Compatibility Ideographs F900~FAFF 次のようなものが含まれます。
  1. 韓国の規格(KS C 5601-1987、現KS X 1001-1998)で異なる発音を持つ同じ漢字に別の符号を与ていたもの(F900~FA0B)
  2. 台湾の規格(Big5)で誤って重複して符号化されていた漢字(FA0C~FA0D)
  3. 日本のWindowsパソコンにIBM拡張文字として収録されていた漢字(FA0E~FA2D)
  4. 旧バージョンのUnicodeで誤って定義された漢字(FA2E~FA2F)
  5. JIS X 0213で包摂基準が変更されたことに伴って追加された漢字(FA30~FA6A)
  6. 日本のデータ放送規格(ARIB STD-B24)の外字(ARIB外字)に基づくもの(FA6B~FA6D)
  7. 北朝鮮の規格(KPS 10721-2000)の一部の漢字(FA70~FAD9)
  8. 台湾の規格(CNS 11643-1992)の一部の漢字および香港増補字符集(HKSCS)の6字(2F800~2FA1D)
一部を除き、本来はCJK統合漢字に統合すべき漢字で、同じ字源の漢字がCJK統合漢字に収録されていますが、既存の規格において別個の文字コードを与えられていたため、既存の規格とUnicodeの間の双方向のデータ変換(ラウンド・トリップ(Round Trip))が可能になるように収録された漢字です。そのため、ラウンド・トリップの用途以外には使用できません。ただし、一部(FA0E、FA0F、FA11、FA13、FA14、FA1F、FA21、FA23、FA24、FA27、FA28、FA29)は、ユニコード・コンソーシアムのみが選出した漢字で、ラウンド・トリップ用の互換漢字ではなく、統合漢字として扱うべきものです。
CJK互換漢字補助 CJK Compatibility Ideographs Supplement 2F800~2FA1F
異体字セレクタ補助 Variation Selectors Supplement E0100~E01EF Unicodeは、字源的には同じだけれども字形の異なる文字や記号に同じコードを与えていますが、異体字セレクタ(Variation Selector、字形選択子ともいう)を用いると、字形の違いを表現できます。漢字の異体字はIVD外部へのリンク(アイヴイディー;Ideographic Variation Database)というデータベースに登録されます。IVD登録の経過は次のとおりです。
  1. 2007年に、Adobe社が開発したAdobe-Japan1-6の漢字が登録されました。2007年版IVD外部へのリンク
    • 異体字のない漢字の字形も含まれています。
  2. 2010年に、経済産業省の委託事業である汎用電子情報交換環境整備プログラムの漢字(汎用電子コレクション)が登録されました。2010年版IVD外部へのリンク
    • Adobe-Japan1-6と汎用電子コレクションには重複する字形も多く含まれています()。
  3. 2012年に、汎用電子コレクションとAdobe-Japan1-6の未登録漢字が登録されました。2012年版IVD外部へのリンク
  4. 2014年に、フォント・印刷関連の企業等で構成される文字情報技術促進協議会(旧IVS技術促進協議会)の漢字(文字情報コレクション)の漢字が登録されました。2014年版IVD外部へのリンク
    • 大部分は、汎用電子コレクションと共通のIVSを持っています。

文字コード自体は、「Unicode(特殊記号)」の「異体字セレクタ補助」を参照してください。

漢字の各異体字は、漢字(基底文字)の文字コードに、異体字セレクタE0100~E01EFを後置して表します。

例:
  • 845B E0100「845B」(葛)の後に「E0100」を記述した場合
  • 845B E0101「845B」(葛)の後に「E0101」を記述した場合

なお、「845B E0100」(分かりやすさのために2つの文字コード間に空白を入れたが本来は不要)などの文字列をIVS(アイヴイエス;Ideographic Variation Sequence)といいます。

:Adobe-Japan1-6の漢字内でも、9039 E0101と9054 E0101、29FCE E0100と29FD7 E0100が重複しています。
部首、字画など
康煕部首 CJK Radicals 2F00~2FDF 辞書の索引などで使う部首です。CJK補助部首には部首の派生形や簡体字用の部首が、康煕部首には部首用の文字が含まれています。これらの文字の多くは、同等のものがCJK統合漢字にも含まれていますが、ここに収められている文字は、部首であることを示す目的のみに使用できます。
CJK部首補助 CJK Radicals Supplement 2E80~2EFF
CJKの筆画 CJK Strokes 31C0~31EF 漢字を構成する点や線などの筆画です。
漢字構成記述文字 Ideographic Description Characters 2FF0~2FFF 漢字を組み合わせて別の漢字を表現するIDS(アイディーエス;Ideographic Description Sequence)という方法で用いる構成部分の配列方法を示す符号であるIDC(アイディーシー;Ideographic Description Characters)です。Unicodeで符号化されていない文字を表現するために用います。
例:記 = 「IDC言己」、号 = 「IDC口丂」
(「記」や「号」はUnicodeに含まれているため、本来の使用方法ではない)
朝鮮
ハングル字母 Hangul Jamo 1100~11FF ハングルを構成する字母で、これらを合成して現代から古代までのハングル音節文字を作成できます。
  • ハングル字母は、1100~115Fは初声子音、1160~11A2は中声母音、11A8~11F9は終声子音で構成されています。
  • ハングル字母拡張Aは、中世ハングルの初声字母です。
  • ハングル字母拡張Bは、中世ハングルの中声と終声字母です。
  • ハングル互換字母は、韓国の規格(KS C 5601-1987、現KS X 1001-1998)との互換性を保つためにのみ提供されています。
ほかに、「半角・全角形」に「半角ハングル」(ハングル互換字母の半角形)が含まれています。
ハングル字母拡張A Hangul Jamo Extended A A960~A97F
ハングル字母拡張B Hangul Jamo Extended B D7B0~D7FF
ハングル互換字母 Hangul Compatibility Jamo 3130~318F
ハングル音節文字 Hangul Syllables AC00~D7AF 現代ハングルの音節文字です。Johab(チョハブ;組み合わせの意味)と呼ばれる、字母を合成した形の文字です。
日本・朝鮮
平仮名 Hiragana 3040~309F 平仮名です。
片仮名 Katakana 30A0~30FF 片仮名です。「片仮名拡張」にはアイヌ語などの翻字に使用する小書き片仮名が、「仮名補助」には歴史的仮名が含まれています。
ほかに、「半角・全角形」に「半角片仮名」が含まれています。
片仮名拡張 Katakana Phonetic Extensions 31F0~31FF
仮名補助 Kana Supplement 1B000~1B0FF
半角・全角形 Halfwidth and Fullwidth Forms FF00~FFEF ASCIIや記号の全角形、片仮名ハングル互換字母の半角形などです。他の互換用の文字と同様、相当する文字(全角・半角を反転させた文字)を用いる方が良いとされています。
漢文用記号 Kanbun 3190~319F 漢文を日本語で読む順序を示すために付す返り点です。
中国・台湾
注音字母 Bopomofo 3100~312F ボポモフォや注音符号とも呼ばれる、中国語の漢字の発音を示す記号です。辞書の索引や日本語のルビのような方法で用いられます。中国大陸では現在はピンインが採用されていますが、台湾では現在でも使用されています。
注音字母拡張は、閩南、客家、苗族、革家の方言用の文字で、他の注音字母と共に用います。
注音字母拡張 Bopomofo Extended 31A0~31BF
リス文字 Lisu A4D0~A4FF 中国の雲南省などに居住する少数民族であるリス族(傈僳族)の言語であるリス語のために中国がラテン文字を基にして作り出した文字です。
ポラード文字 Miao 16F00~16F9F 中国の雲南省などに居住する少数民族である苗族の言語である苗語のために19世紀に宣教師サミュエル・ポーラド(Samuel Pollard)が考案した文字で、苗文字とも呼ばれます。
イ文字 Yi Syllables A000~A48F 中国の小数民族であるイ族(彝族)が使用するイ語の文字で、ロロ文字とも呼ばれます。彝文字と書かれることもあります。縦に書く場合と、左から右に書く場合があります。現代規範イ文で使用する文字と部首が収録されています。各文字には声調があります。SIL Internationalのサイトでフリーフォント外部へのリンクを入手できます。
イ文字部首 Yi Radicals A490~A4CF
参照・参考文献
  • The Unicode standard, version 4.0 / the Unicode Consortium ; edited by Joan Aliprand ... [et al.]. Addison-Wesley, c2003 [b]
  • Unicode標準入門 / トニー・グラハム[ほか]著 ; 乾和志, 海老塚徹訳. 翔泳社, 2001.5 [b]
  • 文字符号の歴史. アジア編 / 三上喜貴著 共立出版, 2002.3 [b]
ページのトップへ
CyberLibrarian : tips on computer for librarians, 1998-