図書館員のコンピュータ基礎講座

Unicode(東アジア)

【2023-11-08更新】

Unicodeの字種の表です。
下表のリンク先のページに、十六進数の数値文字参照で記述した文字コード表を掲載しています。文字コード表中の各文字は、ユニコード・コンソーシアム外部へのリンクが提供しているUnihanデータベース外部へのリンクの該当文字へリンクしてあります。文字コード表中の文字は、環境によっては正しく表示されない場合がありますが、各ページからリンクしているPDFでは正しく表示されます。

文字ブロック Unicode範囲 説明
CJK統合漢字
CJK統合漢字 CJK Unified Ideographs 4E00~9FFC 字源的には同じだが字形の異なる中国語、日本語、朝鮮語、ベトナム語の漢字に同じコードを与えて統合した漢字です。
  • CJK統合漢字、拡張Aと拡張Bには、JIS X 0213の漢字が含まれています。
  • 拡張Bには、多数の重複字の存在が指摘されています。
  • 拡張Fには、文字情報基盤整備事業が提案した漢字(1,645字)、大蔵経テキストデータベース研究会が提案した漢字(2,884字)も含まれています。
  • 拡張Gには、大蔵経テキストデータベース研究会が提案した漢字(329字)も含まれています。
CJK統合漢字拡張A CJK Unified Ideographs Extension A 3400~4DB5
CJK統合漢字拡張B CJK Unified Ideographs Extension B 20000~2A6DD
CJK統合漢字拡張C CJK Unified Ideographs Extension C 2A700~2B739
CJK統合漢字拡張D CJK Unified Ideographs Extension D 2B740~2B81D
CJK統合漢字拡張E CJK Unified Ideographs Extension E 2B820~2CEA1
CJK統合漢字拡張F CJK Unified Ideographs Extension F 2CEB0~2EBE0
CJK統合漢字拡張G CJK Unified Ideographs Extension G 30000~3134A
CJK統合漢字拡張H CJK Unified Ideographs Extension H 31350~323AF
CJK統合漢字拡張I CJK Unified Ideographs Extension I 2EBF0~2EE5D
CJK互換漢字 CJK Compatibility Ideographs F900~FAFF 次のようなものが含まれます。
  1. 韓国の規格(KS C 5601-1987、現KS X 1001-1998)で異なる発音を持つ同じ漢字に別の符号を与ていたもの(F900~FA0B)
  2. 香港・台湾・マカオ等で用いられているBig5で誤って重複して符号化されていた漢字(FA0C~FA0D)
  3. 日本のWindowsパソコンにIBM拡張文字として収録されていた漢字(FA0E~FA2D)
  4. 旧バージョンのUnicodeで誤って定義された漢字(FA2E~FA2F)
  5. JIS X 0213で包摂基準が変更されたことに伴って追加された漢字(FA30~FA6A)
  6. 日本のデータ放送規格(ARIB STD-B24)の外字(ARIB外字)に基づくもの(FA6B~FA6D)
  7. 北朝鮮の規格(KPS 10721-2000)の一部の漢字(FA70~FAD9)
  8. 台湾の規格(CNS 11643-1992)の一部の漢字と香港増補字符集(HKSCS)の6字(2F800~2FA1D)
一部を除き、本来はCJK統合漢字に統合すべき漢字で、同じ字源の漢字がCJK統合漢字に収録されていますが、既存の規格において別個の文字コードを与えられていたため、既存の規格とUnicodeの間の双方向のデータ変換(ラウンド・トリップ(Round Trip))が可能になるように収録された漢字です。そのため、ラウンド・トリップの用途以外には使用できません。ただし、一部(FA0E、FA0F、FA11、FA13、FA14、FA1F、FA21、FA23、FA24、FA27、FA28、FA29)は、ユニコード・コンソーシアムのみが選出した漢字で、ラウンド・トリップ用の互換漢字ではなく、統合漢字として扱うべきものです。
CJK互換漢字補助 CJK Compatibility Ideographs Supplement 2F800~2FA1F
字形選択子補助 Variation Selectors Supplement E0100~E01EF Unicodeは、字源的には同じだけれども字形の異なる文字や記号に同じコードを与えていますが、字形選択子(Variation Selector、異体字セレクタともいう)を用いると、字形の違いを表現できます。漢字の異体字はIVD外部へのリンク(アイヴイディー;Ideographic Variation Database)というデータベースに登録されます。IVD登録の経過は次のとおりです。
  1. 2007年に、Adobe社が開発したAdobe-Japan1-6の漢字が登録されました。2007年版IVD外部へのリンク
    • 異体字のない漢字の字形も含まれています。
  2. 2010年に、経済産業省の委託事業である汎用電子情報交換環境整備プログラムの漢字(Hanyo-Denshiコレクション)が登録されました。2010年版IVD外部へのリンク
    • Adobe-Japan1-6とHanyo-Denshiコレクションには重複する字形も多く含まれています()。
  3. 2012年に、Hanyo-DenshiコレクションとAdobe-Japan1-6の未登録漢字が登録されました。2012年版IVD外部へのリンク
  4. 2014年に、フォント・印刷関連の企業等で構成される文字情報技術促進協議会(旧IVS技術促進協議会)の漢字(Moji_Johoコレクション)の漢字が登録されました。2014年版IVD外部へのリンク
    • 大部分は、Hanyo-Denshiコレクションと共通のIVSを持っています。
  5. 2016年に、マカオ特別行政区のMSARGコレクションが登録されました。2016年版IVD外部へのリンク
  6. 2017年に、Adobe-Japan1と文字情報基盤整備事業のMoji_Johoコレクションの文字の追加登録と韓国のKRNameコレクションの新規登録が行われました。2017年版IVD外部へのリンク
  7. 2020年に、MSARGコレクションの追加登録が行われました。2020年版IVD外部へのリンク

Unicode(特殊用途文字)」の「字形選択子補助」にリンクしてあります。

漢字の各異体字は、漢字(基底文字)の文字コードに、字形選択子E0100~E01EFを後置して表します。

例:
  • 845B E0100「845B」(葛)の後に「E0100」を記述した場合
  • 845B E0101「845B」(葛)の後に「E0101」を記述した場合

なお、「845B E0100」(分かりやすさのために2つの文字コード間に空白を入れたが本来は不要)などの文字列をIVS(アイヴイエス;Ideographic Variation Sequence)といいます。

:Adobe-Japan1-6の漢字内でも、9039 E0101と9054 E0101、29FCE E0100と29FD7 E0100が重複しています。
部首、字画など
康熙部首 CJK Radicals 2F00~2FDF 辞書の索引などで使う部首です。CJK補助部首には部首の派生形や簡体字用の部首が、康熙部首には部首用の文字が含まれています。これらの文字の多くは、同等のものがCJK統合漢字にも含まれていますが、ここに収められている文字は、部首であることを示す目的のみに使用できます。
CJK部首補助 CJK Radicals Supplement 2E80~2EFF
CJKの筆画 CJK Strokes 31C0~31EF 漢字を構成する点や線などの筆画です。
漢字構成記述文字,IDC Ideographic Description Characters 2FF0~2FFF 漢字を組み合わせて別の漢字を表現するIDS(アイディーエス;Ideographic Description Sequence)という方法で用いる構成部分の配列方法を示す符号であるIDC(アイディーシー;Ideographic Description Characters)です。Unicodeで符号化されていない文字を表現するために用います。
例:記 = 「IDC言己」、号 = 「IDC口丂」
(「記」や「号」はUnicodeに含まれているため、本来の使用方法ではない)
朝鮮
ハングル字母 Hangul Jamo 1100~11FF ハングルを構成する字母で、これらを合成して現代から古代までのハングル音節文字を作成できます。
  • ハングル字母は、1100~115Fは初声子音、1160~11A2は中声母音、11A8~11F9は終声子音で構成されています。
  • ハングル字母拡張Aは、中世ハングルの初声字母です。
  • ハングル字母拡張Bは、中世ハングルの中声と終声字母です。
  • ハングル互換字母は、韓国の規格(KS C 5601-1987、現KS X 1001-1998)との互換性を保つためにのみ提供されています。
ほかに、「半角・全角形」に「半角ハングル」(ハングル互換字母の半角形)が含まれています。
ハングル字母拡張A Hangul Jamo Extended-A A960~A97F
ハングル字母拡張B Hangul Jamo Extended-B D7B0~D7FF
ハングル互換字母 Hangul Compatibility Jamo 3130~318F
ハングル音節文字 Hangul Syllables AC00~D7A3 現代ハングルの音節文字です。Johab(チョハブ;組み合わせの意味)と呼ばれる、字母を合成した形の文字です。
日本・朝鮮
平仮名 Hiragana 3040~309F 平仮名です。
片仮名 Katakana 30A0~30FF 片仮名です。「片仮名拡張」にはアイヌ語などの翻字に使用する小書き片仮名が含まれています。
ほかに、「半角・全角形」に「半角片仮名」が含まれています。
片仮名拡張 Katakana Phonetic Extensions 31F0~31FF
仮名補助 Kana Supplement 1B000~1B0FF
  • 仮名補助: 歴史的仮名と変体仮名
  • 仮名拡張A: 変体仮名
  • 仮名拡張B: 台湾語(閩南語)の振り仮名用の声調記号(八声符号)
  • 小仮名拡張: 小書きの平仮名と片仮名
仮名拡張A Kana Extended-A 1B100~1B12F
仮名拡張B Kana Extended-B 1AFF0~1AFFF
小仮名拡張 Small Kana Extension 1B130~1B16F
半角・全角形 Halfwidth and Fullwidth Forms FF00~FFEF ASCIIや記号の全角形、片仮名ハングル互換字母の半角形などです。他の互換用の文字と同様、相当する文字(全角・半角を反転させた文字)を用いる方が良いとされています。
漢文用記号 Kanbun 3190~319F 漢文を日本語で読む順序を示すために付す返り点です。
中国・台湾
注音字母 Bopomofo 3100~312F ボポモフォや注音符号とも呼ばれる、中国語の漢字の発音を示す記号です。辞書の索引や日本語のルビのような方法で用いられます。中国大陸では現在はピンインが採用されていますが、台湾では現在でも使用されています。
注音字母拡張は、閩南、客家、苗族、革家の方言用の文字で、他の注音字母と共に用います。
注音字母拡張 Bopomofo Extended 31A0~31BF
契丹小字 Khitan Small Script 18B00~18BFF モンゴル・中国北部の遼(916~1125年)で契丹族が用いていた契丹語用の文字です。契丹語用の文字としては、遼を建国した耶律阿保機が漢字を参考・借用して920年に考案した契丹大字(表意文字が主体とされる)と、阿保機の弟である迭剌がウイグル文字を参考に924年頃に考案した契丹小字(表音文字が主体とされる)が知られています。
リス文字 Lisu A4D0~A4FF 中国の雲南省などに居住する少数民族であるリス族(傈僳族)の言語であるリス語のために中国がラテン文字を基にして作り出した文字です。
リス文字補助 Lisu Supplement 11FB0~11FBF
ミャオ文字 Miao 16F00~16F9F 中国の雲南省などに居住する少数民族であるミャオ族(苗族)の言語である苗語のために19世紀に宣教師サミュエル・ポーラド(Samuel Pollard)が考案した文字で、ポラード文字とも呼ばれます。
女書 Nushu 1B170~1B2FF 主に中国の湖南省江永県において、漢字を書くことができなかった女性が、中国語の方言を記述するために用いた文字です。
西夏文字 Tangut 17000~187EC 中国西北部の西夏王国(1032~1227年)で西夏語を表すために考案された西夏文字とその構成要素です。
西夏文字要素 Tangut Components 18800~18AFF
西夏文字補助 Tangut Supplement 18D00~18D8F
イ文字 Yi Syllables A000~A48F 中国の小数民族であるイ族(彝族)が用いるイ語の文字で、ロロ文字とも呼ばれます。彝文字と書かれることもあります。縦に書く場合と、左から右に書く場合があります。現代規範イ文で使用する文字と部首が収録されています。各文字には声調があります。
イ文字部首 Yi Radicals A490~A4CF
参照・参考文献
  • The Unicode standard, version 4.0 / the Unicode Consortium ; edited by Joan Aliprand ... [et al.]. Addison-Wesley, c2003 [b]
  • Unicode標準入門 / トニー・グラハム[ほか]著 ; 乾和志, 海老塚徹訳. 翔泳社, 2001.5 [b]
  • 文字符号の歴史. アジア編 / 三上喜貴著 共立出版, 2002.3 [b]
ページのトップへ
CyberLibrarian : tips on computer for librarians, 1998-