キャラクタ・セットについて

日本語キャラクタセット

日本語HTML文書は、JIS、Shift_JIS、EUC(extensive unix code)の3つのうちどの文字コード化を選んでいるかはIANA(Internet Assigned Numbers Authority)という組織に登録されているキャラクタセット・コードをメタタグ<Metha Tug>のなかに以下のように記載することになっている:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=ISO-2022-JP">

<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=Shift_JIS">

<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=EUC-JP">

IANAに登録されていなくても x- で始まるキャラクタセット・コードもほとんどのブラウザーは理解する。

Shift_JISやEUCは"charset=x-sjis"や "charset=x-euc-jp"となる。しかし、ブラウザによっては、 x- は解釈するけどIANAに登録されているのを解釈しないというのもあるそうだ。たとえばNavigator 2.0などは、”x-sjis”は解釈するけど ”Shift_JIS”は解釈しないそうだ。

シフトJISはマイクロソフトが開発した文字コードでMS Kanjiとも言われ、マックも使っている。このようなわけで、グリーンウッド氏はシフトJISを選んだ。FrontPage8でHTML文書作成時シフ ト JISを指定すると:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=x-sjis">

となるのでゼブンマイルビーチの日本語ページの文字コードはこれ。英語は”charset=iso-8859-1”を採用。

世の中はどうなっているか調べると。

正統派の”ISO-2022-JP”を採用しているのはNECと富士通のみ。

”charset=Shift_JIS”を採用しているのは:東芝、マイクロソフト、アップル、デル、セイコー・エプソン、OCN、 マツダ、JAL、日経、三井物産、カフェグローブ

”charset=x-sjis”を採用しているのは:ゲートウェー、ソニー、トヨタ、ホンダ、三菱自動車、クライスラー、ロー バー、朝日新聞、千代田化工建設。

自前のウエブサーバーで指定しているためか文書で何も指定していないのは:ヤフー、コンパック、クアルコム、スバル、東洋エンジニア リング。

というわけでIANAがどうあれ、”charset=x-sjis”を使い続けることにした。

XMLは2バイトのUnicodeを完全にサポート

Outlook98で eメールを送るとき、シフトJISを使うとOutlook97で受信した場合、文字化けすることがあるのでさけたほうがよいよう。

英語キャラクタセット

英語のキャラクタセットはiso-8859-2とした。

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-2">

ギリシア文字

α、β、γなどのギリシア文字はカナ入力でアルファ入力したものがマッキントッシュでもその通り表示される。a、b、gと入力してこれをsymbolに変換すればabgとなるがマッキントッシュではa、b、gと 表示されるので注意が必要である。

Rev. December 5, 2011


トッ プページへ