日本語キャラクタセット
日本語HTML文書は、JIS、Shift_JIS、EUC(extensive unix code)の3つのうちどの文字コード化を選んでいるかはIANA(Internet Assigned Numbers Authority)という組織に登録されているキャラクタセット・コードをメタタグ<Metha Tug>のなかに以下のように記載することになっている:
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=ISO-2022-JP">
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=Shift_JIS">
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=EUC-JP">
IANAに登録されていなくても x- で始まるキャラクタセット・コードもほとんどのブラウザーは理解する。
Shift_JISやEUCは"charset=x-sjis"や "charset=x-euc-jp"となる。しかし、ブラウザによっては、 x- は解釈するけどIANAに登録されているのを解釈しないというのもあるそうだ。たとえばNavigator 2.0などは、”x-sjis”は解釈するけど ”Shift_JIS”は解釈しないそうだ。
シフトJISはマイクロソフトが開発した文字コードでMS Kanjiとも言われ、マックも使っている。このようなわけで、グリーンウッド氏はシフトJISを選んだ。FrontPage8でHTML文書作成時シフ ト JISを指定すると:
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=x-sjis">
となるのでゼブンマイルビーチの日本語ページの文字コードはこれ。英語は”charset=iso-8859-1”を採用。
世の中はどうなっているか調べると。
正統派の”ISO-2022-JP”を採用しているのはNECと富士通のみ。
”charset=Shift_JIS”を採用しているのは:東芝、マイクロソフト、アップル、デル、セイコー・エプソン、OCN、 マツダ、JAL、日経、三井物産、カフェグローブ
”charset=x-sjis”を採用しているのは:ゲートウェー、ソニー、トヨタ、ホンダ、三菱自動車、クライスラー、ロー バー、朝日新聞、千代田化工建設。
自前のウエブサーバーで指定しているためか文書で何も指定していないのは:ヤフー、コンパック、クアルコム、スバル、東洋エンジニア リング。
というわけでIANAがどうあれ、”charset=x-sjis”を使い続けることにした。
XMLは2バイトのUnicodeを完全にサポート
Outlook98で eメールを送るとき、シフトJISを使うとOutlook97で受信した場合、文字化けすることがあるのでさけたほうがよいよう。
英語キャラクタセット
英語のキャラクタセットはiso-8859-2とした。