HTMLの言語情報に関する覚え書き

言語情報は何を表さないか

HTMLの国際化に伴って採用された言語情報 [RFC2070, HTML 4.0] は、その役割を誤解されることがしばしばある。この節では、言語情報が何ではないのかを明らかにする。

言語情報とUnicode

言語情報は、HTMLの文書文字集合として採用されたUCS (ほぼUnicode) のためにある、という誤解がある。例えば次のようなものである [加藤]。

[HTML 4.0の仕様原案には] HTML4で仕様可能な文字セットについての解説もありますが、HTMLのレベルで言語指定タグをいれなければならないそうです。Unicodeが文字コードレベルから言語指定を排除した尻ぬぐいを、HTMLがしなければならなくなったわけですね (苦笑)。

[引用者注] 原文は1998年5月2日現在のもの。リンクは原文どおり。

文字コードは通常、そのコードで符号化されたテキストの言語が何であるかを表すことはしない。Unicodeに限らない。ASCIIでもJIS漢字でも、また、HTML 2.0および3.2の文書文字集合であるISO 8859-1でも同様である。ASCIIで符号化されたテキストは英語かも知れないしローマ字表記の日本語かも知れない。JISコードで符号化されたテキストはアイヌ語かも知れないしロシア語かも知れないしラテン語かも知れない。文字コードは言語を指定しない。

Unicodeが言語指定をしないからHTMLに言語情報が付加されたというのは、文字コードに対する誤解に基づいた誤りであると言わざるを得ない。「文字コードレベル」の「言語指定」なるものは、Unicodeに「排除」されたという以前に元々無いのである。むしろUnicodeは次の版(3.0) で「言語タグ」なる仕組みを取り入れようとしている(これの評価はここでは行わない)。

別の意見として、Unicode/UCSのいわゆる「日中韓統合漢字」の字体を区別するために言語情報が必要だと言われることもある [石川]。日本と中国では「骨」の字体が違うから言語情報で区別しましょう、という話である。

これも少々ピントがずれている。日中韓統合漢字の字体差を区別して表示することが必要だと仮定してみても、しかしそれを「言語」の指定で行うことはできないからである。言語で字体が決まるとすると、統合されたコードポイントの文字の日本の字体を使って中国語を表すことはできないということになる。

もし「統合漢字」の区別をしたければ (その必要性についてここでは論じない)、「日本語か中国語か」ではなく「日本の漢字か中国の漢字か」(この区別の妥当性についてここでは論じない) の情報が必要である。「必要なのはスクリプト情報である」[太田] ということになる。

なお、余談になるが、よく言われるUnicodeの「骨」に関して、中のカギが一画で書ける字体を「中国の字体」と呼ぶのは誤りだという指摘がある [芝野]。

……ここで中国の字形とされる字形は、大正8年の文部省国語調査室の「漢字整理案」(……) 及び昭和13年の国語審議会「漢字字体整理案」に見える字体であり、この字体を中国の字体とするのは、明らかに歴史及び伝統を無視している。なお、大正8年の国語調査室「漢字整理案」に見える字体は、昭和初期に尋常小学校教科書でも用いられた。

HTMLの言語情報は、UCS/Unicodeとはあまり関係が無い。言語情報がUCSにおいて有用であるならば、それはASCIIやJIS漢字においてもやはり有用であるはずだ(次節参照)。

言語情報と表示スタイル

次に、言語情報を表示スタイルの指定に使えるかどうかを検討しよう。

HTMLとともに使われるスタイルシート言語であるCSSのレベル2 [CSS2] では、HTML やXMLの言語情報の値によってスタイルを変えることができる。これには疑似クラス「:lang()」を使う。

よくあるウェブブラウザでは、強調句(EM要素)を斜体で表現することが多い。これは西洋の文字で書かれた文書に対しては都合が良いが、仮名や漢字では具合が悪い。そこで、言語情報を使って、強調句の内容が日本語 (LANG="ja")の場合は斜体にするのでなく下線を引くようにしよう、と考えたとする。

しかしこれはいつでも上手くいくとは限らない。日本語はラテン文字(ローマ字)でも書かれ得るからである。英文の中にラテン文字表記の日本語が出てきたら、その部分に関しては、ラテン文字で書かれているにもかかわらず斜体ではなく下線で強調されることになる。この場合「言語」によるスタイル指定ではうまくいかない。「なに語であるか」ではなく、「どのような表記体系(script、用字系)であるか」の問題である。

また、上と同様に、言語情報で文字の書体を切り替えるのも、一般には無理がある。日本語と英語とで別の書体を指定したとする。こうすると、同じ文字(例えば「A」)であっても、日本語の表記に用いるとき("Arigatô")と英語の表記に用いるとき("Apple")とで書体が違うことになる。開き直って「それでいいじゃないか」と言うこともできるが、現在日本で行われている印刷の常識に照らして決して普通のやり方とは言えない。

一般に、その言語がなに語であるかと、どのような文字で書かれているかとは別のものである。言語の種類が分かれば用字系が分かるというものではないし、逆に用字系から言語を特定できるわけでもない。

例えば、モンゴル語はモンゴル文字でもキリル文字でも書かれるし、トルコ語はアラビア文字で書くこともラテン文字で書くこともできる。アイヌ語の表記には片仮名がよく用いられるから、「片仮名だったら日本語だとみなす」という決め打ちはできない。ちなみに、現在策定作業が進められている「新JIS漢字」には、アイヌ語表記に使われる半濁点付きの「ト」なども収められる予定である[JCS WG2]。

ついでに言えば、符号化文字集合(文字コード)の種類と言語の種類とも一致しない。JIS漢字(JIS X 0208)は日本語を表記するのによく使われるが、「有朋自遠方来、不亦楽乎」のように古代中国の文章を符号化することもできる。

もっとも、言語情報をスタイル指定に利用することが常に上手くいかないわけではない。例えば、ドイツ語の文章の中で、フランス語が現れる部分だけ目立たせたいというような場合には言語情報が利用できる。それはあくまでその文書内でのみ有効なのであって、一般的な文書に利用できる規則ではない。(例えばウェブブラウザのデフォルトのスタイルシートとしてこの規則を用いることはできない)

概して、言語情報がスタイル指定に使える場面はあまり多くないと言えるだろう。言語情報は、スタイル指定に全く使えないこともないが、しかしそのためだけにあるのではない。

言語と文字は一致しない

以上、言語情報が何とは違うのか、何には使えないのかについて触れてきた。ここで、言語と表記の違いを簡単にまとめよう。

用字系(スクリプト)から言語情報は導かれない。(ラテンスクリプトで表記された言語はなに語?)
言語情報から用字系は導かれない。(日本語だからといって仮名漢字混じり文で書かれているとは限らない)

系: ある種類の「文字」の表示スタイルを指定するために言語情報を使うことはできない。(ラテン文字のスタイルを指定するつもりで「英語」のスタイルを指定すると、日本語やフランス語やトルコ語の文脈でのラテン文字には反映されない)
字体/書体は言語情報を特定しない。(「骨が折れます」 ――中のカギがどちらを向いていようと日本語は日本語)
言語情報は字体/書体を特定しない。(日本で用いられる字体/書体を使って中国語を表記する自由はないか?)
文字コード(符号化文字集合)の種類は言語を特定しない。 (JIS X 0208で符号化できる言語はたくさんある)

ついでに: ISO 2022のエスケープシーケンスは文字集合を切り換えるのであって、言語を切り換えるのではない。

言語情報は何のために使えるか

HTML 4.0の仕様書8.1節には言語情報の目的として以下のように書かれている。

Language information specified via the lang attribute may be used by a user agent to control rendering in a variety of ways. Some situations where author-supplied language information may be helpful include:

Assisting search engines
Assisting speech synthesizers
Helping a user agent select glyph variants for high quality typography
Helping a user agent choose a set of quotation marks
Helping a user agent make decisions about hyphenation, ligatures, and spacing
Assisting spell checkers and grammar checkers

「日中韓統合漢字を区別する」ということに一番近いのが上記三つ目の項目であろう。しかし glyph variants というのが何を想定しているかについての説明はなされていない。

ここに見えるように、言語情報の用途は字形を特定することだけとはされていない。むしろ他の目的の方が効用がありそうである。

ハイフネーション。同じ綴りの単語であっても、ハイフンが入ることのできる位置は言語によって (例えば英語とフランス語) 異なる。
音声出力。HTML文書を読み上げるシステムも存在するが、なに語かが分からなければ正しい出力はできない。
検索システムへの応用。特定の言語で書かれたページだけを提示する、など。
人間の補助。全く知らない言語で書かれたテキストを見たとき、なに語であるのかが分かれば読解する手がかりにもなろう。

こういった処理のためには言語情報が有用である。これらは、言語情報が無くてもある程度は可能である。ある文章がどの言語で書かれているかは普通、その言語を知っている人が見ればすぐ分かることであるし、そのノウハウをプログラムしてコンピュータに推測させることもできる。しかし書き手が明示しておくのが一番簡単で確実である。

比較的実装しやすいと思われる応用に、他言語版の文書の提示がある。日本語と英語とで同じ内容の文書を書いたときなどには、 HTMLのLINK要素によって両者の間の関連を示すことができる。例えば、日本語の文書の中で英語版へのリンクを記述するにはHEAD要素内に次のように書く(HTML 4.0の場合)。

<LINK rel="Alternate" hreflang="en" href="foo-en.html"
title="English version">

ブラウザは、この記述を見つけたら「英語版もあります」ということを利用者に知らせればよい。また、検索システムであれば、検索結果を出力する際に、利用者の望みに応じて他言語版の存在も併せて提示すれば便利になるだろう。

言語情報の指定にまつわる問題

厳密な言語指定は可能か?

実際に言語情報を指定しようとすると、どこまで細かく言語情報を付ければ良いのか戸惑うことが往々にしてある。

言語指定の最も大きな単位は文書全体である。文書全体として見たときにどの言語で書かれた文書であるのかを指定しておくのは、大抵の場合難しいことではない。例えばこの文書は一部に英語の引用があるが、全体としては「日本語の文書」と考えるのが普通である。(ただし、一つの文書内で同じ内容が二つの言語で書かれているなど、複数の言語が全く同等な位置づけで用いられている場合には簡単ではないだろう)

次に、段落 (paragraph) 単位で考えるのも、やはりさほど難しくはない。この文書では、英語の引用ブロックには「LANG="en"」を指定している。HTMLの文書モデルでいう「ブロックレベル」の要素で考えると良いだろう。

また、一つの文について「これはなに語の文か」と考えるのも、さして難しいことではない。単語だけでなく文の構造を判定材料に用いることができるからである。

より微細なレベルになると、どう言語指定したら良いのか分からないケースが出てくる。

国語辞典に載っているような言葉だけで文章が書かれるのであれば問題は起きないかもしれないが、現実にはそうではない。我々の身の周りは、人名、地名、団体名、商品名、造語、略語、ジャーゴンなどであふれており、そういった言葉がどの言語に属するかということをいちいち意識しながら使っているわけではないのである。

人名や地名のような固有名詞も、言葉である以上はいずれかの言語に属するものである[田中]。しかし、その固有名詞の背景にある意味を知らなくても固有名詞としての用は足りるので、なに語の言葉であるかも知らずに使っていることも少なくないのである。

外国人の名前や外国の地名を書くとき、それがどの言語に属する名前であるかを常に明示しないといけないとしたら、私は音をあげてしまう。例えば、「クルンテープに行ってきた」という文について語句のレベルで言語の指定をしようとすれば、「クルンテープ」というのがなに語なのかを知っていなければならない。(ちなみに、この言葉はタイ語でバンコクのこと。「天使の都」の意)

固有名詞だけでなく外来語との絡みもある。「カルタ」のように日本語として定着したものもあるが、片仮名書きされているからといって一律に「日本語」とみなしてしまうことはできない。近ごろは外国語の単語を訳さずに発音だけを写して日本語の中で用いることが多く行われているが、「アクセシビリティ」のようなものを日本語だと断言するには勇気が要るであろう。また、韓国語の挨拶「アンニョンハシムニカ」やタイ語の挨拶「サワディークラップ」などは、ハングルやタイ文字を読めない日本人に読ませるためには片仮名で書くのが普通だが、片仮名で書いたからといって直ちに日本語になったわけではない。日本語をラテン文字で書いたからといって英語やドイツ語になったわけでないのと同じことである。元々外国語であっても日本語の中で頻繁に使われていけば日本語の語彙として認められるわけだが、日本語化されつつある外国語を見て日本語の単語と認めるかどうかは見解が分かれるところだろう。

さらに、言語に名前を付けて呼ぶことは時として政治性を帯びるものであることも覚えておかなければならない。この種の問題としてよく言われるのは、ある言葉が方言とみなされるのか、それとも独立した言語として扱われるのかということである[田中1981など]。こういった問題は、その人の立場や思惑によって見解が分かれるものである。自分の書き記した言葉がどの言語であるのかを表明することは、そのような厄介な問題の中に自らの身を置くことなのかも知れない。

このように、正確な言語指定を、とりわけ単語のレベルにおいて期待することは、多分困難である。この困難さは、HTMLや言語タグの仕様に由来するのでなく、人間が話す言語そのものの在り方から来るものである。なお、HTMLの仕様書には、言語情報の指定にどこまでの細かさ・厳密さを求めているのかは書かれていない。

厳密な言語指定が期待できないとすれば、言語情報を扱うプログラムもそのつもりでいなければならない。言語情報をスタイル指定に使える場面は多くないと先に述べたのには、この事情も絡んでいる。スタイル指定で迂闊に言語情報を使うと、思わぬ表示結果になってしまう可能性があるということである。

無意味な要素の出現

また別の問題として、属性値は要素単位でしか指定できないということがある。このため、要素に分けられていない語句に言語指定をするには、SPAN要素のような意味のない要素として切り分けた上でLANGを指定しなければならなくなる。このため、複数の言語が多く入り混じる文書ではSPANだらけになる恐れがある。これは、入力の手間が増えて文書が大きくなるだけでなく、文書の構造を不明瞭にしてしまうという問題がある。例えばHTML文書インスタンスから木構造の表現を生成したとき、意味のないノードが大量に現れることになる。

さらに、TITLE要素の中には他の要素が入ることは一切できないので (つまりSPAN要素も駄目)、複数の言語が混在する題をうまく言語指定することはできない。

言語情報と`LANG`属性との不一致

HTML文書内の言語情報はLANG属性で表すことになっているが、全要素でLANG属性値を指定するのでなければ、文書内のある要素を切り出してきたときには必ずしもLANG属性に言語情報が含まれているとは限らない。HTML では言語情報が子要素に継承されることが定められており、これは SGMLの仕様から逸脱しているからである。言語情報はLANG属性そのものではない。

言語情報が属性値と必ずしも一致しないということは、言語情報を利用するアプリケーションはSGMLのやり方で属性値を見ているだけでは不十分で、HTMLの仕様書にある言語情報に特化した処理を付加しなければならないということを意味する。

例えば、CSS2では、属性値をセレクタとして用いるスタイル指定とは別に、言語情報を表す「:lang()」という疑似クラスが設けられることとなった。この疑似クラスは仕様策定の比較的遅い段階で付け加えられたもので、当初は属性セレクタで言語情報の利用を考えていたらしい節がある。CSS2の草案で初めて :lang() が導入されたのは1998年3月24日版だが、その前の1998年1月 28日版には通常の属性セレクタによって言語情報を利用する例が示されている。

言語情報が属性値と一致しないのは一見不便そうではあるが、 LANG属性はDTDでは#IMPLIEDとして宣言されているので、この方法はSGML 的に不適当なやり方とはいえない。#CURRENTとも異なるこの言語情報の継承は、 SGMLの範囲内では効率的に表現することができない。もし全要素でLANG属性値を指定しなければならない (#REQUIRED) としたら煩雑に過ぎる話である。

HTMLの言語情報に関する覚え書き

目次

言語情報は何を表さないか

言語情報とUnicode

言語情報と表示スタイル

言語と文字は一致しない

言語情報は何のために使えるか

言語情報の指定にまつわる問題

厳密な言語指定は可能か?

無意味な要素の出現

言語情報と`LANG`属性との不一致

まとめにかえて

参考文献

HTMLの言語情報に関する覚え書き

目次

言語情報は何を表さないか

言語情報とUnicode

言語情報と表示スタイル

言語と文字は一致しない

言語情報は何のために使えるか

言語情報の指定にまつわる問題

厳密な言語指定は可能か?

無意味な要素の出現

言語情報とLANG属性との不一致

まとめにかえて

参考文献

言語情報と`LANG`属性との不一致