今後の展望



● 視覚の誘導場研究の発展

 このホームページでは,主に図形周辺の分布が議論されていた,これまでの視覚の誘導場研究から一歩踏み出し,誘導場 がパターン認知などの視知覚にどのようにかかわっているかのモデル化により, 文字パターン認識や文字の切り出し,文字列の読み易さなど,さまざまな視知覚現象の説明が 誘導場によるモデルが可能なことが示された。
 今後は,まず,これまで提案した誘導場によるモデルの工学的応用を更に進めると共に,誘導場が視知覚 の機軸であるという仮定のもとに,更に他の視知覚現象も説明できるモデルを検討して行きたい。
 そして,モデル化と共に心理学や生理学知見との関連性を検討し,誘導場の科学的な根拠,機構の解明も進めて行きたい。 このように,誘導場理論の適応範囲を広げると共に,視知覚モデルや機構,特に心理学や生理学との関連性 などの解明を進めたい。
 以下,誘導場の工学応用が期待できそうな分野と,誘導場理論の展開について述べる。


● 誘導場計算の精密化

 デジタル画像の誘導場の計算モデルは, いろいろなパターンのデジタル画像の誘導場について計算できるが, 深水,吉田らが報告している,パターン近傍の場の尻切れ状態や左右非対称などの分布は再現できない。 これら誘導場の分布状況は,まだ充分解明されていない点が多く,更なる心理実験や計算モデルの検討が必要であ る。
 例えば,多くの書体,活字が完全な左右対象にデザインされていないのは,誘導場の左右非対称のためデザイナ−が本能的に非対称にしているという指摘がある1)。 もし,誘導場の左右非対称が,計算モデルに正確に反映されれば,文字パターン認識の認識率の向上や,非常に接 近したパターンの切り出しなどの応用に大きく貢献すると考えられる。


● 階調,色のある場合の視覚の誘導場

 このホームページの文字パターンの認識や感性評価の誘導場は,背景が白,図形が黒の2値のみである。 しかし,現実の世界は色や階調がある。 深水,吉田らの側抑制による誘導場のモデルは,階調,色の場の計算可能性を示している2, 3) 。 また,実験的に色や階調のある対象について誘導場を求める実験も始められているが, 実験結果を基に色や階調計算モデルを構築,検証した例はない

 人間が色の三原色をある比率で合成して知覚するモデルが幾つか提案されている4)。 そこで,デジタル画像における誘導場の計算式を, 三原色のうちの1つの色の場合のモデルとみなし,各色の度合いを色知覚のモデルの合成比率にしたがって, 合成する色の誘導場のモデルが考えられる。
 また,階調については,デジタル画像における誘導場の計算式で仮定している 電荷を画像の濃度に対応させる計算式の拡張が考えられる5)。 もし,色,階調のある画像の誘導場が計算できれば,例えば,どのような色の背景で印刷されたどの ような輝度と色の文字が読み易いかなどを,誘導場で定量的に決定出来ると考えられる。 また,色や階調を多用したデザイン,レイアウトや配色,化粧などを定量的に評価することが期待できる。


● 2次元パターン配置の評価の数学的な取り扱い

 手書き文字の切り出し,文字列の読み易さなどや感性評価は,共に誘導場の強さを指標にしている。 しかし,これらの評価の判断において,人間の主観評価を基にした指標や閾値を設定している。 したがって,誘導場を2次元パターン評価で汎用的に利用する上で,このような主観評価に依存することは問題がある。
 誘導場は物理数学的にほとんどクーロンポテンシャルとして扱うことができる。そして,このようなポ テンシャルモデルにおいて,漠然としている2次元平面上の位置関係を数学的に記述する可能性が示唆さ れている6)。具体的には,パターンの布置状態を誘導場の分布に置き換え,ポテンシャル論7)の容量 (Capacity)8) などで純粋に数学的に取り扱い,これまで主観的に行っていた2次元パターン配置の評価を 数学的に行うことが考えられる。


● 視覚研究における「場」の意義

 本ホームページの「文字認識」で述べた,いろいろな文字パターンの類似性を統一的に説明することが難しいのは, 人間のパターン認識機構が,「文字認識」の図2 の例のように,パターンから特徴を抽出しそれを評価する方法ではないからであるという 指摘がされている1), 9, 10)

 また,文字パターン認知に有効な特徴を,例えば文字品質評価の心理学実験 11, 12) や視線分析13) などから明らかにする研究も行われている。 文字種によりある程度有効な特徴は示唆されるが,一般的に有効な特徴は明確にされていない。

 一方,最近,文字パターン認知など視知覚を統一的に説明する枠組として「場」が注目されている10, 14, 15)。 もし, 「場」による視知覚を統一的に説明できる理論ができれば,これまでの文字パターン認知の数理モ デルがいろいろな文字パターンの類似性を統一的に説明できないといった問題を解決できる可能性がある。

 視知覚の説明原理としての「場」はいろいろな観点から指摘されている。例えば,柿崎はこれまでの視知 覚の心理学的な知見を見直して, 「場」的な発想からの理論的枠組みの有効性を指摘している10)
 また,内藤は「場」を中心とした物理的なアナロジを適用することで,視知覚を統一的に説明することの有効性と 理論の見通しの良さを期待している14, 15)。実際,これまでの心理学では非常に説明が難しい重力レンズ錯 視に一般相対性理論16),視空間の歪みによる錯視17) にリーマン幾何学など, 物理,数学の概念を導入することでうまく説明できることが報告されている。
 もちろん,場以外の概念による統一理論18) も検討されているが,従来の個々の事例を説明する事象の積 み上げであり,場のような理論的枠組み,原理は明確ではない。

 一方, 「場」の概念は物理学的に明確であり,数学的な取り扱いも完備しており, 「場」のアナロジが心理学現象にうまく適用できれば,内藤15,16 )が指摘しているように視知覚の物理数学モデルが明確になると考えられる。 また,Maxwell の方程式がいろいろな電磁界現象を統一的に説明できるように, 「場」の概念で構築された数理モデルが,いろいろな視知覚現象を統一的に説明することができることも期待できる。


● 生理学からのアプローチ

 視覚の誘導場は,心理学的な手法で観測される事象を説明する心理学的な概念である。
 一方,これまで誘導場は,生理学的には,網膜周辺で生じている現象との関連が示唆されているに過ぎない
 深水,吉田らの側抑制を基にした誘導場のモデルのような,かなり有効な計算モデルも提案されているが,生理学的な誘導場の実体はわかっていない。
 しかし,誘導場という現象は,人間の脳活動の結果生ずることは確かである。 まだ,従来の生理学的観察では発見できなかった,これまで知られていない,何らかの誘導場に関する現象が あると考えられる。  最近はfMRI や PET など人間の脳活動を直接観察できる手法が開発,発展している。例え ば,文字を見せた時の脳活動状況や部位をこれらの装置でより詳しく解析すれば,誘導場を引き起こす機 構がわかるかも知れない。
 これまでは,網膜を中心とした主に誘導場の生成に関する生理学的研究がほと んどであった。今後は,誘導場の生成を含め,パターン認知などより高次の機構についての生理学的探求, 解明が重要になると考えられる。そして,誘導場の生理学的な機構の一端でも明らかになれば,これまで提 案してきた誘導場モデルの検証やモデルの更なる発展が期待できるだけでなく,誘導場理論そのものの理解 が深まるものと考えられる。


● 画像理解独特の難しさ19) の解決

 最近,背景から顔を検出,認識し,笑顔まで検知してシャッターが切れるデジタルカメラが普及している。 1970年代後半から始まった顔認識研究から考えると,素晴らしい進歩である。 では,このような顔認識を搭載したデジタルカメラを見て,果たして,昔から指摘されている,画像パターン認識,理解の特有の問題は解決されたのであろうか? パターン認識理解の専門家によれば,まだ否とする意見が大勢である。
 画像理解独特の難しさとして,例えば,次の課題がある。

 <セマンティックギャップ>
 ポートレート画像中の顔を認識する,スキャナーで読み込んだ文書の印刷文字を認識する処理は, 本当の意味の画像認識を実現していない。 すなわち,ポートレート画像というものは,もともと適切な構図で顔が撮影された画像であり, スキャナーで読み込む文書というのは,画像中に文字があることがわかっているように, 画像中に対象物が存在することが自明であり,かつ,対象物の検出が適切である。
 しかし,人間が行っている画像認識,理解では,一般に,与えられた画像に何が写っているか, どのような処理が適切であるか不明である。 このような,対象物,処理方法不明な状況で,何が写っていそうで, だからどのような処理を行えばよいかという判断することは, 現時点では,非常に困難である。

 <カテゴリー設定の問題>
 セマンティックギャップを解決する方法として,あらかじめ画像で表出する対象を概念としてカテゴリー化しておき, 各カテゴリーごとに対象物の検出器を用意して,本当の意味の画像認識を実現しようという考えがある。
 しかし,そもそも,どのような概念,カテゴリーがあるのか,どの程度検出できればいいのかがわかっていない。 また,画像中の対象の概念は,我々の見方によってカテゴリーが変わる(多義性)があり,それに対応できる 検出器が必要である。更に,きれい,印象が強いなどの主観的,感性的な概念を決定することが極めて困難である。



 本ホームページでは,誘導場による画像認識,理解や感性評価の可能性を示した。 誘導場のもつ,これらの特質,機能をうまく組み合わせれば,上述のセマンティックギャップやカテゴリー設定の問題を 解決し,本当の意味の画像認識に一歩近づけると考えられる。

 まず,誘導場の場の分布,等高線やポテンシャル値を,共通の特徴量にして,文字やパターンの識別,図形の類似性判断20),顔の表情認識21)など,いろいろなカテゴリー,概念に対する検出器を構築することが容易である。 文字だから,顔だからということで,そのパターンに特化した検出器を考える必要がない。

 次に,誘導場によれば,単なるパターンか,それとも顔のようなパターンかなど,ポテンシャル値ごとの複雑度の違いから, 判定することができる22)。  対象が不明であっても,場の状態からそれが顔らしいとか推定し,それに応じて,より詳しい判断を下すことが可能になる。
 また,文字列図形のレイアウト,フォント印象など主観的,感性的な概念を決定も得意である。


 このように,誘導場の研究は,人間の視知覚の理解だけでなく,本当の意味の画像認識という応用でも新しい展開が期待できる。
 かつて,誘導場の計算は時間がかかっていたが,現在,コンピュータの性能の向上のおかげで,安価なノートPCでも,ほぼリアルタイムで計算できる。計算自体の高速化も検討されており23),より実用的な技術に近づいている。


 本ホームページを読まれた皆様が,誘導場の研究に興味をもって頂き,いままで考えつかなかった研究が開拓されることを希望する。





参考文献

1) 野澤晨. 空間と時間, 第5章. 彰国社 (1975)

2) 深水義之, 伊藤明, 吉田登美男, 白石照美. 心理実験に基づく視空間伝達モデルの提案 −景観の図形 認識の立場からの解明と評価に関する研究(6) −. デザイン学研究, Vol. 45, No. 4, pp. 75-82, 1998.

3) 吉田登美男, 深水義之, 白石照美, 伊藤明, 小谷津孝明. 心理ポテンシャルの心理物理的伝達関数の誘 導と錯視への応用. ラウンドテーブルNo.28, 日本心理学会第62回大会, pp.23-32, 1998.

4) 納谷嘉信. 色知覚と色彩メディア処理(iii)―色の見え方の複雑さとそのモデリング―. 電子情報通信学会誌, Vol. 81, No. 10, pp. 1057-1062, 1998.

5) 特開2004-171115 画像評価方法および画像評価装置

6) 山田篤, 西田豊明, 堂下修司. 2次元平面におけるポテンシャルモデルを用いた位置関係の推定. 情報処理学会論文誌, Vol. 29, No. 9, pp. 824-834, 1988.

7) 佐藤正千代, 新濃清志. 現代数学レクチャーズ C−4 ポテンシャル. 培風館, 1984.

8) 二宮信幸, 岸正倫. 総合報告 最近のポテンシャル論I,II. 数学, 10, 1958.

9) 今井四郎. パターン認知の変換構造説(心理学モノグラフ17). 東京大学出版会, 1986.

10) 柿崎祐一. 心理学的知覚論序説, 培風館, 1993.

11) Takahiro Kato and Mitsuho Yamada. Quality factors of hand-written characters based on human visual perception. SPIE, Vol. 1453, pp.43-50, 1991.

12) 加藤隆仁, 横澤一彦. 手書き文字品質の定量評価. 電子情報通信学会論文誌, Vol. J75-D-II, No. 9, pp.1573-1581, 1992.

13) 加藤隆仁, 山田光穗. 視線検出による手書き文字品質の決定要因の分析. 電子情報通信学会秋季全国 大会, Vol.D-356, 1990.

14) 内藤誠一郎. 初期視覚系情報処理と物理数学モデル. 電子情報通信学会技報, Vol. HC94, No. 19, pp. 23-30, 1994.

15) 小川 英光編著, "パターン認識・理解の新たな展開 ―挑戦すべき課題―", 電子情報通信学会 (1994)
 パターン認識・理解に関する今後挑戦すべき重要な問題を,基礎論,音声,文 字・文書,画像の各分野に
 分けて整理し,21世紀におけるこの分野の研究の方向 づけをねらった。
  序論/パターン認識・理解の基礎/音声の認識・理解/文字・文書の認識・理 解/画像の認識・理解



16) 内藤誠一郎. 物理数学モデルによる錯視分析の試み. 画像応用技術, Vol.10, No.1, pp. 8-19, 1995.

17) 山崎敏正. 錯視現象に着目した視覚情報処理モデル. 電子情報通信学会技報, Vol.AI91, No.38, pp. 67-73, 1991.

18) 森周司. 精神物理学の統一理論. 心理学評論, Vol.36, No.2, pp.244-264, 1993.

19) 内田誠一,佐藤真一,鷲見和彦,福井和広,"パターン認識・メディア理解の問題分析",電子情報通信学会誌, Vol.92, No.8, pp.656-664 (2009.8).

20) 浅尾栄志, 西尾孝治, 小堀研一, "視覚の誘導場を用いた2次元図形の類似検索", 情報処理学会 第70回全国大会講演論文集, 1ZE-5, pp.4-309 - 4-310 (2008.3)

21) 特開2008-123399, 感情認識装置、電子機器、感情認識方法、制御プログラム及び記録媒体

22) 特開2008-123400, 画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体

23)浅尾栄志, 西尾孝治, 小堀研一, "視覚の誘導場の高速化", 情報処理学会 第71回全国大会講演論文集, Vol.71, No.2, 1T-2, pp.2-361 - 2-362 (2009.4)



本ページの原典
長石道博: "視覚の誘導場によるパターン認知の研究", 豊橋技術科学大学 博士論文 乙第142号 (2000)  [学位論文]


Copyright 2019 [Michihiro Nagaishi]. All rights reserved.