2022.04.28
『自由エネルギー原理入門』乾敏郎・坂口豊(岩波書店)
(以前読んだ『脳の大統一理論』の詳解版である。簡単に書きすぎて訳が分からないので要望があったらしい。)

(僕の序文)
docomo の「初めてスマホプラン」で d-ポイントが付いて、その使用期限が4月までだったので、それを使って Amazon で本を買った。丁度、乾敏郎さんの『自由エネルギー原理入門』が出た処で、「まあやめとこうか」とは思っていたのだが、他に候補が無いのでそれを買ったのである。乾さんと言えば、かれこれ30年以上前に、会社の文理科学研究所に毎月来ていただいて、視覚情報処理の講義を受けた。当時の教科書が『視覚情報処理の基礎』(サイエンス社、1990年)であった。

・・・彼は当時京大文学部心理学科で教えていて、日本の心理学がいかに時代錯誤となっているかを嘆いておられたのを覚えている。実際、僕はその10年前に、カナダの大学の化学教室のポスドクだったのだが、そこの心理学の大学院生と友達になり、彼女がネズミの脳の解剖していたので驚いたら、神経回路網の教科書を紹介してくれて、更に驚いた。ともあれ、その10年後(1990年前後?)に乾先生に教わった事を要約しておく。

・・・網膜に映った画像がそのまま脳に送られているのではなく、脳の中枢側が外界の3次元モデルを持っていて、それに基づいた2次元画像を視覚細胞側に送り、視覚細胞側はそれと現実の画像を比較して誤差を中枢側に送り、中枢側が3次元モデルを修正して2次元画像を推定し直してまた視覚細胞側に送り、、、という繰り返しが起きている。つまり、視覚認知の情報の流れは双方向にあり、我々が見ているものは、我々が所持している現実のモデルから視覚情報を解釈したものである、ということが一つ。

・・・もう一つはこのような情報の双方向流れは分岐構造をしていて、画像から線を抽出したり、色を抽出したり、あるいは線の傾斜だけを処理したり、と分業していて、中枢に近づくと、それらの分業された情報がいろいろな組み合わせで統合されて、別々の行動側の中枢に送られるのである。この感覚から行動への流れはその逆方向の流れを伴いながら、脳全体としては、確かに昔ベルクソンが『物質と記憶』(1896年)で見事に記述したように、「電話交換機」のような機能を果たしている。

・・・これらの事は想像ではなく、実験に基づいた結論である。そこで、再び、我々が見ているものは何か?それはそれらの情報の流れを記憶と照らし合わせる「意識」の内容である、としか言えない。

・・・乾さんはその後、川人さん達と合流して、視覚情報処理の神経回路網に基づいた計算理論にまとめている。このような研究は、当然世界中で行われていて、視覚情報処理を Bayes 推定の枠組みで見直したときに、知覚だけでなく、行動や計画も含めて一貫した理論体系が可能であることが Friston (2006年)によって提案された。「可能である」とは言っても、全てが実証されているわけではないだろう。どの程度のものなのか、とりあえず勉強してみることにした。

第1章 自由エネルギー原理を理解するために
・・・神経回路多層モデルにおける教師あり学習。
入力信号(入力層神経群のパルス頻度)→神経結合定数→出力信号(出力層神経群のパルス頻度)
に対して、与えた入力信号からの出力信号と与えられた教師信号の差を小さくするように
神経結合定数を更新する、ということである。
非線形最適化問題である。
神経結合係数を変えた時にどのように出力信号が変わるかという微分係数(感度関数)は
多変数関数の微分として与えられる。
初期に使われた単純な非線形最小化計算法である最急降下法の限界は最近では克服されていて、
計算能力の進歩によって、今日では「深層学習」が AI として広く応用されている。
AI の信頼性は与える教師信号(データ)に依存している。

・・・シナプス結合係数の変化に直接関与するのが NMDA(N-メチル-D-アスパラギン酸)受容体である。
神経の興奮によって Ca++ を流入させシナプス後細胞の感受性を上げる。
これに対して、ドーパミン、セロトニン、アセチルコリン等の神経修飾物質は間接的にイオンチャンネルの開閉に関与する。

・・・視覚認知のモデル
大脳皮質は6層から成り、大まかには上層が脳内モデルを表現し、下層が外界からの感覚信号を表現する。
視覚系でその働きがモデル化された(川人・乾1990:「視覚大脳皮質の計算理論」電子情報通信学会論文誌D、73、pp.1111-21)。
下層に来る信号は 2次元画像 I である。上層には現実界の 3次元モデル S がある。
(ただ、ここでいう3次元モデルというのは身体行動にとって必要な限りの3次元構造情報であろう。
それは最終的には行為とその結果によって評価されるしかない。)
I から S を推定するプロセスが神経回路多層モデルとしてあり、これを R# とする。
これは実際の正しい 外界3次元から I を作り出す(光学)写像 R の逆であるべきなのだが、
とりあえずは近似的なものとして既にあると考える。
近似的に得られた S(0)=R#(I)から R(S(0)) として、推定される2次元画像が下層に送られ、
それらの差異として I - R(S(0)) が得られるから、これから R#(I - R(S(0)) ) として上層に送れば、
初期の S(0) に対する補正が得られる。
説明では、これに -∂U/∂S が追加されていて、上位層内の内在性神経結合=視覚世界の内部モデル
ということらしいが、U の意味は不明である。
推論過程に作用する束縛条件だから、生理的、個体史的、感情的等の影響か?
ともあれ、このループを繰り返せば比較的速く収束するらしい。その収束結果が「知覚」である。
この収束プロセスは神経結合係数の更新を伴わないから10msec程度で起きるのだろう。
これら上行(R#)、下行(R)の神経回路多層の神経結合係数は実際の身体行動結果によって学習されていくが、
それは day 程度の長期的な変化の筈である。
但し、10msec程度で収束するループは繰り返されることによって、
R# と R の順逆計算を担う神経回路層の結合係数が少しづつ変わるということだろう。

・・・腹側系と背側系
視覚認知には腹側経路と背側経路があり、腹側経路は形態処理(what)、背側経路は視空間処理(where)である。
後者の内の背背側経路は特に行為に関わっており how システムと呼ばれる。
視覚認知は単に空間の1点に静止した眼による認知ではないということだろう。
身体全体を動かして対象に関わることと一体化している。
運動系からの情報も視覚的な認知に関わっている。
環境は殆どの場合意識化されることなく運動系を駆動してしまう。
これも認知の在り方であり、認知と行為は区別できない。
これがアフォーダンスである。

・・・知覚過程を推論として考えたのは Helmholtz が最初だった(1960)。
今日では Bayes 推論として整理できるが、このBayes 推論はある種の変分自由エネルギーの最小化であるという風に定式化できる(Friston 2006)。
それは知覚と直接関わる「ダイバージェンス項」と 直接には関係しない「サプライズ項」の和になっている。
後者は運動や行為に対応する筈だという提案がなされた(Friston 2009)。
そこから能動的推論という概念が提案され、行為の時系列、つまり行動決定を扱う理論に発展している。
ここまでの議論の流れからみると、この「自由エネルギー原理」は数msec程度の時間スケールの話なのか、
それとも dayの時間スケールでの神経回路の学習の話なのか?
おそらく両方を含んでいるのだろう。
第2章以下でこれらの詳細が説明されるようである。

第2章 知覚過程のモデル化(2022.04.30)
・・・Friston の一般化座標は環境を記述する変数であり、
例えば、点状物体であれば、その位置、その時間微分、2次微分等からなるベクトル空間の中の一つの点である。
これらを状態変数と呼び、それを推論した結果が知覚であるとする。
推論される状態には直接推論対象となる「隠れ状態」とその原因となる「隠れ原因」がある。
推論の為には隠れ状態から感覚信号を導く内部モデル(生成モデル)が必要となる。

・・・隠れ状態 x(t)、隠れ原因 v(t)、感覚信号 y(t) を結ぶ関係式を観測方程式 g と呼ぶ。
      y(t)=g(x(t),v(t))+εy(t)  :εはノイズ項
隠れ状態は次の運動方程式に従い、これを状態方程式 f と呼ぶ。D は微分演算子。
      Dx(t)=f(x(t),v(t))+εx(t) :εはノイズ項
これら、g と f が生成モデルである。
生成モデルは学習された結果である。

・・・以下、しばらくは、簡単の為に v を x に含める。知覚とは y から x を推定することである。
推定プロセスにはノイズ項が伴うから、確率密度の関数形を推定することになる。
(注)以下、この本では、p() と q() は、通例の関数ではなくて、()内の変数についての分布関数の意味で使う。
        例えば p(x) と p(y) は全く別の分布関数である。x は環境であり、y は知覚を表すからである。
この推定が「Bayes 推定」であると考える。
その為には事前確率 p(x) が必要であるが、これは状態方程式で与えられ、学習済みであるとする。
環境はどれくらいの確率でどんな状態(x)になるものなのか、という「常識」である。
観測方程式(力学)からは、x が与えられた条件の元で感覚 y が生じる条件付き確率 p(y|x) が得られる。
以下  | 記号が頻繁に登場する。確率変数はその前で、後ろは条件を表している。
(これは大雑把に言えば、関数関係と見なして、後ろが関数の変数であり、前が関数値であると思えばよい。
ただし、確率的な関係ではある。また、事象の範囲を考える時には、有名はベンの図式が判りやすい。)
これから x と y の同時確率 p(y,x)=p(y|x) p(x) が得られる。
結局の処、この同時確率が生成モデルである。
同じく、定義から、
p(y,x)=p(x|y) p(y)  とも書けることを使えば、
      p(x|y)=p(y|x)/p(y)・p(x)
として、x が y から推定される。これが Bayes の定理である。

・・・実際には、y は感覚信号として決まっているので、異なる x に対する p(y|x)p(x) を比較すればよい。
その最大値を採る x が最大事後確率推定の結果となる。
つまり、p(y) は実際には知る必要が無いのだが、p(y,x)が判っていれば、∫p(y,x)dx で計算できる。周辺尤度という。

・・・概念的にまとめると、環境中に何が起こるか(在るか)については事前に予想 p(x) がある。
また、環境中に x が起こるとその結果としてどんな感覚信号 y が来るかという確率 p(y|x) についても、あらかじめ学習済みである。
これらは勿論正確なものではなく、個体毎の経験に依存していて、神経結合係数として記憶されている。
知覚のプロセスというのは、p(x) と p(y|x) という別々の神経結合回路がある時に、
y という感覚が得られた条件から x を最尤推定するということである。

・・・(槇による図解)横軸に x(世界の可能性)、縦軸に y(感覚器官への情報)を採る。
この疑似2次元空間において p(y,x) を分布させる。これが「生成モデル」である。
∫p(y,x)dy=p(x) は世界が x となる確率である。事前確率という。
∫p(y,x)dx=p(y) は感覚器官情報が y となる確率である。周辺尤度という。
x を固定したときの p(y,x)/p(x) を p(y|x) と書き、世界が x であるときの感覚器官情報 y の採る確率である。観測方程式である。
確率値の山の x 断面を見れば、確率値が y の関数となるが、これを積分値 p(x) で規格化した関数が
p(y|x) である。
y を固定したときの p(y,x)/p(y) を p(x|y) と書き、感覚情報が y である時に世界が x である確率(Bayes 推定)である。

確率値の山の y 断面を見れば、確率値が x の関数となるが、これを積分値 p(y) で規格化した関数が p(x|y) である。


・・・変分 Bayes 推定というのは、近似的な解を求める推定である。
個別個体における真の解 p(x|y) に対して、近似解 q(x) があるとする。
Kullback-Leider ダイバージェンス(DKL)は以下のように定義されていて、近似解と最尤解との差である。
      DKL(q(x)||p(x|y))=∫q(x)log(q(x)/p(x|y))dx
これを Bayes の定理を使って変形すると、
      DKL(q(x)||p(x|y))=∫q(x)log(q(x)/p(y,x))dx - (-log(p(y)))
となる。
ここで、p(y,x)=p(x|y)p(y) : x と y の同時(積)確率であり、「生成モデル」である。
-log(p(y)) というのは、実際に起きた事象 y がどれくらい稀なことであったか、という指標であり、
シャノンの情報量そのものである。「サプライズ項」という。
知覚においては、第2項が定数となる(感覚入力は与えられている)から、第1項を最小化するように q を選ぶ。
第1項 ∫q(x)log(q(x)/p(y,x))dx  の事を自由エネルギーと呼んでいるが、これは熱力学とは関係ない。
アナロジーである。どういう意味でアナロジーなのかは、下記の通りなのだが、よくは判らない。

・・・内部エネルギー U(x;y) を、U(x;y)=-log(p(y,x)) と定義すると、確かに、
      自由エネルギー F(q,p;y)=∫U(x;y)q(x)dx - (-∫q(x)log(q(x))dx)
となり、第1項が内部エネルギーの期待値、第2項がエントロピーに相当するが、制御変数としての温度は無い。
第1項だけであれば、q(x) として、U(x;y) を最小とする、つまり p(y,x) を y を固定したとき最大にするような x で発散する δ関数にすればよい。
他方、第2項だけであれば、q(x) は広がれば広がるほど良いのだから、許される範囲内で一定値となる。
この2つの傾向のバランスで q(x) が決まるのだから、確かに、Helmholtz の自由エネルギーと似ている。
内部エネルギーの内容としては、脳内の生成モデルにおいて、外部状態 x と 感覚情報 y の実現確率 p(x,y) が高いほど、エネルギーが低い。
      p(x,y) = exp(-U(x,y))
であるから、確かに、温度係数 β=1/kT が 1 に固定されたカノニカル分布とも言える。
まとめると、
(疑似)自由エネルギー」=「(疑似)内部エネルギー」ー 「エントロピー」
                                       = 「KLダイバージェンス」+「サプライズ」


・・・試行する g の関数形を正規分布として、その平均を μ、分散を Σ とする。
それぞれ、一般的には、ベクトル、行列である。
自由エネルギーを分散 Σ について最小にする場合、Σ=(∇^2 U(μ))^-1 の関係があるので、この関係式を使うと、
      F(μ)=U(μ) - (1/2)log|Σ| - (n/2)log(2π)
と表される。
第1項は、定義に還ると、生成モデルにおける確率分布最大点に近づけるが、
第2項は、確率分布がなだらかな点(先鋭でない場所)を選ぶようにする。
熱力学であれば、温度が高いほど第2項が優位になるのであるが、ここでは固定されている。

・・・勾配降下法
自由エネルギー F(μ)を最小にする計算方法で、μについての F(μ) の勾配の方向に μ を動かす。
時間スケールは任意として、
      dμ/dt= -∂F/∂μ
これは隠れ変数(環境)が静止している場合であるが、動いている場合には μ も動く。
その場合、自由エネルギーの経路積分を最小化することになる。
      ∂μ/∂t - Dμ= -∂F/∂μ = -∂U/∂μ
(槇)2番目の等式については、やや疑問がある。Σ は μ に依存するからである。

・・・Friston の視覚系階層モデルは、第1章で述べた乾のモデルとは少し違うようであるが、情報の流れとしては同じようである。
いずれにしても、変分 Bayes 推定という大枠でみればその一つの実現方法ではある。
神経生理学的な傍証もいくつかあるようであるが、あまりその辺には立ち入っていないので判らない。
感覚器官側から順に 1,2,3,,,,M+1 層となっている。
第1層には感覚情報 y が入るが、ここでは、外界と推定される隠れ状態 x(1) と隠れ原因 v(1) から y を推定する観測方程式 g(1)
      y=g(1)(x(1),v(1))+εy(1)
隠れ状態の運動方程式 f(1)
      Dx(1)=f(x(1),v(1))+εx(1)
が学習済みである。知覚プロセスでは y から x(1)、v(1) を逆推定する。
第2層では、y に相当する情報が v(1) になっている。つまり、
      v(1)=g(2)(x(2),v(2))+εy(2)
      Dx(2)=f(x(2),v(2))+εx(2)
これは一体どういうことなのだろうか?
外界の隠れ原因 v(1) を第2層で推定して、第1層に返すことで、結果をフィードバックしている。
以下層を辿り、最上層 M+1 では、
      v(M)=η+ε(M+1)
だけである。
ここで、η の説明が無いが、多分 v(M) に対する最適推定値のことだろう。

・・・εx(i)、εy(i)を予測誤差と名付ける。更にこれを一括したベクトルを e と表現する。
そうすると、最急降下法の式は、(説明は無いが、x(1),v(1) の最適推定値を一括して μ とすると、)
      ∂μ/∂t - Dμ= -∂F/∂μ = -∂U/∂μ = - (∂eT/∂μ)ξ
(2番目の等式にはやや疑問がある)
但し、eT は e の転置で、
     ξ = Πe = Σ^-1 e
である。
分散行列 Σ の逆行列が精度行列 Π で、予測誤差 e に精度行列 Π をかけるということは精度補正された予測誤差 ξ ということである。

・・・階層間、階層内の情報の流れの説明は複雑で判りにくい。図2.1,2,3 である。
予測結果の情報が μ、予測誤差の情報が ξ である。ξ は分散度合で割って規格化してある。
予測情報は上層から下層に送られ、予測誤差は下層から上層に送られるのが基本である。
予測誤差の計算には、下層から送られてくる予測誤差と、上層から送られてきた予測情報が使われる。
予測情報の計算には、下層から送られてくる予測誤差と、同一層内の予測情報が(時間発展として)使われる。

第3章 パラメータの学習
(2022.05.01)
・・・隠れ状態 x、隠れ原因 v は msec のオーダー、神経修飾物質の影響は sec のオーダー、神経結合係数の変化は day のオーダーで変わるから、それらを独立変数と考えてよいだろう。
これらには、それぞれ、x、γ、w という記号を与える。推定すべき分布関数は
      q(x,γ,w)=q(x)q(γ)q(w)
という風に積で近似できることになる。γ は神経修飾物質の影響による信号伝達の精度である。
以下、それぞれの分布を規定するパラメータ(例えば平均と分散)に θx、θγ、θw という記号を使う。

・・・現状の生成モデルは学習されたものであり、その妥当性は感覚信号 y の分布 p(y) で評価できる。
何故なら、生成モデルから導かれる p(y) はそのモデルから予想される感覚信号の分布であり、
実際の y に対して p(y) が大きい程、その生成モデルが信用できる、ということだからである。
生成モデルを m で表現すると、そのモデルにおける y の分布は p(y|m) と表現できる。
m 固定の元での log(p(y|m))は負のサプライズであるが、
逆に y 固定の元での m の関数とみなせば、感覚情報 y による m の証拠と考えられる。
多数の可能な感覚情報についての重み付き積分
      H(y|m)=∫p(y|m)log(p(y|m))dy
は感覚(証拠)エントロピーであり、モデル m の妥当性を表現する。
エルゴード性を仮定すれば、H(y|m) は log(p|m) の長時間平均でもある。
これを m について最小化するというのがモデルの改良、つまりパラメータの学習である。
m は θw で規定されている。
(槇)H(y|m) という表記法は紛らわしい。y は既に変数ではないから H(m) とすべきだろう。

・・・m の分布定数、つまり θw を変えて H(y|m) を最小化する、というのが学習であると考えられる。
しかし、これを直接計算するのは難しいから、その上限 S(y,q(θ)) を考えるという。
ここで、q(θ) が出てきたが、これはこの本の記号慣例から、θ についての試行分布と思われる。
      S(y,q)=∫F(τ;y,q)dτ
つまり、「自由エネルギー」の時間積分である。
感覚信号 y は長時間の間にエルゴード性を持つから、
時間積分すれば、モデル分布 q(θ) における自由エネルギーの評価となる。
(槇)何故積分時間 T で割らないのか?は不明。また、なぜこれを「作用」積分と呼ぶのか?判らない。
ともあれ、「自由エネルギー」= KLダイバージェンス+サプライズ項 で、
KLダイバージェンスは負にならないから、確かに、サプライズの平均 H(y|m) より大きい。
(槇)これは前章で議論した知覚における Bayes 推定と同じ戦略である。
知覚においては、サプライズが与えられているから、
KLダイバージェンスを最小化する代わりに「自由エネルギー」を最小化したのだが、
今回は KLダイバージェンスについては負でないのだから、近似的に「自由エネルギー」を最小化する。
ただ、議論としてはあまり精密でない。乾氏は判りやすさを重視した、ということであるが、
元々の Friston の論文では、知覚(隠れ状態の推定)とモデルの学習を同時に考えているらしい。
そちらの方がすっきりすると思うし、次の節ではそうなっている。
「時間スケールの違いを考慮すると、知覚については短い時間で最適化してしまうので、
近似的に KLダイバージェンスを 0 としてしまっても良いだろう」という説明の方が良いと思う。

・・・「自由エネルギー」は 隠れ状態 x、感覚信号 y、だけでなく、今度は生成モデルパラメータ w にも依存する。
試行分布 q は、x と w の分布となる。
      F(y;q)= -∫∫q(x,w)log(p(y,x,w))dxdw + ∫∫q(x,w)log(q(x,w))dxdw
x と w が独立であるという仮定を置くと、q(x,w)=q(x)q(w) と積でかけるから、
第1項
      = - ∫∫q(x)q(w)log(p(y|x,w))dxdw - ∫∫q(x)q(w)log(p(x|w))dxdw - ∫q(w)log(p(w))dw
第2項
      = ∫∫q(x)q(w)log(q(x))dxdw + ∫∫q(w)log(q(w))dw
第1項の - ∫∫q(x)q(w)log(p(y|x,w))dxdw は試行分布の下での「サプライズの事後期待値」である。
残りの4つの項は、2つの分布間の KLダイバージェンスとして表現できる。
      = ∫q(w){∫q(x)log(q(x)/p(x|w))dx}dw +  ∫q(w)(log(q(w)/p(w))dw
      = ∫q(w)DKL(q(x)||p(x|w))dw + DKL(q(w)||p(w))
この第1項は試行分布の下での「隠れ状態 x に関する KLダイバージェンスの期待値」であり、
第2項は「パラメータ w についての KLダイバージェンス」である。
まとめると、
「(疑似)自由エネルギー」=「サプライズの事後期待値」
                                        +「隠れ状態 x に関する KLダイバージェンスの期待値」
                                        +「パラメータ w についての KLダイバージェンス」

となる。

・・・自由エネルギーをもう一度まとめると、
      F(y;q) = - ∫∫q(w)q(x)log(p(y|x,w))dxdw + ∫q(w)∫q(x)log(q(x)/p(x|w))dxdw
                   + ∫q(w)(log(q(w)/p(w))dw
                = - ∫q(w)∫q(x){log(p(y|x,w) - log(q(x)/p(x|w))}dxdw
                   + ∫q(w)(log(q(w)/p(w))dw
ここで、p(y|x,w)p(x|w) = p(y,x|w) であるから、
      F(y;q) = - ∫q(w)∫q(x)log(p(y,x|w)/q(x))dxdw + ∫q(w)(log(q(w)/p(w))dw
隠れ状態 x は時間変化していき、十分長い時間の間「自由エネルギー」を積分したものを
最小化するように、w の分布を選択するというのが、「学習」である。
これから p.55 の最初の式がでてくる筈であるが、第1項の log の中の分母 q(x) が欠けていると思われる。

・・・学習プロセス
次の式は、q(w) がパラメータ θw で規定されていて、それが期待値であるときの勾配近似式であるが、
ここで、q(w) が消えているのは、それを δ関数と近似しているからだろう。
更に、今度は q(w) を正規分布とした場合の式が導かれている。
「自由エネルギー」のパラメータ θw についての勾配を計算し、降下方向に動かしていく、というステップが学習である。
最後に磯村氏(2018)の神経回路モデルとの関係(学習の実装)が説明されている。
隠れ状態 x、隠れ原因 v を規定する関数 f、g は、それぞれ、シナプス結合荷重 Af、Ag で規定されていて、
これが w の実体である。

第4章 能動的推論と行動決定
(2022.05.07)
・・・第2,3章が神経生理学的証拠の豊富な理論であるのに対して、この章は心理学的な証拠に頼らざるを得ない部分が多い理論である。その分だけ理論に恣意性があることはやむを得ないだろう。つまり、半ば哲学とも言える。また、Friston 自身が2006年から現在に至るまで、理論の守備範囲を拡張する間に、基本概念の更新を続けていて、首尾一貫した記述が難しくなっている。乾氏は首尾一貫性を多少犠牲にして、節毎に少しづつ概念を更新しながら解説しているので、結構読むのに苦労した。

4.1 能動的推論とは
・・・「自由エネルギー」は KLダイバージェンスとサプライズの和である。
     F(q,p;y) = DKL(q(x)||p(x|y)) + ( -log(p(y)))
「知覚」過程においては DKL を最小化するような q(x) を推定するのであるが、
感覚情報 y が固定されているので、F を最小化する。
「学習」過程においては、定常的な隠れ状態 x、隠れ原因 v において、
( -log(p(y))) の長時間平均を最小化するのであるが、
DKL はその都度最小化されているので、F を最小化する。
「行為の最適化」においては、同じく( -log(p(y))) を最小化するのであるが、
モデルパラメータを変えるのではなく、行為によって隠れ変数 x、隠れ原因 v を変える
      p(y) = ∫p(y|x)p(x)dx
である。
学習においては p(x),p(y|x) の関数形が変わるのだが、行為においては x が変わる。
x は環境側にあるはずなのだが、x というのは感覚器官の場所や状態(主体)にも依存するから、
そういう意味で、行為 a の関数である。
・・(槇)例えば、文字が視野の中央に像を結ぶ、というのが (x=1) であり、視野の中央に像を結ばないのが (x=0) とする。
文字が目に見えるというのが (y=1) で、見えないというのが (y=0) とする。
通常 p(y|x) としては、x=1 の時に y=1、x=0 の時に y=0 となっている。
だから、文字を読もうとすれば、p(x) としては x=1 で最大でなくてはならないのだが、
環境としては必ずしもそうではない。
この時、環境が変わらないのであれば、視野の中央以外で文字を見るように学習するしかない。
しかし、通常そういうことはしない。眼球の運動によって文字を視野の中央に動かせばよい。
・・
(槇)アフォーダンスの議論(環境心理学)でよく例に出されるのが、逆さ眼鏡である。
上下逆に見える眼鏡を掛けると、しばらくは戸惑うのだが、数日で見え方が普通になってしまう。
この場合は、学習が起きたのである。

・・・「行為」の場合も、DKL が短時間で絶えず最適化されているのであれば、
やはり、a によって F を最小化すると考えればよいだろう。
つまり、F を最小化するという意味での推論は、知覚、学習、行為という3種の働きで共通している。
違うのは時間スケールと脳や身体の機能部位である。

4.2 生成過程と生成モデル
・・・行為 a による状態の変化を取り入れなくてはならない。
そこで、状態方程式 f や観測方程式 g に a が入ってくるのであるが、
隠れ状態 x、隠れ原因 v に対しては、それが現実のものであるのか、脳内モデルのものであるのかによって異なる。
前者のことを生成過程、後者のことを生成モデルと呼ぶ。今までは後者だけを想定すればよかった。
前者を大文字で表記する。(本の中では太字になっている。)
      dX/dt = F(X,V,a;θF) + ΕX
      Y = G(X,V;θG) + Εy
      dx/dt = f(x,v;θf) + εx
      y = g(x,v;θg) + εy
      v = η + εv
今までは、Yだけが与えられていて、Y と y の違いを小さくする方向が「自由エネルギー最小化」であった。
・・(槇)このモデルの立て方は Friston 独特の工夫が入っているので、必ずしも自明ではない。
行為 a の影響は現実の状態 X を変化させるという最初の式は妥当であるが、
内部モデルでの隠れ状態 x に対しては、それなりの学習された内部方程式が必要かもしれない。
行為に至る神経活動の情報は内部モデルに取り込まれるとしても不思議ではないからである。
しかし、その代わりに、Friston は最後の式で、隠れ原因 v の内部モデルを入れている。
η は信念と呼ばれている。

4.3 腕の運動
・・・例として、「水平に支持された板を指で押さえる(視覚無し)」という場合を挙げているが、
モデルの構成には奇妙な処があって、納得できない(p.66,67;Brown et al. 2013)。

・・・運動に対する従来の考え方では、「大脳運動野→脊髄前角の α 運動細胞→骨格筋」
という道筋で一方的に運動指令が伝わる、ということである。
これに対して、Friston の自由エネルギー原理(Bayes 推定)では、大脳運動野に運動指令は存在しない
1.大脳運動野から脊髄前角の α 運動細胞 と送られるのは
      望ましい運動状態において観測される「自己受容感覚の予測信号」である。
      (自己受容感覚は拮抗筋で検出される。)
2.α 運動細胞は筋紡錘から受け取る「実際の自己受容感覚信号」とその予測信号を比較して、
      「誤差を反射弓に送る」。
3.反射弓はその誤差を減少させるように筋肉に指令を出す。
つまり、従来の考え方では、大脳運動野が筋肉の動き方を指令するということだったのだが、
Friston の考え方では、大脳運動野は望ましい運動状態を夢見ているだけで、その情報を受け取った脊髄前角で現実の姿勢と比較されて、反射弓がそれを補正するような運動指令を出す、ということである。確かにこちらの方が素早い対応ができるだろう。
これを支持する実験としては、「大脳運動野を刺激すると、手の初期位置には無関係に、手が同じ位置まで動く」というのがある(Graziano,2006)。
神経生理学的にはいずれの考え方が正しいかどうかはまだ決着がついていないそうである。

・・・「物体に向かって手を伸ばす」という到達運動の例。
隠れ原因 v は物体の位置と明るさであり、隠れ状態 x は腕の関節角度である。
感覚情報 y は物体の視覚情報と腕の自己受容感覚である。
脳中枢は y に対する予測信号を作り、知覚系と運動系の両方にそれぞれを送る。
知覚系では実際の視覚情報との誤差を計算して脳中枢に送り、誤差を補正する。
このやり取りは msec オーダーで収束する現象である。
運動系に送られるのは物体の位置に腕が届いているという場合の腕の自己受容感覚の予測である。
これと実際の腕の自己受容感覚との誤差が反射弓に送られて、反射弓から誤差を消すように運動指令が出される。
当然であるが、そのフィードバックもあるので繰り返し収束させる。
これも msec オーダーで収束する現象である。
・・・このプロセスは「自由エネルギー」の勾配降下法の計算プロセスと等価である。
ただし、勾配計算してどれくらいの調整をするかは計算者が与えなくてはならない。
これを精度制御と呼ぶ。一回の補正で誤差をどれくらい反映させるか、ということである。
大脳皮質から α 運動細胞へは、予測信号だけでなく、精度制御信号も送られている。
その伝達速度は予測信号が速くて、精度制御信号は遅いらしい。
後者は具体的には、神経修飾物質(NDMA、アセチルコリン、ドーパミン、ノルアドレナリン等)の
分泌制御である。これらはいろいろな種類の神経結合に対していろいろなやり方で関わる。
さまざまな運動障害を引き起こすのは主としてそれらの分泌制御異常である。
(図4.3 と BOX p.70-72)

4.4 制御状態と行為選択
・・・Friston の能動的推論では行為 a の脳内モデルが大脳皮質には存在しない。
反射弓が運動指令を出すからである。
現実系での行為 a は 隠れ状態 x の運動を決める隠れ原因 v の一部として知覚系で「推定」される。
脳内モデルにあるのは、行為ではなくてこの推定された隠れ原因の一部であり、これを「制御状態」と呼ぶ。
この推定過程が「意識」される場合に「自己主体感」が得られると考えるが、
意識過程のメカニズムは非常に難しくて、また別の議論が必要である。

4.5 能動的推論としてのホメオスタシス
・・・ホメオスタシスも、運動と同じメカニズムと考える。
この場合の中枢は大脳内の内臓運動皮質である。内臓が筋肉に相当し、脳幹が反射弓に相当する。
内臓の隠れ状態 x と内受容感覚 y の関係が観測方程式である。
      y = g(x) + εy
内部モデルは基本的には長い時間に亘って変化しないと考えられるから、
サプライズ -log(y(t)) が時間平均として小さくなるように内臓の状態を変えるのが行為 a である。

4.6 感覚減衰
・・・運動(or ホメオスタシス)では知覚と異なり、
予測誤差は中枢に送られないで、反射弓(or 脳髄)に送られる。
中枢に送られてしまうと、中枢が想定している身体状態が変化してしまうからである。
これを果たしているのが「感覚減衰」である。次の3つが考えられている。
1.下行する予測信号の精度が高ければ誤差も小さい
      これは予測信号そのものが実際にフィードバックされる誤差信号によってある程度補正される、ということである。
2.大脳運動野の特殊性
      これは知覚皮質と運動皮質でのコラム構造の違いから推定されている。皮質外からの信号を受け取る第IV層が知覚皮質では発達しているのに対して、運動皮質では発達していない。つまり予測信号が修正されにくい。
3.上行する予測誤差信号が抑制されている
      自己受容感覚の予測信号は体性感覚野にも送られている。これはコロラリ放電と呼ばれている。これと自己受容官学フィードバックは視床あるいは頭頂連合野で出会い、そこで予測誤差信号が計算されるのだが、これが実行中の場合には視床で抑制されていると考えられている。

4.7 離散システムにおける能動的推論
・・・msec程度で収束する行為を離散的時刻において繰り返すことで、最終的に目的を達するのであるが、
このような行為の積み重ねの全体を最適化するのが「計画」である。
これは過去の離散的時刻における状態の推移と感覚信号の推移という情報から、未来の離散的時刻におけるそれを最適化し、最終時刻における感覚信号(成果)を得るような行動計画を立てる、という事である。

・・・過去の離散時系列を 0:t と記す。時刻が 0,1,2,3,,,,t で、t は現在時刻である。最終時刻を T と記す。
得られる感覚信号は y の代わりに o と記す。成果(outcome)である。
隠れ状態は x の代わりに s と記す。状態(state)である。
生成過程(現実界)の分布は R(0[0:1],S[0:t],a[t]) である。
生成モデル(脳内)の分布は p(o[0:1],s[0:t],u[t:T]) である。
u が制御状態(行為に対応する隠れ原因)であり、これが「推定」される。
脳が推定するのは、過去の隠れ状態 s[0:t] と 未来の制御状態 u[t:T] である。
Bayes 推定としてはその分布 q(s[0:t],u[t:T])) を p(s[0:t],u[t:T] |o[0:1]) に近づける。
q(s[0:t],u[t:T])) の分布を規定するパラメータを μ[t] とする。(ここに近似が入っている。)
これは時々刻々と変わるので、あくまでも現在時刻 t でのパラメータである。
観測された過去の成果 o[0:t] に対して、隠れ状態の時系列と未来の制御状態に関する認識分布を
パラメータ μ として推定する。
ここで使う「自由エネルギー」は、KLダイバージェンスとサプライズ項から、
      F(o[0:t],μ) = DKL(q(s[0:t],u[t:T] | μ)||p(s[0:t],u[t:T] | o(0:t]) - log(p(o[0:t]))
と表記できる。これを最小にする μ から、行為 a が決まる(推定される)。
      μ[t] = argmin(μ)F(o[0:t],μ)
      P(a[t]=u[t]) = q(u[t];μ[t]) :μ[t] が選択された状態での u[t] の分布 = a[t] の分布。
μ[t] を決める段階が「知覚」であり、a[t] を決める段階が「行為」である。
このプロセスを t を変えながら次々と行う。

・・・p.81 ではこうして繰り返される全体の脳内モデルを考える。
まず、p(o[0:1],s[0:t],u[t:T])  が p(o[0:1],s[0:t],u[t:T],γ | a[0:t-1])
へと変わっている。
a[0:t-1] は過去の行為であり、現実界の変数の筈だが、ここでは脳内モデルに入る。
過去の制御状態 u[0:t-1] とは 1:1 の対応があると仮定されている、ということらしい。
理解の為には、「現在の脳内モデルは現実界の過去の行為に依存している」ということなのだろうが。。。
また、制御状態 u の集中度を定める新たな変数 γ (精度)が導入されている。
これは、今後の制御状態 u[t:T] に対して、その最適解にどれくらい集中するか、という脳の態度を表すようである。
γ が大きければ脳内モデルで想定された最適ポリシーに集中するが、γ が小さければ探索的行動である。
その γ の事前分布を p(γ) とする。これは何らかの体内事情や過去の経緯で決まっていると考える。
p(γ) は過去の行為系列 a[0,t-1] には依存しないと仮定されているようで、
      p(o[0:t],s[0:t],u[t:T],γ | a[0:t-1])
      = p(o[0:t],s[0:t],u[t:T]| γ,a[0:t-1]) p(γ)
      = p(o[0:t]|s[0:t]) p(s[0:t],u[t:T] | γ,a[0:t-1])p(γ)
と積形式に書き直されている。
更に、個別時刻の感覚(成果)o は その時点での状態 s にのみ依存するという仮定(力学的仮定)から、
      p(o[0:t]|s[0:t]) = p(o[0]|s[0])p(o[1]|s[1])p(o[2]|s[2])・・・p(o[t]|s[t])
時刻 t での隠れ状態 s はその前の時点の 隠れ状態と行為のみに依存している(マルコフ過程)と仮定すると、
      p(s[0:t],u[t:T] | γ,a[0:t-1]) = p(u[t:T]|s[0:t],γ)p(s[t]|s[t-1],a[t-1])・・・p(s[1]|s[0],a[0])
これで脳内モデルが利用しやすく変形されたので、これからポリシーを最適化する。
ここでは、脳内では望ましい最終状態の分布がある、と考える。つまり、p(s[T]) がある。
この分布と u[t,T] を最適化したときの s[T] の分布が近いようにすればよいから、
      log(p[u[t:T] | s[t],γ)) =  - γDKL(p(s[T] | s[t],u[t:T]) || p(s[T]))
を最小化すればよい。
しかしまあ、例示も無いので、Friston の式をなぞっただけではある。。。
多分2013年の論文を読んだ方が良い。
その後、Friston は次節のように p(s[T]) ではなくて p(o[T]) を目的とした考えに変わっている。

4.8 期待自由エネルギーの導出と行動決定
・・・Friston の理論は発展途上なので、ここでの概念(2016年以降)は前節の概念と多少異なる。
過去から未来までの時系列において行為の系列をポリシー π (パイ)と呼ぶ。
個々の時点において行為の選択肢が多数あるから、可能なポリシーの数は無数にある。
その一つの( i 番目の)ポリシー πi で生じた 状態 s と 感覚 o について、
内部モデルに基づいて隠れ状態の事後分布 p(s|o) が決まるだろう。
これを近似するような認識分布 q(s|πi) として隠れ状態を議論する。
自由エネルギーの計算の為には未来の成果 o[t+1:T] が必要なので、
予測した隠れ状態 s から成果を予測する必要がある。
これまでの内部モデル p(o,s) や 認識分布 q(s) が π に依存するから、
それらは、内部モデル p(o,s|π) =p(s|o,π)p(o) や 認識分布 q(s|π)) に置き換わる。
p(o) は成果の事前確率であり、そのようにありたいという希望である。
強化学習における報酬に相当する。p(o) と π に依存した自由エネルギーを
期待自由エネルギー」と呼ぶ。

・・・期待自由エネルギーは
      G(τ;πi) = ∑s q(s|πi)log(q(s|πi)/p(o,s | o[0:t],πi))   s と o については τ を省略。
o[0:t] という条件については、依存性が小さいと考える(まあそうかな?)
      ≒ ∑s q(s|πi)log(q(s|πi)/p(o,s |πi))
ここで、Σo p(o|s) = 1 を掛けてもよい。
      = ∑so p(o|s)q(s|πi)log(q(s|πi)/p(o,s |πi))
ただ、p(o,s | πi) は明らかに o に依存しているので、これは正しくないと思うが、、、
ともかく、そうすると、p(o,s | πi) = p(s |o,πi)p(o) を使って、
      = ∑so p(o|s)q(s|πi)log(q(s|πi)/p(s |o,πi)) - ∑so p(o|s)q(s|πi)log(p(o))
未来の時刻 τ について、G(τ;πi) の和をとったものを G(πi) として、
      p(π) = softmax(-γG(π))
としてポリシーが推論される。
ここで softmax という耳慣れない関数が登場する。
      yi = exp(xi)/{∑j exp(xj)}
統計力学で言えば、分配関数の中で占めるその状態の比率である。
精度パラメータ γ は行為によって期待自由エネルギー G(τi) が小さくなれば
大きくして、大きくなれば小さくする。(繰り返し収束計算では実際にそうする。)
脳内モデルの信頼性に応じて、
モデルを利用して推定精度を上げる(利用行動)のか探索する(探索行動)のか、の調整をする。

・・・まとめると、
1.隠れ状態は、環境の隠れ状態 x とポリシーの隠れ状態 π から成る。
2.変分自由エネルギー F の最小化で 環境の隠れ状態 x の事後分布が推定される。
3.期待自由エネルギー G の最小化で、ポリシー π の事後分布が推定される。
これらのバランスを考慮するために精度パラメータ γ が想定されている。
更に、より長期的な習慣的因子として事前選好確率分布 E(π) を入れておく(Friston)。
      p(πi) = softmax(E(πi) - F(πi) - γG(πi))

4.9 行動の価値と主体感
・・・期待自由エネルギー
      G = ∑so p(o|s)q(s|πi)log(q(s|πi)/p(s |o,πi)) - ∑so p(o|s)q(s|πi)log(p(o))
の意味を考える。
第1項の πi は共通しているので省略する。Σso も省略する。
      = p(o|s)q(s)log(q(s)/p(s|o))
これを p(o|s)q(s)log(q(s)p(o)/p(s,o))
と書き直すと、q が p の良い近似であるとすれば、対数の中は s と o との相関性を表している。
その対数の期待値であるから、o の知識が s の不確実性を減少させる度合(相互情報量)である。
また、q が p の良い近似であるとして、q=p とすれば、
         ∑os q(o)q(s|o)log(q(s)/q(s|o)) = Σo q(o)DKL(q(s|o)//q(s))
と書き直すと、成果 o の情報によって、状態 s への信念がどれくらい変化したかを示す(Bayes サプライズ)。
第2項 - ∑so p(o|s)q(s|πi)log(p(o)) は成果の対数証拠の期待値である。
意味としては、
第1項が状態の不確実性を減らす(認識)方向であるのに対して
第2項は望ましい成果を上げる(実利)方向である。
つまり、
      期待自由エネルギー = - 相互情報量 - 対数証拠の期待値
                                  = - 認識的(内在的)価値 - 実利的(外在的)価値

・・・ここまでで Friston の理論の主要部分が一応解説されたことになる。大脳皮質の働きを Bayes推論の枠組みで解釈した、というものと言えるのだろう。大脳皮質に何が実在するのか?と言えば、生理学的に答えるしかない。ここで登場する「内部モデル」は実在するとはいえないかもしれないが、それを仮定することで大脳皮質の機能が説明できる、ということである。内部モデルは基本的に確率分布として表現されている。これは、ある意味で量子力学的状態と似ている。(位相自由度が無いだけである。)量子力学的状態そのものは実在なのか?ニールス・ボーアはそれは実在ではないと言った。実在しているのは、その測定値(現象)である。ここでいう「内部モデル」もそうであろう。それは大脳皮質の働きを解析する我々の視点に応じて変わる。大脳皮質自身は知覚と行為が一体化しており、更には学習によって変化するから、全体を一気に記述する訳にもいかないからである。

・・・残りの章は応用編とも言える。
第5章 離散系と連続系の統合(読書過程); 第6章 運動制御と運動認識; 第7章 音声コミュニケーション機能

  <目次へ>       <一つ前へ>     <次へ>