brain-music

2025.02.01

ツタヤ書店で偶然見つけた『脳と音楽』伊藤浩介（世界文化社、2024年）はなかなかよくできた教養書で、頭を整理するのにちょうど良いので、つい買ってしまった。ただし、基本的に西洋音楽に重点を置いているので、リズムや音色の側面はあまり論じられていない。脳との関係で言えば、リズムは身体運動野が関係してくるし、音色では視覚野の関与もあるだろうが、ここでは音の高さ（音響の振動数に対応する認知）に焦点を当てている。これは勿論、先進国において西洋音楽が席捲しているからである。アラビア、インド、中国、アフリカ各地、インドネシア、日本、等々多くの「民族」音楽についてはもっと広い視野が必要であり、別途専門家の解説を読むべきだろう。

第１~３章で、音響現象と心理的な「音」の関係を生理学・心理学の観点から解説している。かなり昔、DAT（Digital Audio Tape）の開発をしていた頃にこういう事も勉強していたので懐かしい。読んだ本は『オーディオと音楽のためのー音質のすべて』厨川守他（誠文堂新光社1981年）である。

内耳の基底膜上で音響がフーリエ分解されて、高い音から低い音まで空間的にマッピングされるのだが、それに加えて４KHz以下位までは神経細胞の興奮（パルス）が音響に同期して生じていて、これは倍音関係の認知をもたらしている。ただし、神経細胞の応答は遅れるので、１KHz以上になってくると、パルスが遅れて、音響的にはより高くないと同じ音高と感じられなくなるから、感覚的な音高と音響の周波数が少しづつずれてくる。

内耳基底膜のマッピングには分解能の限界があるので、音高の識別には臨界帯域があって、中音域では全音（ドとレの間）程度だが、低音域ではもっと広く、高音域ではもっと狭い。その中に入る位に異なる周波数の音響が二つ重なると、差が小さければ２音がうなり、差が大きくなるとひとつの粗い音に感じる。更に離れると明瞭な２音に聞こえる。だから、低音域における和音は間を開けないと濁って聞こえてしまうし、逆に高音域では不協和な音の組み合わせでもそれを感じない。いずれにしても、臨界帯域内に入ってしまう二つの音響は一つの音として認知される。また周波数が整数比に近いとそれも一つの音として認知される。音楽で使われる音は正弦波ではなくて、倍音が混ざっていて、それを音色として認知するのであるが、神経細胞の興奮の時間的同期の関係から、二つの楽音の倍音同士の周波数関係も協和・不協和に影響していて、結果的には基音周波数が簡単な整数比になっているほど協和的に響くことになる。

（西洋）音楽を専門に訓練していない人に対して、心理的な音高（メル、「感覚的ピッチ」）と音響周波数との関係が巧妙な心理実験で調べられていて、予測される対数関係（音高が周波数の対数に比例している「ウェーバー・フェヒナーの法則」）から外れていることが判っている。低音域では、対数関係よりも依存性が緩やかで、周波数を上げても予測通りには音高が上がらないし、高音域では逆に、対数関係よりも依存性が鋭くて、周波数を上げることで予想されるよりも音高が上がる。しかし、音楽に親しんでいる人でテストすると、これが対数関係に近くなっている。つまり学習されている。これには、神経細胞の同期パルスを利用したオクターブ認知（周波数が２倍の音は同じとして認知される）やその他の協和音の認知が習慣化してしまい、素朴な音高の認知が歪められた（矯正された？）結果である。このようにして文化的に矯正された音高感覚を「音楽的ピッチ」と著者は名付けた。

第４章は音楽的ピッチと密接に結びついている音階の話である。音楽的ピッチの感覚を平面に投影すると、その関数関係は周波数の高さの対数の軸の上がる方向に螺旋状に巻いていることになる。つまり、周波数が２倍の音響には同じピッチが対応している。一つだけの音高でも音楽は成立するが、表現としてはやはり音高の時間変化が求められる。そこで、どれくらいの音高変化を追加すればよいのか、ということになる。著者は３つの原則を仮定して、論理的に整理している。
１．あまり広くない音程変化を使う（歌いやすいから）
２．和音として協和的な音程を優先する（合唱や合奏のため）
３．複雑な表現の為に音の数を増やす

この原則１と臨界帯域から、近似的な全音（ドとレの間）がまず追加され、原則２から、完全４度（周波数比 3:4）と完全５度（2:3）が追加され（ファとソ）、これらの間の全音が近似的であった全音の間隔として採用され、ラが追加される。こうすると、５音音階ができる。ドレファソラド、および始点＝主音を移動した３種の音階である。メジャーペンタトニック（ヨナ抜き、ドから）、マイナーペンタトニック（民謡、ラから）、律音階（ソから）。これらは完全に協和的音階なので素朴ではあるが表現力（原則３）に不満が残る。そこで、半音を許容して、二つの半音間隔をお互いになるべく離れるように配置したのが７音の全音階、ドレミファソラシド（およびそこから始点＝主音を移動した全部で７種の音階）である。音間隔を並べると、全音ー全音ー半音ー全音ー全音ー全音ー半音ー （の繰り返し）となっている。当初ドから始まる音階（アイオニアン）は主流ではなかったが、後に調性が重要視されるようになって、現在の長音階となった。しかし、１，２，３の原則は完全に満たすことが出来ないので、全音階以外にも多数の音階が世界中で使われている。（歴史的には近似的全音階がギリシャ・ローマ時代から使われていた。中国ではもっと昔からあった。全音階は全ての音を 2:3 の比率で重ねていくことでも近似できる（ピタゴラス音階）が、その場合にはドとミの間がかなり不協和になる。）

西洋音楽では、長３度（ドとミの間、全音２つ）が使われるようになると、主音と第３音の間を協和的にするためにその周波数比が 4:5 になった（純正律）が、全ての長３度を協和的には出来なかった。やがて、転調が使われるようになると、鍵盤楽器の為に、妥協的な音階が広く使われるようになった（中全律や平均律）。弦楽器、管楽器、声楽では比較的自由に音高を変えられるので、必要に応じて演奏者が微調整している。というか、微調整できる人がプロである。この辺りのことは、「響きの考古学」藤枝守で勉強した。

第５章からは音楽（とりあえずは西洋音楽）の立場からの解説である。音楽は音に対して、感情的価値を持つ。その意味内容については個人的主観的であるから、音が如何にして人に感情的な揺さぶりをするのか、という立場を採る。そして、その感情的揺さぶりの根源として「緊張ー弛緩」を考える。（この考え方・仮定は西欧的、近代的である。人は必ずしも感情的揺さぶりを必要とはしていない。）

まずは音のラウドネスの側面から言えば、ダイナミクスが使われる（主にはクレッシェンドーデクレッシェンド）。リズムの側面から言えば、そのリズムの変化が使えるだろう。アメリカ風若者の音楽はどちらかというとポリリズムによる緊張ー弛緩が主体となっている。音高の側面としては、単純には音高が高くなっていけば緊張し、低くなっていけば弛緩するが、これを裏切るようなトリックも使われる。

ここで議論されるのは西洋音楽である。ヨーロッパではキリスト教の布教手段として音楽が体系化された、という事情があって、リズムよりも持続音とその音響（共鳴）が主役となった。この辺りの事情は2008-12年に16回にわたって岩波「科学」に連載された 伊東乾の「物理の響きこころのひびきー音楽への認知的アプローチ」でかなり詳しく述べられているが、書物にはまとめられていないようである。その歴史の中で調性構造による緊張ー弛緩が体系化された。主音（ド）が確立している状況において、属音（ソ）は緊張感を与える。主音の半音下の導音（シ）もそうである。下属音（ファ）も緊張感を与えるが、その解決方向には属音と主音がある。それ以外の音には状況依存性がある。このような音に対する我々の反応は西洋音楽で調性が確立して、それを我々が受け入れている（無意識に習慣化されている）からである。（日本では明治以降。）

西洋音楽の歴史から言えば、中世において、教会主導でグレゴリア聖歌が公的な音楽となり、そこでは単旋律しかなかった（モノフォニー）。音階の考え方としてはピタゴラスの整数比理論があっただけである。

12世紀頃には、より緊張感を出すために、オルガヌムが生まれた。緊張部分において、完全４度や５度だけずらした旋律を並行して歌う。これが単旋律に戻ることで弛緩する。ヘテロフォニーという。このオルガヌムは旋律間での音程やリズムを少しづつ変えていく。

15世紀頃には、複線化した旋律が単なる真似ではなく、お互いに別の旋律を歌うようになる。これがポリフォニーである。当然同時に鳴る音同士が不協和になる場合が生じる（感覚的不協和）が、それが緊張効果も与えるので、それを協和関係に戻せば弛緩する。音楽教育ではあまり陽には説明されないのだが、音楽学上の不協和には同時に鳴る音同士ではなく、文脈的不協和というものがある。典型例が４６（4度6度）の和音である。下からソードーミと同時になると、これは感覚的には協和しているが、再低音がソである以上、６度上のミよりも、５度上のレの方が安定しているので、ソーシーレに動いて弛緩する。これら多くの規則が研究されて、対位法という作曲技法が確立してきた。その中で、表現の自由度を増やすために、完全４度や５度以外に長短の３度が新たに協和音程として追加された。周波数比で言えば、4:5と5:6である。（当時の民衆音楽が起源と言われている。）

16世紀になると、長短の３和音（長3度＋完全5度（ドーミーソ）、短3度＋完全5度（ラードーミ））が確立し、音階もそれらを使った緊張ー弛緩の演出がもっとも生かせるアイオニアン（長調）と（派生音を多用する）エオリアン（短調）に落ち着いて、楽曲自身がそれらの和音の進行（和声）として理解されるようになった。そうなると、17世紀には、旋律を和声が支えて動かしていく、という見方が一般化して、ホモフォニーの時代になる。（ポリフォニーとの違いは和声が主役となっていることである。これは物理的か心理的かの違いはあるが、残響あるいは短期記憶が長いからこそ成立するともいえる。）当初、支える和声の記述は、最低音（通奏低音）の譜の傍に何もつけない（原型ドーミーソ）、６を付ける（第１展開形ミーソード）、４６を付ける（第２展開形ソードーミ）と区別していて、実際に和音のどの音を演奏するかは奏者に選択の自由があったが、判りにくいので、実際に音譜を書くようになった。（ポップスでは和音記号を使っていて、低音楽器奏者にはかなり自由がある。）なお、大バッハが時代に抗うように晩年に至るまでポリフォニー（対位法）にこだわったのは有名であるが、彼は同時に調性と和声学の大家でもあった。

第６章は調性音楽と和声の具体的な話になる。この辺の事は 2011年に「憂鬱と官能を教えた学校」菊地成孔＋大谷能生（河出文庫）で勉強したのだが、その要点だけをまとめた感じになっているのですっきりしている。なお、最初に体系化したのはラモーである。

主音の上の３和音を I として、以下、レミファソラシの上の３和音を II、III、IV、V、VI、VII と記すのが習わしである。長調の場合には（この場合しか説明していないが）、II、III、VI が短和音となり、VII は不協和音である。I は主和音（Tonic）、V は属和音（Dominant）、IV は下属和音（Subdominant）で、他の和音もそれらと音が重なるので、代用される。II は S の代替、III は D の代替、VI は T の代替、VII は D の代替である。

これらを時間順に並べると、緊張と弛緩の波を作り出すことができる。ただし、調性感（どの音が主音か）が確立している限りである。特に D から T への緊張→弛緩は強い（ドミナントモーション）。V には更に第７音（導音）を追加して、V7 属７とするとこれが強化される。IV→I も終止感があるが弱いので、変終止と呼ばれている（アーメン終止）。（IV には第6音を追加して IV+6 として使うことがある。）V→VI も終止感があり、偽終止と呼ばれる。逆に宙吊り感（半終止）として使われるのは、I,II,IV,VI等→V である。

ちょうど良い例がフルートの練習曲にあったので、和声進行を書いてみた。ライヒャルトによる、分散和音を並べた曲である。小節の最初の音を響かせるので最初の和音の最低音と解釈して / の下に書いた。I→V7→V7→I の繰り返しであるが、和音を展開していくことで、赤丸で示すように、曲全体にわたるなだらかな弛緩→緊張→弛緩の旋律を作り出している。第５小節の C（I）は第二展開形（４６の和音）なので、トニック機能は無くて、G7（V7）に落ち着く。また第６小節ではドミナント機能として導音B（VII）＋代理サブドミナント Dm（II）が使われていて、印象的である。うまく作られているので、練習していて飽きない。

ここで、短調の場合を簡単にまとめておく。自然短音階（エオリアン）では IV と V が強くないが、和声的短音階（第７音を半音上げる）では V が長調と同じ強さの属和音になり、II も長調と同じ代替属和音となる。また更に旋律的短音階（第６，７音を半音上げる）とすることで、 IV も長調と同じ強さの属和音となる。こうして音階が複線的になってしまうが、和声的構造としては長調と同じである。なお、旋律的というのは、音階中に短３度の跳躍が無くなって歌いやすくなったという意味である。しかし全音階７種のどれでもない。旋律的短音階の音間隔を並べると、全音ー半音ー全音ー全音ー全音ー全音ー半音ー となっていて、旋律におけるこの並びがいかにも短調という感じを与える。（自然短音階では、全音ー半音ー全音ー全音ー半音ー全音ー全音ー、和声的短音階では、全音ー半音ー全音ー全音ー半音ー全＋半音ー半音ー）

いくつかの和声パターンが頻繁に使われる。I→IV→V→I。I→II→V→I。I→VI→IV→V→I。I で始まり、V→I で終わる、という構成の中で、その中間部分は自由度が大きい。I→V→VI→IV を中間部につかうと「Let it be」。この４つの順番をずらしていくと、現代 POPS の標準的な和声進行になる。

旋律が和声に拘束されているのがホモフォニーの特徴であるが、旋律はリズムが細かくできるので必然的に非和声音が現れる。これらが、旋律のアクセントとして緊張を作り出す。独奏者においても、低音部から旋律を支える和音を同定して、旋律中の非和声音を見つけて、その表現を工夫する（アクセントを付ける）ことが求められるが、プロの演奏を注意深く聴けば学ぶことができる。

第７章では、緊張と弛緩の脳科学的情報科学的意味付けを考えている。緊張とは期待を裏切る情報であり、弛緩とは情報への慣れ合いあるいは納得である。期待を持たせるために楽曲構造としては繰り返し構造が使われて、それに引き続いて期待を裏切るような内容が使われて、それが終結に向かう。こうして、A-A-Bという楽曲構造とその変形応用が一般的になっている。ソナタ形式とかロンド形式とかもこの枠組みに入る。

第８章は脳の話。言語に失語症があり、その研究から言語野が同定されているのに比べると、音楽にも失音症はあるが、その場所は人それぞれである。これはむしろ後天的であるにもかかわらず機能部位が決まっている言語機能のほうが特異的と考えられる。言語はそれだけ重要な機能なのである。ただし、音楽における絶対音感については言語と同様に言語野の近くに機能が局在している。７歳頃が臨界期であることも言語と共通している。

音楽における緊張感（情報）の受容には２種類あって、感覚的なもの（音の大きさ、高さ、音色の違い）は動物にも共通してあるが、認知的なもの（音と音の関係性の把握）はヒト固有と考えられる。実験的には脳波の観測で確認できる。オドボール課題（慣れさせるための刺激を繰り返して、違う刺激を与える）によってミスマッチ陰性電位が生じれば、驚いていることが判る。これは聴覚野の辺りで生じるが、認知的な驚きの場合（終止形が裏切られたとか）には、前頭葉の下部（音楽文法部位）から ERAN（Early Right Anterior Negativity）が観測される。0.2秒程度の応答なので、無意識に驚きを認知していることが判る。これらの素早い反応に引き続いて、0.3秒位から１秒位の間のゆっくりした脳波（N5）が生じる。この時間スケールで前頭葉が驚いた部分を「解釈」していると思われる。

大脳皮質におけるこのような神経の興奮が辺縁系に伝わると、情動（身体反応）を起こし、快不快の神経伝達物質が分泌され、記憶・学習が促進される。

このような脳における音楽の反応は、一般的な脳の原理（フリストンの自由エネルギー原理）に沿っている。つまり、脳は感覚刺激を解釈するための内部モデルを保持していて、その内部モデルの予測から外れる感覚刺激を驚き（サプライズ）として、それを修正するように内部モデルを修正する。修正が上手くいけば弛緩して、快感が得られる。17世紀のライプニッツは音楽を「無意識の計算」と表現し、19世紀のヘルムホルツも音楽を「無意識の推論」と表現した。しかし、このような一般論（環境への適応）では、そもそも何故音楽があるのか？という疑問には答えられないし、単なる音と音楽の違いや、言葉と音楽の違いが何故生じてきた（分化した）のかが判らない。

第９章では、西洋音楽から遠く離れた20世紀風の「音楽」を考察することで、音楽の存在意義や来歴を問い直す。

単純な打楽器単体でも音楽は可能である。つまりリズムや拍があればよい。また調性が無くても、音階さえあれば、シェーンベルクのように12音の無調音楽が可能である。しかし、リズムや音階は音楽の手段にすぎない。音楽の本質は人から人へ、緊張ー弛緩の誘導によって心を伝えることである。

リゲティは『100台のメトロノームのためのポエジー・シンフォニーク』で、アナログメトロノームを一斉に稼働させ、ネジ巻きが緩むまで動かし続けた。一斉に多数の音がランダムに始まるというのは「緊張」であり、それに慣れたころ、少しづつメトロノームが止まっていき、少数のメトロノームの偶然に刻まれるリズムに聴衆が気付くという「驚き」があり、最後のメトロノームが終わる。これは意図された音楽である。

ケージは『Water Walk』において、様々な水を使う道具類とピアノやシンバルを用意して、それらを順序正しく鳴らしていく、という作品を発表した。これも、要所要所で『驚き』やその解決による『笑い』を演出している。

何かを伝えるという「意図」に反論する実験として、「偶然性」を与えた音楽の試みの最初はモーツァルトの『音楽のサイコロ遊び』で、小節の順序をランダムに演奏するものだった。武満徹が楽譜を図形で書いて解釈を演奏者に任せたのもその試みである。環境音を録音して、それを切り貼りする『ミュージック・コンクレート』もそうであるが、いずれにしても、作曲者の意図というものは楽曲構成全体に反映されている。ケージの『４分３３秒』は、無音の時間を音楽としたことで有名であるが、これも本当の無音ではなく、無音によって脳内に誘導される音（脳は無音になると自ら音を作る）を使った音楽と言える。こうして、結局の処、何らかの「音」（これは脳内に生じる認知）を介した人から人への心の伝達、という風に音楽の定義を広げてみることができる。（勿論伝わらない場合には音楽が成立していない。）

それでは音楽と言語はどう違うのか？が次の疑問として湧いてくる。そこで、言語を構成する要素、単語、統語（文法）、意味、韻律について考える。

言語の単語に相当するのは音楽の「動機（モチーフ：ある意味を持たせて繰り返し使われる旋律単位）」があるが、それを使う音楽は限られている。

統語については、脳における仕組みが異なる。音韻の連なりから単語を作るという場面での統語作用は言語野において１秒以内の短時間で完成し、単語を繋いて概念を生み出すにはもっと広範囲で長い時間がかかる。音楽では、音は側頭葉では情報の有無（新規性）しか評価されず、前頭葉で直接意味化される。

意味の側面では、言語の意味が明確であるのに対して、音楽の意味は確かにあるとは言え、非常に曖昧（情緒的）である。このような曖昧な意味は（音声）言語にも付随していて、韻律（プロソディ）と呼ばれている。この言語における「音楽的」要素を除いた残りは結局「文字言語」に近いものとして想定される。言語活動の中でも、演説においては、言語が音楽的に、つまり緊張ー弛緩の法則に従って構成されている。詩も同様であり、しばしば定型的な韻律を使う。この傾向が進むと我々が日常的に楽しんでいる「歌」となり、音楽の領域に入ってしまう。

結局音で伝わる情報から「文字言語」要素を抜いたものが音楽である。しかし、文字を持たない民族にも言語は当然あるので、この言い方は正確ではない。レヴィ＝ストロースは、この文字言語的という定義を「翻訳可能」と言い換えた。音を変えても同じ意味が実現できる、ということである。確かに、音を変えたら音楽の意味は変わるのだから、これは上手い区別の仕方と言えるだろう。音楽とはその音以外では意味を伝えられない心の伝達である。音楽の意味を言葉で説明することは可能であるが、それだけでは汲みつくせないのが音楽の意味である。

＜目次へ＞＜一つ前へ＞＜次へ＞