研究テーマ ->音声認識と音声合成 ->音声認識->波形分析
  音声認識や音声合成に関する情報を提供します。  
 
声の波形
パソコンでマイクから音を取り込んで録音し、編集できるツール(ここではWaveLab Liteを使用) で、「あいうえお」と発音し、録音してみました。ツールで波形を表示すると、下の図のようになりました。音声の波形は、母音によって異なってい ることが分かります。(適当に録音したので、あまり綺麗に録音されていません。)
「あ」の波形 「い」の波形 「う」の波形 「え」の波形 「お」の波形
波形の特徴
雑に録音しているので、なんとも言えませんが、ここでの録音の結果では、「お」の波形は、1つの山になっていて、音の大きさにほとんど変化がないことが分かります。一方、「 あ」や「い」の波形は、複数の山があり、音の大き さに変化があるように見えます。
これはあくまで1つの例です。 (考え方だけを示していますので、録音された波形や導き出される結果は、この分野の研究の一般的な結果とは異なっている可能性があります。)
声の波形は、人やその時の話し方によって変化 しますが、人や話し方にかかわらず、共通の傾向があるということも分かってもらえると思います。 この分野での研究では、色々な人の音声データや、違った話し方をした音声データをできるだけ多く収集し、分析に使用します。
 
音声認識の技術
音声が正しく認識されるための条件は何でしょうか?例えば、母音の「あ」が 、きちんと「あ」と認識されるには何が必要でしょうか?
上の図 のような形で、音声の波形を表示させた場合は、時間とともに、相対的な音の大きさがどのように変化するかしか見ることができません。音声を認識するためには、音量だけではく、音程(つまり周波数) の変化も見る必要があります。
詳細については、フォルマントエンベロープ周波数スペクトルの各ページで 説明しています。