研究テーマ ->音声認識/合成 ->音声認識->周波数スペクト ルの分析->周波数スペクトル の役割
  音声認識/合成に関する情報を提供します。  
音声認識における周波数スペクトルの役割
音声の波形は、人や話し方でその都度変化します。しかし、「あいうえお」のそれぞれの母音の周波数スペクトルには、特徴となる大きさや並び方があるので、基準となる音声データをできるだけ多く用意すれば、波形が多少異なっていたとしても、認識させることが可能となります。
周波数スペクトルを基にした、なんちゃって音声認識
通常の分析には、同じ母音の発声を記録したファイルを複数用意し、それを平均 化したものを使用します。ここでは、面倒なので、1回だけ録音したファイルをそのまま利用しています。「あ」と「お」と「え」は、周波数スペクトルが似ていると言われていますので、実際にそうなのかを調べてみました。周波数の分析には、フーリエ変換という手法を用います。この手法を用いて、周波数スペクトルを表示できるソフトが多くあります。 (フーリエ変換については、こちらのページもご覧ください。)

周波数スペクトルを表示できるソフトには、あるタイミングを捉えて、その時点でのスペクトルを表示するものと、ファイル全体としてのスペクトルを表示するものとの2つのタイプがあります。たとえば、下の図は、母音「あ」のファイルの再生中に、あるタイミングを捉えて、その時点でのスペクトルを表示したものです(GoldWaveを使用しています )。

次の図は、Audacityを使用して母音「あ」のファイル全体としてのスペクトルを表示したものです 。

次の図は、ゆらぎ解析君を使用して母音「あ」のファイル全体としてのスペクトルを表示したものです 。

次に、 各母音の周波数スペクトルの特徴を見てみましょう。ここでは、WaveSpetraというフリーソフトを使用します。以下の図は、各母音の音声ファイルの中ほどのタイミング で、スペクトルを表示したものです。
「あ」の周波数スペクトルです。特徴は矢印が示す通り、500Hz手前まで段階的に下がっています。
「い」の周波数スペクトルです。特徴として、3番目の突起が「う」と比べて小さくなります。

「う」の周波数スペクトルです。特徴として、3番目の突起が「い」と比べて大きくなります。
「え」の周波数スペクトルです。特徴は矢印が示す 通り、3番目に向けて下がり、4番目に向けて上がります。
「お」の周波数スペクトルです。特徴として、4番目が他と比べて1つだけ突出します。
認識精度を上げるには?
ちゃんとした手法をとると手間がかかるので、上記では、ファイルの中ほどのタイミング で、スペクトルを調べていますが、本当は、周波数のピークが時間的にどのように変化するかも見る必要があります。時間とともに変化するピークのことをフォルマントと呼びますが、正確な音声認識を行なうには、フォルマントの変化のパターンを見る必要があるのです。