音楽研究所　研究テーマ->音声認識/合成

周波数スペクトルを基にした、なんちゃって音声認識

通常の分析には、同じ母音の発声を記録したファイルを複数用意し、それを平均化したものを使用します。ここでは、面倒なので、１回だけ録音したファイルをそのまま利用しています。「あ」と「お」と「え」は、周波数スペクトルが似ていると言われていますので、実際にそうなのかを調べてみました。周波数の分析には、フーリエ変換という手法を用います。この手法を用いて、周波数スペクトルを表示できるソフトが多くあります。（フーリエ変換については、こちらのページもご覧ください。）

周波数スペクトルを表示できるソフトには、あるタイミングを捉えて、その時点でのスペクトルを表示するものと、ファイル全体としてのスペクトルを表示するものとの２つのタイプがあります。たとえば、下の図は、母音「あ」のファイルの再生中に、あるタイミングを捉えて、その時点でのスペクトルを表示したものです（GoldWaveを使用しています）。

次の図は、Audacityを使用して母音「あ」のファイル全体としてのスペクトルを表示したものです。

次の図は、ゆらぎ解析君を使用して母音「あ」のファイル全体としてのスペクトルを表示したものです。

次に、各母音の周波数スペクトルの特徴を見てみましょう。ここでは、WaveSpetraというフリーソフトを使用します。以下の図は、各母音の音声ファイルの中ほどのタイミングで、スペクトルを表示したものです。

「あ」の周波数スペクトルです。特徴は矢印が示す通り、500Hz手前まで段階的に下がっています。

「い」の周波数スペクトルです。特徴として、3番目の突起が「う」と比べて小さくなります。

「う」の周波数スペクトルです。特徴として、3番目の突起が「い」と比べて大きくなります。

「え」の周波数スペクトルです。特徴は矢印が示す通り、3番目に向けて下がり、4番目に向けて上がります。

「お」の周波数スペクトルです。特徴として、4番目が他と比べて1つだけ突出します。