研究テーマ
->
音声認識/合成
->
音声認識
->
周波数スペクト ルの分析
->
周波数スペクトル の
役割
音声認識/合成に関する情報を提供します。
音声認識における周波数スペクトルの役割
音声の波形は、人や話し方でその都度変化します。しかし、「あいうえお」のそれぞれの母音の周波数スペクトルには、特徴となる大きさや並び方があるので、基準となる音声データをできるだけ多く用意すれば、波形が多少異なっていたとしても、認識させることが可能となります。
周波数スペクトルを基にした、なんちゃって音声認識
通常の分析には、同じ母音の発声を記録したファイルを複数用意し、それを平均 化したものを使用します。ここでは、面倒なので、1回だけ録音したファイルをそのまま利用しています。「あ」と「お」と「え」は、周波数スペクトルが似ていると言われていますので、実際にそうなのかを調べてみました。周波数の分析には、フーリエ変換という手法を用います。この手法を用いて、周波数スペクトルを表示できるソフトが多くあります。 (フーリエ変換については、
こちら
のページもご覧ください。)
周波数スペクトルを表示できるソフトには、あるタイミングを捉えて、その時点でのスペクトルを表示するものと、ファイル全体としてのスペクトルを表示するものとの2つのタイプがあります。たとえば、下の図は、母音「あ」のファイルの再生中に、あるタイミングを捉えて、その時点でのスペクトルを表示したものです(
GoldWave
を使用しています )。
次の図は、
Audacity
を使用して母音「あ」のファイル全体としてのスペクトルを表示したものです 。
次の図は、
ゆらぎ解析君
を使用して母音「あ」のファイル全体としてのスペクトルを表示したものです 。
次に、 各母音の周波数スペクトルの特徴を見てみましょう。ここでは、
WaveSpetra
というフリーソフトを使用します。以下の図は、各母音の音声ファイルの中ほどのタイミング で、スペクトルを表示したものです。
「あ」の周波数スペクトルです。特徴は矢印が示す通り、500Hz手前まで段階的に下がっています。
「い」の周波数スペクトルです。特徴として、3番目の突起が「う」と比べて小さくなります。
「う」の周波数スペクトルです。特徴として、3番目の突起が「い」と比べて大きくなります。
「え」の周波数スペクトルです。特徴は矢印が示す 通り、3番目に向けて下がり、4番目に向けて上がります。
「お」の周波数スペクトルです。特徴として、4番目が他と比べて1つだけ突出します。
認識精度を上げるには?
ちゃんとした手法をとると手間がかかるので、上記では、
ファイルの中ほどのタイミング で、スペクトルを調べていますが、本当は、周波数のピークが時間的にどのように変化するかも見る必要があります。時間とともに変化するピークのことを
フォルマント
と呼びますが、正確な音声認識を行なうには、フォルマントの変化のパターンを見る必要があるのです。