音楽研究所　研究テーマ->音声認識/合成

研究テーマ ->音声認識と音声合成 ->音声認識->音声合成->音声合成技術について

音声認識や音声合成に関する情報を提供します。

音声合成技術とは？

コンピュータを使用する場合、通常は、視覚的な手段で、ユーザーへの情報伝達が行われます。しかし、音声も、情報伝達の効果的な手段の１つです。音声合成の技術は、コンピュータ内部で、自然な音声を合成し、作り出すことを目標にしています。
音声を合成するとは、人間が音声として認識できる波形を、作り出すことを意味しています。

合成技術の種類

人間が音声として認識できる波形を、作り出すには、大きく２つの手法が考えられます。１つは、録音された音声の断片を連結して合成する方法です。この手法は、連結的合成と呼ばれています。もう１つは、録音された人間の音声は使用せず、コンピュータ内部の計算だけで、人の声のように聞こえる波形を作り出す手法です。この手法は、フォルマント合成と呼ばれています。

連結的合成

単語や音節、文節などの単位で録音された音を組み合わせて、合成する手法です。音を組み合わせるために、文脈を解析する処理や、データベースなどが技術上の重要な要素となります。一般には、連結的合成の手法が、最も自然な合成音声になるといわれています。どのくらい、細かく音声を断片化しているかや、どのくらい発声のバリエーションがあるかが鍵となります。

フォルマント合成

フォルマント合成では、録音された人間の音声は使用しません。コンピュータ内部の計算で、波形を作り出す手法です。音量や、周波数の変化を操作して、人工的な音声を作ります。以前は、ロボットボイスなどとも呼ばれる不自然な声しか作り出すことができませんでしたが、最近はかなり自然な声に近づいてきています。内部的な計算で、波形が作られるので、イントネーションや音色などを変化させることが簡単に行えます。