内田秀継の研究のページ

音声−調音マッピング

音声−調音マッピング

調音運動(発話中の舌や唇の運動)は、調音観測システムを使うことによって観測することが出来ますが、様々な応用先(発音トレーニングなど)を考えると、調音観測システムを使わずに調音運動の情報を知りたい場面があります。そこで考えられたのが、音声から調音運動を推定する音声ー調音マッピングです。音声ー調音マッピングでは、音声と調音運動を同時測定したデータ(音声ー調音パラレルデータ)を用いて、音声と調音運動の変換関係を機械学習します。機械学習の方法として、これまで様々な方法が検討されてきました。画像認識や音声認識で話題のディープニューラルネットワーク(DNN)を用いた方法もその一つです。機械学習によって得れた変換モデルを用いることで、任意の発話音声に対して調音運動を推定することが出来ます。