人間による音声情報処理過程の分析と
それを応用した音声対話インターフェイスの構築
!!English version is under construction.!!
研究目的
近年の目覚ましい計算機技術の進展に支えられ,大語彙音声認識システムやコー
パスベース音声合成システムに代表される音声言語情報処理技術も大きく前進し
た。しかし,これらの技術的進展にも拘らず,音声対話システムに対する利用者
からの不満の声は大きい。その原因の一つとして考えられるのが,現対話システ
ムは,「場」を理解する能力が非常に貧弱である点であろう。従来の対話システムにおける音声メディアの処理
形式では,入力音声を音声認識システムによって文字化し,文字となった言語情
報を頼りに話者の意図を抽出するものが多い。一方,人と人が対話を行なう場合,
音声中に含まれる非語彙情報(広く解釈すれば「場」の情報)を積極的に利用し,
対話を円滑に遂行する様子が観測される。「場」の情報には,人間の五感に関す
る様々なメディアが考えられるが,本研究では,音声・音響情報の一つと考えら
れる「話者の年齢情報」及び「話者の精神状態(感情)」の推定とそれに基づく
システム応答音声の脚色,及び,話し手・聞き手を取り巻く環境の情報(部屋のレイアウ
ト,オブジェクトの配置など)に基づく効率的な対話進行の実現を目指す。
研究計画
- 話者の知覚的年齢及び精神状態の推定とそれに基づく対話戦略の制御
人間同士の会話では,発話者は相手の状況(意図,感情,興味,年代,知識な
ど)に応じて対話戦略を動的に変化する様子が観測される。ここでは音響・音声
情報に基づいて話者状況を推定し,その結果を用いて,対話戦略,対話インター
フェースを制御することを検討する。特に,利用者の年代・精神状態を自動推定
し,その結果によってシステム特性を動的に適応し,「使い心地のよい」対話を
実現する機能を実現する。昨年度までの研究成果として年齢情報推定技術の高精
度化が実現されており,本年度はその応用に着手する。
- 対話環境に関する情報に基づく効率的な対話遂行の実現
人間と人間の対話が円滑に行なわれる要因の一つとして,共通知識の存在があ
る。例えば,話し手と聞き手の両者にとって「見えているもの」は,その対話
において既知情報として使われ,発話の中に省略形や指示語が使われていても,
その対象物を特定することが可能である。ここでは,仮想の部屋を定義し,その
部屋の情况を既知情報として,円滑な対話進行を実現する。
関連リンク