人間による音声言語処理過程の分析と
それに立脚した音声対話システムの構築

!!English version is under construction.!!

特定領域研究「ITの深化の基盤拓く情報学研究」
研究項目A03 人間の情報処理の理解とその応用に関する研究


研究代表者:峯松 信明 助教授 mine@gavo.t.u-tokyo.ac.jp
東京大学大学院情報理工学系研究科

研究分担者:広瀬 啓吉 教授 hirose@gavo.t.u-tokyo.ac.jp
東京大学大学院新領域創成科学研究科


研究目的

近年の目覚ましい計算機技術の進展に支えられ,大語彙音声認識システムやコー パスベース音声合成システムに代表されるように音声言語情報処理技術も大き く前進した。しかし,これらの技術的進展にも拘らず,音声対話システムに対 する利用者からの不満の声は大きく,その要因の一つが「利用者にとって予想 外/理解不可能なシステム挙動」「その特性が人間とかけ離れているシステム 動作」である。音声の自動書き起こしや,メッセージ伝達における自動音声合 成など,情報の流れが一方向の場合は認識率,明瞭性といった尺度でその性能 が記述できる.しかし,人間と機械との間のインターフェイスとして音声を考 えた場合,上記だけの尺度では十分な記述は困難である.

現在の音声言語情報処理体系の中にも種々の音声知覚/認知科学研究における 知見が導入されているが,上記の事実は,それが不十分であることを指摘して いると申請者らは考えている.本研究では,申請者が従来行なってきた音声知 覚研究を更に発展させると共に,先行知見及び新しく得られた知見に立脚した 技術を開発・導入することで,「人間との共存を目的とした,利用者に優しい」 マルチモーダル音声対話システムの構築を目的とする。なお,本研究における 「対話システム」とは音声を媒介としたマン・マシンインターフェイスを持つ システムとして広義の定義をしており,また,「マルチ」の定義としては,基 本的には音声,言語,画像を対象とするが,音声に関しては音韻的特徴と韻律 的特徴を異なる情報ソースとして考え,両者の統合による処理系についてもマ ルチモーダルシステムとして捉えている。


研究計画

本研究の目的は,人間の音声言語情報処理特性や,知覚実験,聴覚実験より得 られた人間の特性をシステムに反映することにあるが,対象とする処理(知覚) 特性は,最終的な応用システム/応用技術に依存するため,以下に示す種々の 研究対象が存在する。

関連リンク