人間による音声言語処理過程の分析と
それに立脚した音声対話システムの構築
!!English version is under construction.!!
研究目的
近年の目覚ましい計算機技術の進展に支えられ,大語彙音声認識システムやコー
パスベース音声合成システムに代表されるように音声言語情報処理技術も大き
く前進した。しかし,これらの技術的進展にも拘らず,音声対話システムに対
する利用者からの不満の声は大きく,その要因の一つが「利用者にとって予想
外/理解不可能なシステム挙動」「その特性が人間とかけ離れているシステム
動作」である。音声の自動書き起こしや,メッセージ伝達における自動音声合
成など,情報の流れが一方向の場合は認識率,明瞭性といった尺度でその性能
が記述できる.しかし,人間と機械との間のインターフェイスとして音声を考
えた場合,上記だけの尺度では十分な記述は困難である.
現在の音声言語情報処理体系の中にも種々の音声知覚/認知科学研究における
知見が導入されているが,上記の事実は,それが不十分であることを指摘して
いると申請者らは考えている.本研究では,申請者が従来行なってきた音声知
覚研究を更に発展させると共に,先行知見及び新しく得られた知見に立脚した
技術を開発・導入することで,「人間との共存を目的とした,利用者に優しい」
マルチモーダル音声対話システムの構築を目的とする。なお,本研究における
「対話システム」とは音声を媒介としたマン・マシンインターフェイスを持つ
システムとして広義の定義をしており,また,「マルチ」の定義としては,基
本的には音声,言語,画像を対象とするが,音声に関しては音韻的特徴と韻律
的特徴を異なる情報ソースとして考え,両者の統合による処理系についてもマ
ルチモーダルシステムとして捉えている。
研究計画
本研究の目的は,人間の音声言語情報処理特性や,知覚実験,聴覚実験より得
られた人間の特性をシステムに反映することにあるが,対象とする処理(知覚)
特性は,最終的な応用システム/応用技術に依存するため,以下に示す種々の
研究対象が存在する。
- 音響情報に基づく話者状況の推定とそれに基づく対話エージェント管理
人間同士の会話では,発話者は相手の状況(意図,感情,興味,年代,知識な
ど)に応じて対話戦略を動的に変化する様子が観測される。ここでは特に音響
情報に基づいて話者状況を推定し,その結果をマルチモーダル対話エージェン
トに反映する。特に,利用者の年代を自動推定し,利用者が高齢者の場合は,
発話速度,声色,語彙などのシステム特性を動的に適応し,「使い心地のよい」
対話を実現する機能を実現する。なお,年代推定のための音響的要因の特定は,
聴取実験をベースとして行なう。
- 物理的観測量とその知覚量との「ずれ」に着眼した日本語CALLシステム
従来より日本語CALLシステムの構築を行なっているが,語学習得の目的が対象
言語を母国語として話す「人間」との対話である以上,物理的観測量のみなら
ず,その母語話者が物理量から抽出する(描き出す)知覚量をも研究対象とすべ
きである。これまで日本人のリズム特性を考慮し,日本語の音の単位を(CVで
はなく)VCとする処理系の検討を行なってきたが,ここでは,音の高さ知覚に
おける物理量と知覚量との差異について知覚実験的に分析し,日本語アクセン
ト学習へ応用する。
-
アクセント核知覚による単語同定加速効果の工学的実現
筆者らの先行知覚研究により,単語頭のアクセント核の情報によって心的辞書
検索範囲を大幅に狭めている様子が日本人特有の知覚特性として示されている。
ここでは,知覚実験を通して本知見の精密化と図ると共に,現在の大語彙連続
音声認識における仮説探索制御に導入し,その効果を検討する。特に文頭や句
頭など,パープレキシティが極端に高くなる音声区間での有効性が期待される。
- 韻律フレーズによる単語グルーピング処理の工学的利用
筆者らの先行知覚研究により人間は文音声を処理する場合,韻律フレーズによっ
て単語列を幾つかのセグメントに区分し,そのセグメントを単位とした処理が
行なわれていることが示されている。処理時間に制約のあるオンラインシステ
ムに上記知見を導入し,効率性向上を狙う。
関連リンク