まずはこちらから
携帯電話と携帯電話を繋ぐ。計算機と計算機を繋ぐ。この場合,機械は互いに対話する。人間が定めたプロゴコルを用いて対話する。例えばAppleの計算機はApple Talkというプロトコルで互いに認識し,データのやり取りをする。より一般的には,人間が定めた規則に基づいて通信し合うように機械を作り上げるのである。エンジニアが,プログラマが,神となる。しかし,この神は頻繁に失敗するダメダメな神である。パッチとかバグフィックスとか言う謝罪文が頻繁に届けられる。
さて,人間と人間も対話を通して繋がっている。その時のプロトコルが言語である。このプロトコルの設計者は誰なのだろうか?神,だろうか?旧約聖書には「初めに言葉があった。言葉は神であった」と記されている。となれば,言葉を設計したのは,神ではないらしい。峯松研究室の「究極」の目的は,ヒトという種のみが通信プロトコルとして使う「言語」と呼ばれているものの正体を暴くことである。「言語は神であった」と言うのであるならば,「じゃあ,神を見定めてみようではないか」ということになる。
「言語」と呼ばれているものの正体を暴く活動は,様々な観点から行なわれている。言語学,心理学,脳科学,生理学,人類学,などなどである。各々が独自の観点から「言語」を眺め,議論している。峯松研究室では,工学や物理学の観点から「言語」を見つめている。音声言語,そう,空気粒子の振動(波動)現象を物理学(音響学)的に解析する工学が音声工学であり,本研究室では,音声工学に根付く「言語」論を展開している。
ちょっと考えてみよう。計算機の場合,エンジニア(プログラマ)という神がプロトコルを設計し,そのプロトコルに基づいて動くよう計算機を作り込む。では人の場合,言語というプロトコルに基づいて対話するように「赤ん坊」を作り込むのは親だろうか?となれば,親なら誰でも「日本語教師」となれるのだろうか?しかも落第生がいない優秀な教師に。峯松は中学で国文法を初めて学んだ。他の授業は「知らないことを知ること」が目的なのに,国文法だけは「知っていることを整理整頓すること」が目的であった。その意味で面白かった。他の授業とは,目的が異なる授業であったから。そして「日頃何気なく使っている言葉が,こうして規則としてまとめあげることができる」ということにある種の感動を覚えた。次の瞬間,こう考えた。「誰が,この規則を俺に教えたんだ?」と。私の母親は,その昔,確かに小学校の先生だった。だが,外国人に日本語を教えた経験はない。「俺が勝手にこの教科書に書かれてあることを,教科書を読まずに習得したのか?」「じゃ,なぜ,俺は,連立方程式を知らなかったのか?他の皆は知ってたのか?」「音楽だって小さい時から聞いている。でも,作曲なんて難しそう。言語の場合,毎日新しい文(音楽)をどんどん奏でているじゃないか。どうしてそんなことができるのか?」信明少年の,中学時代のある時の考察である。正直,言葉が操れる自分が怖かった。自分が得体の知れないもののように思えたからである。何故それができるのか分からなかったからである。「よく分からないもの」それが自分である,と自覚したからである。
今でもその謎は解けていない。人は特殊な事情がない限り,誰でも言語と呼ばれるプロトコルを,明示的にそれを教わるという経験を積むこと無く,ただそのプロトコルが使われる環境に置かれているだけで,操れるようになる。何故か?この問いに明確に答えられる学者はいない。「ヒトとはそういうものだ。そのためのデバイスが脳の中にあり,それは遺伝する」と考えて議論を展開している方々もいる。上記したように本研究室では,空気振動(波動)の物理学である音響学・音声工学に基づいて,この謎解きをすることが,即ち「言語」の正体を暴くことが,「究極」の目的である。その目的のために,種々のシステムを作っては,その動作を眺め,思考を深める。その繰り返しである。
簡単なテストをしてみよう。このページに移動し「?」に何が入るのか,10秒間考えてほしい。そして,ページの指示に従って,「?」の答えを確認して欲しい。言語は人を騙すのが上手い,というのがご理解戴けただろうか?言語を暴こうとする者は,言語に騙されてはならない。そう,言語に対するある種の「気付き」が必要である。その「気付き」に長けているのが言語学者である。音声工学の教科書を読んだだけでは,謎解きなど出来るはずが無い。言語の多角的な攻め方を習得しつつ,物理学からのアプローチとしてそれらをまとめ上げ,システムを作ることで確認・実証する,これが,峯松研究室の攻め方である。
音響的普遍構造
幼児の言語獲得を考えてみよう。父親の声を真似て言葉を学ぶ娘がいたとする(音声模倣という用語も存在する)。さて,この時「声なんか全然真似てないじゃない!」と私が言ったら,「え?」と思うだろうか?少なくとも私の娘は,峯松信明の声を出そうとしたことはない。コロッケになってない,ということである。「聞いた言葉を平仮名に分割し,平仮名を一つ一つ口から出せば,父親の声の物真似なんかしなくてもいいじゃん」と言うかもしれない。実は彼らは単語を平仮名に分割することが困難である。しりとりができない。そもそも日本語に五つの母音があって,それが「あ」「い」「う」「え」「お」であることを知る以前から,両親と音声コミュニケーションを始める。幼児は父親の声の何を真似ているのだろうか?実は,この問い,世界中の言語獲得研究者,発達心理学研究者に問いかけても,答えは無いのである。「え!,そんな,,,」と思った方,これを見てほしい。2006年に行なわれた「赤ちゃん学国際会議」で峯松がメッセージボードに貼付けた「問いかけ」である。ポスター発表でも,多くの研究者に問いかけた。明確な回答をくれた研究者はいない。「あのビラ,一枚くれますか?」と言われる始末である。一つ一つの音韻(平仮名)を意識することが困難な彼らに対して発達心理学は,「子供は一つ一つの音ではなく,語全体の音形(語ゲシュタルト)をまず獲得する」と議論する。峯松の問いは「音形(語ゲシュタルト)」の物理的定義(表象)は何?ということになる。もし語ゲシュタルトが話者の情報も含んだ音声の物理的表象であったならば,私の娘は峯松信明の声を出そうと努力したはずである。つまり,語ゲシュタルトは話者,年齢,性別,マイクといった,音声の(非言語的)側面を「そぎ落とした」表象でなければならない。峯松が見えない峯松の声の物理表象でなければならない。そんなものが定義可能なのだろうか?この問いに対して,空気振動の物理学を知る者として,一つの提案をさせてもらっている。数学的な思考から得られる一つの帰結である。これを音響的普遍構造と名付けている。
もう一つ,言わせてもらおう。九官鳥の声真似であるが,話者の違いまで真似るそうである。つまり,優秀な九官鳥は,その声を聞けば飼い主が分かる。でも,どんなに優秀な幼児の声を聞いても,その飼い主を当てられるお巡りさんはいない。幼児は声そのものは真似ていないのである。しかし,音声工学(例えば,従来の音声認識技術が基盤とする枠組み)は,音を真似ている,という考え方で数十年間議論されてきた。そう,不適切な言語観での議論となっていた訳である。峯松が「言語に騙されるな」という意図がお分かりだろうか?人は九官鳥ではない。でも,知らず知らずに九官鳥と人とを,同一視していたのである。
音声知覚・認知
ここまで読んでもらえると,言語の不思議さ,と同時に,我々の騙され易さ,というのが分かって戴けた,と思う。峯松の学部の卒業研究は音声知覚研究,即ち,人間は音声をどのように処理しているのか,それを実験的に検討し,某のモデルを構築しよう,というものであった。実は上の「音響的普遍構造」,即ち,語の全体的表象(要素の系列としての語ではなく,語は一つの全体であるという観点からの物理表象)は,峯松の卒論テーマそのものであったりする(^_^);。卒論後,十数年してようやく,自分自身が納得する謎解きが出来た,と考えている。さて,人間の音声知覚過程に対して,某の仮説を設定し,それを実験的に検証する,それが音声知覚・認知研究である。この時「どのような仮説を立てるのか」は,研究者のセンス,言語への気付き,がモノを言う。と同時に,それを実験的に検証するための実験方法のデザインも同様,センス,気付き,が重要である。峯松の経験上,実験をしてみて,データをとってみて初めて気付くことが必ずある。「実験計画はああしておけばよかった」というのが常にある。内省による予測の限界を常に感じる,ということである。計算機シミュレーションと違い,実際に人間(被験者)を募って実験をする場合,実験のやり直しが非常に行ないづらい。被験者の都合のANDをとって,準備して,,,色々制約が生まれる。ある意味,実験(データとり)が一発勝負となる。だから,事前の思考・準備が大切である。でも,幾ら準備しても「ああしておけば,,,」は必ず付きまとう。でも,それがこの研究の面白み,でもある。自分の思考の不十分さをデータが気付かせてくれる,そういう研究である。
音声分析
音声の中には様々な情報が含まれている。テキスト(文字面),感情・意図,話者,年齢,性別,健康状態,様々である。彼女(彼氏)がいる人は,声にフェロモンを感じる,と私が言ってもそれを否定しないだろう(^_^);。でも声って,物理的には単なる空気密度の疎密波でしかない。酸素,窒素,二酸化炭素の分子が揺れているだけである。その揺れの様子を適切に制御すると,貴方はそこにフェロモンを感じる訳である。「なんで?」と問いたくならないだろうか?マイクを通して録音した声(音)は,疎密波として記録される,即ち,横軸が時間,縦軸が疎密並の振幅として記録される。AD変換を通して計算機に取り込まれると,これは16bitの整数列となる。3, 5, 10, 158, -120, -65, -38,,,,,さて,この数値列に貴方はフェロモンを感じるだろうか?一体数値列のどこにフェロモンがあるのだろうか?文字面情報,感情情報,話者情報,年齢情報とて同じである。これだけ豊かな情報が,「単なる数値列」に隠されている訳である。どこに,,,???。
これを明らかにしよう,というのが音声分析である。数値列となった音声の物理現象を,どう眺めると,「あ,女だ」とか「あ,"おはよう"って言ったでしょ」とか「あ,風邪引いてる」と分かるのだろうか。その眺め方を議論し,各情報に対する音響的な物理表象を議論するのが音声分析である。ここで,注意すべきことを書いておきたい。例えばテキスト情報と感情情報と分けて書く。異なる用語が用意されている。だから,と言って,物理的にも異なる実体として定義すべきでは必ずしも無い。言葉に騙されずに,用語に騙されずに,素直にかつ柔軟に,物理現象を眺める姿勢が時として必要になる。もう一つ。例えば脳科学の本をひも解くと,聴覚刺激,視覚刺激,体性刺激に応じて,聴覚野,視覚野,体性感覚野が存在する,しかし,やがてそれらの感覚野は統合され,連合野で各々の情報は処理される。つまり,異なるメディアを統一的に扱う部位が存在するのである。メディアを越えた情報表象方式が存在するのだろうか?という問いを立てたくなる。言いたいことが伝わっただろうか?音ばかりを考えて,文字面,感情,話者,年齢の音響的実体/表象を探す,という方法論は時としてNGである,ということである。異なるメディアは最終的に統一的な情報表象方式で表現されている,かもしれない,という制約の元で思考すべきかもしれない,ということである。広い視野の下で議論する必要がある。広く視野を持つ必要がある。
音声合成
テキストを読んで音にする。これをシミュレートする技術の開発である。日本語で言えば,仮名漢字混じり文を入力し,音声波形を最終的な出力とする技術である。当然,文字列に対する自然言語処理技術,即ち,漢字の読みを特定したり,テキストには存在していないアクセント,イントネーションなどの情報を推定する技術,及び,その後,それらの情報を音声波形として実現するためのシンボル→音変換技術が必要となる。文字列を「読み」情報,即ち音素列に変換する作業一つとっても,色々問題がある。永遠と書いて「えいえん」「とわ」「とこしえ」,生物と書いて「せいぶつ」「なまもの」と読む。そう,曖昧性があるのである。読みが分かったとして,平仮名に相当する音を並べればよいのか,と言うとそうではない。「赤」のアクセントはHLであり,「鉛筆」はLHHHである。じゃあ,「赤鉛筆は,両者を足したHLLHHHになるか,と言うとそうではない。LHHLLLとなる。アクセント結合である。どういう単語が,どういう単語と結合する時に,単語アクセントはどう変わる?と聞かれて,「はい,それはですね,,」と答えられる人がどのくらいいるだろうか?日本人であれば「意識したこともない」というのが正直なところだろう。しかし,その常識は当然計算機には無い。こういうところも,きちんと明示的に計算機に教えなければならない。イントネーション制御もそうである。特に怒ったり,悲しんだり,などと言った音声を生む技術を作る場合は,精巧な制御が必要となる。最後は,波形生成の問題がある。「あ」「い」「う」「え」「お」という孤立母音の波形を集めて繋げても「あいうえお」にはならない,連続的に「あい」と変化し,「いう」と変化する。調音結合とも言われる音声ストリームの連続的な/遷移的な変化であるが,こういった問題にも対処する必要がある。こう書くと,テキストを音声にする,という単純そうに見える作業ですら,色々と大変な作業であることに気付くだろう。
最後に一つ。「テキストを音声に変換する」という事象について書いておきたい。音響的普遍構造のところにも書いたように,幼児は平仮名列を一つ一つ音に変換する,という感覚は少なくとも意識レベルでは持ち合わせていない。語全体の音形として語を獲得するならば,語全体を口で生成する。更には,句全体,文全体,という議論も可能である。つまり,平仮名や音素の列を一つ一つ音として実現する,という枠組みで音声コミュニケーションを開始した人類は一人もいない,と考察することもできる。となれば,テキストを(平仮名を一つ一つ逐次的に)音に変換する,という枠組みそのものが見直しを迫られる必要があるのだろうか,,,???
音声認識
音声合成とは逆のプロセス,即ち,音声を入力して,それを文字列へと変換する枠組み(の構築)を音声認識と言う。「おはよう」という声を「おはよう」という文字に,音素列に落とす訳であるから,各々の音素がどういう音響的な特性,実体を持つのか,というのをモデル化する(音響モデル)が基本となる。しかし,「あ」と言っても人によって物理的には異なる音となる。マイクの違い,部屋の違い,年齢,性別の違い,様々な要因が「あ」の物理実体の特性を変えてくる。音声認識では,多くの話者の「あ」を集め,それを統計的に分布としてモデル化することで対処する。数千,数万人の「あ」の音を集める訳である。しかし,「あ」と言えども,前後の音素によって更に音は変わる。この問題に対しては,前後の音素環境に依存させて「あ」を考える。つまり,N種類の音素があれば,前N種類,後N種類のバリエーションがあるので,「あ」という音素をNの二乗個に分けて捉えることになる。最終的にN種類の音素に対して,Nの三乗個の音シンボルを考える。これをtriphoneと言う。そして個々のtriphoneを数千人の話者の音声を使って音響的にモデル化する訳である。さあ,音の問題が解決したとしよう。これで音声は認識されるのか?答えは否である。音のモデルだけでは満足の行く音声認識精度は出ない。言語モデルが必要である。次にどういう単語が来るのか,という予測を行ない,それを制約として単語を同定する。言語的制約が上手く機能せず,数千,数万の単語を常に意識しながら単語同定しなければならないとしたら,認識率はメチャクチャである。情報論的に,数十〜二百程度に抑えつつ,認識処理を走らせる必要がある。これが言語モデルが存在する理由である。結局,音響モデル,言語モデル,更には,音素の音響モデルをどう繋げると単語になるのか,という音素列と単語の対応表(発音辞書)を用いて,入力音声ストリームに対して,最も可能性の高い単語系列を検索する。この検索作業をデコーディングと呼ぶ。莫大な検索空間を如何に効率よく,しかし,漏れなく検索するのか,がデコーダーの品質となる。多分に職人芸的な側面が高くなるが,日本ではJuliusと呼ばれるデコーダが有名である。世界的には,HTK(Hidden Markov Toolkit)にあるHViteなどもよく使われる。
さて,音声認識の一般論を述べた。音声合成でも述べたが,幼児は単語音声を平仮名列に変換するなどということをせず,音声コミュニケーションを楽しむ。語の全体的表象を使って,と発達心理学は主張する。つまり,音声←→平仮名列・音素列という変換技術の上に言語を獲得した人類は一人もない,と考察することも可能である。しかし,音声工学は,この枠組みを通して,機械に言語を授けようと数十年を費やして来た。果たしてこれは,正しい方法論なのだろうか?もしかして,言語に騙されているだけ,なのだろうか?
構造的音声認識
何千人の話者の音声を集める,と書いた。しかし,幼児は「母親&父親の音声」という非常に偏った音声データの聴取を通して,お婆ちゃんの電話音声にも対処できるようになる。何故だろう。偏った話者性の聴取という事象はその後も一生続く。何故ならば,人の聞く声の半分は自分の声だからである(人は発声時に自分の声をモニタリングし,音声器官の動的制御に積極的にフィードバックしている)。話者性にバランスされた音声コーパスなど,人は聞けないのである。音声認識装置の実装と,人の言語獲得の様子がこうも異なるのは何故なのだろうか?何が欠けているのだろうか?このような問いかけに対する答えを峯松研究室は,提案している。音響的普遍構造に基づく,音声の構造的表象を用いた音声認識である。一人の声で誰の声でも認識してしまおう,という過激な枠組みの提案である。音声の全体像を構造的に描く。その結果,個々の音の同定はしない。音の同定はしないにも拘らず,単語全体の音様態から単語を同定する。幼児のように,,,。従来の「単語=音素の並び」という枠組みでは発想することが不可能な,新しい枠組みの提案をしている。母音系列に対する実験では,話者一人の声を参照パターンとして,誰の声でも100%で認識できることを確認した。しかも,電話音声や雑音下音声ですら,従来の音声認識(4,000人以上の話者を用いた音響モデル)より良い率を呈した。まだまだタスクが人工的ではあるが,次世代の音声認識技術,そして,科学的に正しい音声認識技術として注目されている方法論である。言語に騙されずに,言語を見極めた方法論として提案している。この枠組みは,音声の相対音感とも言われる枠組みである。音楽に知識があるならば,「あいうえお」を音名ではなく,階名として考える方法と言えば理解して戴けるだろうか?ちなみに,動物は,基本的に絶対音感者である。だから,九官鳥は話者の違いまで真似ないと「真似た」と感覚しないのであろう。人は九官鳥ではない,生物進化の結果,音の相対的性質を捉える方法論を獲得し,それが音声言語を生んだ,と峯松は考えている。
発音学習支援
「沢山の話者の音声を集めて,話者の違いを吸収する」という方法論を突き進んで来たのが音声工学の歴史である。しかし,どれだけ沢山集めても「漏れ」は存在する。システム構築時には無かった声質に遭遇することはよくある。不一致問題である。結局,構築した音声システムはユーザを選ぶことになってしまう。このような技術は,おもちゃ作りには問題ないだろうが,教育や医学を対象とした応用システム構築には不向きであることは否めない。利用者は,自分が(声質が)外れの話者だから成績が悪いのか,それとも,本当に(例えば)病気だから成績が悪いのか,が分からないからである。本研究室では,音響的普遍構造を用いた発音教育支援について検討している。発音を構造的に表象した場合,外国語訛は構造の歪みとして解釈される。歪んだ構造から健康的な・美しい構造へと変遷することが発音の上達である,と解釈する訳である。発音構造の変化は,当然学習者内において(学習の進捗状況に応じて)観測される。と同時に,学習者が異なれば,当然,異なった発音構造が観測される。但し,両者に性別や年齢といった非言語的な要因は介入しない。純粋に外国語訛に起因する歪みが構造的に観測されるだけである。結局,学習者が今,どういう状況にあるのか,という発音カルテが出来上がる。そして,学習者群のカルテを集め,分類することも可能になっている。日本人英語というのは凡そ幾つに分類されるのか,どういう癖が存在するのか,そういう分析も可能となっている。
カルテを作り,分類するだけでは,単なる記録係でしかない。発音教育というのは,どこから治して行くべきか,その指針を提示する必要がある。これについても方法論を提供しており,異なる学習者には,異なる学習指針を提示することが可能となっている。「貴方の場合は,この母音の発音をやりなさい」「貴方の場合は,これとこれをやっておくと,いいですよ」みたいな感じである。更に,本研究室が提供する発音学習支援の最大の売りは「先生を選べる」ことである。従来の音声技術は,話者を消すために,数千人の話者を集め,その平均分布を作り,それを学習者の音声と比較してきた。言い換えれば,市販されている全ての(音声認識技術を使った)発音教材は,学習者を「母語話者群の平均分布に対する九官鳥」としてモデル化していることになる。この言語観が適切なものであるかどうかの判断は,賢明な読者に任せるが,本研究室では,話者性の消去を数学的に,アルゴリズム的に行なうため,一人の先生の声しか要求しない。つまり,自分の好きな先生の声と学習者とを比較できることになる。例えば,ブラッド・ピットの発音と貴女の発音を比較する教材作成が可能である。韓国語発音教材であれば,ヨン様の口と貴女の口を近付ける発音教材が可能となる(^_^);。如何だろうか?幼児は父親,母親の声を聞いて発音を学習する。でも,父親,母親の声そのものを真似る訳では無い。この現象に対する物理的回答が無いまま,音声工学は数十年という時間を費やし,数千人の話者を集めて初めて動く技術を構築した。音声工学は,正しい道を歩いて来たのだろうか?
非母国語の音声認識
国際会議における口頭発表(殆ど全ての人が非母語話者)の字幕化を目指しています。
アクセント結合
赤(HL)+鉛筆(LHHH)=赤鉛筆(LHHLLL)
歌唱分析
日本の古典歌唱である,長唄の旋律モデリングをしています。
年齢推定
音声からの年齢を推定するための枠組みを構築し,音声対話インタフェースの一部として導入しています。
女らしさ推定
性同一性障害者(MtF者)を対象とした音声セラピーの技術支援として,声の女らしさ,を定量化する技術を構築しています。
話者同定
科学警察署との共同研究を行なっています。容疑者を検挙した時の容疑者の生の声と,現場に残された音声資料から,容疑者の「犯人らしさ」を定量化する技術を検討しています。
音声の全体性知覚
発達心理学が言う「語の全体的な音形」の知覚の様子を検討しています。
言語獲得と言語障害
自閉症,失読症を対象とした,理論的検討を行なっています。