~ヒトの進化・ヒトの発達を通して考える次世代音情報処理の実...

2
指導教員 広瀬啓吉 教授、峯松信明准教授 研究場所 工学部 2 号館 計算機と対話するためのヒューマンインターフェースの 研究が進み、種々のマルチメディアシステムが構築されてい るが、その基本は音声による円滑なコミュニケーションにあ る。この様な観点から、音声情報処理に関する研究を峯松研 究室と協力して進めている。特に、広瀬研究室では、音声言 語の顕著な特徴である韻律に着目し、音声合成の高度化の観 点から研究を進めている。卒論テーマとして可能なものの 内、幾つかを以下に列挙する。個々のテーマはいくつかのト ピックからなっており、具体的には 1 つあるいは少数のトピ ックに焦点を当てて研究する。 1.柔軟な音声合成の実現 現在、実用化されている音声合成は、人間が発声した 音声を選択して接続するコーパスベース手法に基づく ものであり、合成可能な音声の声質、抑揚が著しく限ら れたものとなっている。これが合成音声の利用を著しく 制限する要因となっており、種々の特徴、調子の音声を 得るための、いわゆる柔軟な音声合成の実現が求められ ている。研究室では、人間の韻律生成過程モデルに基づ いた(コーパスベース)韻律生成手法を開発し、これを、 統計的な音声合成手法であるHMM 音声合成と組合せ、柔 軟かつ高品質な音声合成を目指している。これまで、学 習と合成の両面でのHMM 音声合成の韻律制御の改良、焦 点付与、スタイル変換、話者変換などの柔軟な韻律制御 を実現している。声調言語として韻律制御が複雑な中国 語等についても音声合成も進めている。テキストから情 動を抽出し、合成音声に反映させることも行っている。 2.音声認識の高度化 音声認識は統計的な音響モデルと言語モデルを用い ることによって飛躍的な進歩を遂げているが、なお、周 囲雑音、発声スタイルの違い、未知語彙などによる認識 率の大きな低下が問題となっている。この様な問題に対 処する適応手法等の開発を目指す。特に、音声の韻律的 特徴等を用いることを視野に入れる。人間が連続音声を 聴取し、その内容を理解する際には、アクセント・イン トネーション等が大きな手がかりになっているにもか かわらず、従来の音声認識ではこの韻律的特徴は殆ど利 用されていない。これに対し、言語モデルに韻律/文節 境界情報を導入する手法、自発発話のフィラーを検出す る手法等を開発している。これを従来の連続音声認識と 統合し、認識精度・効率の向上を図る。関連して同時通 訳者の支援システムも開発中である。なお、興味があれ ば、中国語声調の認識の研究も可能である。 Accent Phrase Boundary LM(PB) LM(PB) LM(PW) LM(PW) Arayuru genjitsu o subete jibun no hoo e nejimage ta no da 句境界を考慮した言語モデル 3.高度な音声対話システムの構築 ユーザにとって聞きやすく理解しやすい応答音声を生成 することの可能な音声対話システムを開発する。このため に、言いたい内容を文書化して音声化するいわゆる概念音 声合成を実現する。すでに、道案内システム等を開発して おり、それを参考にして研究を進める。また、ユーザの状 況・状態・意図を音声から自動的に検出する技術の開発を 進める。この成果をもとに、ユーザが明示的に表明しなく てもその意思を汲み取り、ユーザの知識レベルや状況に即 した対話を進めるシステムを構築する。 音声認識 音声合成 考え中なんだな この人・・・ えーと、 あのー 4.音声情報処理を利用した外国語習得システム 現在の、外国語の習得は、教師の発声をまねることによ って行うことが一般的であり、自分の会話能力がどの程度 であり、発音等をどの様に矯正すればよいかを、独力で知 ることは困難であった。ここでは、学習者の発音の問題点 を自動的に検出して提示した上で、それを修正した音声を 合成する発音教育システムの開発を進める。これによって、 学習者はどの様に発音を矯正すればいいかの指針が得られ る。関連テーマとして、アクセント型の識別、意図の検出、 言語による韻律の比較といった研究も可能である。 5.音源分離と雑音除去 混合音から元の音源を分離する技術は、音声認識 をはじめ、音楽情景分析など種々の分野で重要とな っている。音源の特徴が未知の場合にも有効な手法 として、周波数と時間軸での連続性に着目した手 法、音源方向を時間差と強度差で推定する手法等を 開発し、音声認識への利用を視野に入れた研究を進 めている。特に、信号解析の手法として、信号の特 徴に追従することが可能な Empirical Mode Decomposition を導入しており、それを用いた音声 のピッチ抽出など、種々の発展が可能である。 話者変換

Transcript of ~ヒトの進化・ヒトの発達を通して考える次世代音情報処理の実...

Page 1: ~ヒトの進化・ヒトの発達を通して考える次世代音情報処理の実 …sotsuron/12Labs/hirose_minematsu.… · 点付与、スタイル変換、話者変換などの柔軟な韻律制御

指導教員 広瀬啓吉 教授、峯松信明准教授 研究場所 工学部 2 号館 計算機と対話するためのヒューマンインターフェースの

研究が進み、種々のマルチメディアシステムが構築されてい

るが、その基本は音声による円滑なコミュニケーションにあ

る。この様な観点から、音声情報処理に関する研究を峯松研

究室と協力して進めている。特に、広瀬研究室では、音声言

語の顕著な特徴である韻律に着目し、音声合成の高度化の観

点から研究を進めている。卒論テーマとして可能なものの

内、幾つかを以下に列挙する。個々のテーマはいくつかのト

ピックからなっており、具体的には1つあるいは少数のトピ

ックに焦点を当てて研究する。

1.柔軟な音声合成の実現

現在、実用化されている音声合成は、人間が発声した

音声を選択して接続するコーパスベース手法に基づく

ものであり、合成可能な音声の声質、抑揚が著しく限ら

れたものとなっている。これが合成音声の利用を著しく

制限する要因となっており、種々の特徴、調子の音声を

得るための、いわゆる柔軟な音声合成の実現が求められ

ている。研究室では、人間の韻律生成過程モデルに基づ

いた(コーパスベース)韻律生成手法を開発し、これを、

統計的な音声合成手法であるHMM音声合成と組合せ、柔

軟かつ高品質な音声合成を目指している。これまで、学

習と合成の両面でのHMM音声合成の韻律制御の改良、焦

点付与、スタイル変換、話者変換などの柔軟な韻律制御

を実現している。声調言語として韻律制御が複雑な中国

語等についても音声合成も進めている。テキストから情

動を抽出し、合成音声に反映させることも行っている。

2.音声認識の高度化

音声認識は統計的な音響モデルと言語モデルを用い

ることによって飛躍的な進歩を遂げているが、なお、周

囲雑音、発声スタイルの違い、未知語彙などによる認識

率の大きな低下が問題となっている。この様な問題に対

処する適応手法等の開発を目指す。特に、音声の韻律的

特徴等を用いることを視野に入れる。人間が連続音声を

聴取し、その内容を理解する際には、アクセント・イン

トネーション等が大きな手がかりになっているにもか

かわらず、従来の音声認識ではこの韻律的特徴は殆ど利

用されていない。これに対し、言語モデルに韻律/文節

境界情報を導入する手法、自発発話のフィラーを検出す

る手法等を開発している。これを従来の連続音声認識と

統合し、認識精度・効率の向上を図る。関連して同時通

訳者の支援システムも開発中である。なお、興味があれ

ば、中国語声調の認識の研究も可能である。

Accent Phrase Boundary

LM(PB) LM(PB)LM(PW) LM(PW)

Arayuru genjitsu o subete jibun no hoo e nejimage ta no da

句境界を考慮した言語モデル

3.高度な音声対話システムの構築

ユーザにとって聞きやすく理解しやすい応答音声を生成

することの可能な音声対話システムを開発する。このため

に、言いたい内容を文書化して音声化するいわゆる概念音

声合成を実現する。すでに、道案内システム等を開発して

おり、それを参考にして研究を進める。また、ユーザの状

況・状態・意図を音声から自動的に検出する技術の開発を

進める。この成果をもとに、ユーザが明示的に表明しなく

てもその意思を汲み取り、ユーザの知識レベルや状況に即

した対話を進めるシステムを構築する。

音声認識

音声合成考え中なんだな

この人・・・えーと、あのー

4.音声情報処理を利用した外国語習得システム

現在の、外国語の習得は、教師の発声をまねることによ

って行うことが一般的であり、自分の会話能力がどの程度

であり、発音等をどの様に矯正すればよいかを、独力で知

ることは困難であった。ここでは、学習者の発音の問題点

を自動的に検出して提示した上で、それを修正した音声を

合成する発音教育システムの開発を進める。これによって、

学習者はどの様に発音を矯正すればいいかの指針が得られ

る。関連テーマとして、アクセント型の識別、意図の検出、

言語による韻律の比較といった研究も可能である。

5.音源分離と雑音除去

混合音から元の音源を分離する技術は、音声認識

をはじめ、音楽情景分析など種々の分野で重要とな

っている。音源の特徴が未知の場合にも有効な手法

として、周波数と時間軸での連続性に着目した手

法、音源方向を時間差と強度差で推定する手法等を

開発し、音声認識への利用を視野に入れた研究を進

めている。特に、信号解析の手法として、信号の特

徴 に追 従す るこ とが 可能 な Empirical Mode

Decomposition を導入しており、それを用いた音声

のピッチ抽出など、種々の発展が可能である。

話者変換

Page 2: ~ヒトの進化・ヒトの発達を通して考える次世代音情報処理の実 …sotsuron/12Labs/hirose_minematsu.… · 点付与、スタイル変換、話者変換などの柔軟な韻律制御

指導教員 広瀬啓吉教授・峯松信明准教授 研究場所 本郷・工学部2号館10階

~ヒトの進化・ヒトの発達を通して考える次世代音情報処理の実現に向けて~峯松研究室では,音声を主たる媒体としたコミュニケーションに関する基礎研究・応用研究を行なっています。音声は音,即ち,空気粒子の振動現象でしかありません。ですが,この振動現象を鼓膜が捉えると,あら不思議,その振動から様々な情報を人は抽出します。誰が,何を,どのように,喋った・歌ったのか,といった情報を抽出します。日頃,当たり前のように行なっている空気振動を媒体とした情報抽出・生成,実は,分かっていないことが沢山あります。

チンパンジーとヒトは遺伝子で言えば2%弱の違いしかありませんが,情報処理という観点から見ると何が違うのでしょう?霊長類研の方々に聞くと「視覚の世界は両者で共通している。でも,聴覚の世界は別世界」との答えも返ってきます。サルとヒトの共通の祖先に対して,どのような情報処理能力が付与されると音声言語や音楽が生まれるのでしょうか?我々の研究テーマの一つは進化人類学,生態心理学,言語学,脳科学といった幅広い情報源を元に「進化の過程においてヒトが獲得したであろう空気 振動を介した情報伝達・認知能力」を検討し,計算機実装することにあ ります。こういった基礎研究から,様々な応用アプリの開発まで,幅広 い研究活動を行なっています。基礎研究が好きな学生も,応用研究が好 きな学生も,各々の興味とやる気に合わせてテーマ設定が可能です。以 下に幾つか例を示しましょう。

■ 観測対象に内在する情報の不変的構造表象とその数理的モデリング ~アフォーダンスを数理的に定義する~環境から受け取る信号(視覚・聴覚・触覚・・・)は様々な変形を被ります。しかし,我々はこれらの変形前後の刺激に対して同一性を感覚できます(知覚の恒常性)。この問題に対する一般解を数学(位相幾何学・トポロジー)的に導出し,様々なメディア情報処理への応用を検討しています。変形不変の情報表象を峯松研では提案しています。

■ 話者の違い,年齢の違い,環境の違いに頑健な音声認識技術の構築 ~これ,サルには難しいんだな~音声ストリームを対象として不変構造抽出を計算機実装すれば,話者の違いや環境の違いに対して不変な音パターン抽出技術が構築されます。逆に,雑音が混入された音声を逐一クリーン音声に戻す処理を実装することでも頑健な音声認識は可能です。様々な観点・方法論から,環境の違いに頑健な音声認識技術の構築とその応用を検討しています。

■ 幼児の言語獲得プロセスのシミュレーションとそれに基づく音声合成技術の構築 ~計算機による言語獲得?~幼児の言語獲得は親の発声を真似る(音声模倣)ことが基本ですが,この行為,他の霊長類では観測されません。小鳥,クジラ,イルカで観測されるだけです。でも,動物の音声模倣は声帯模写的であって,ヒトとは違います。ヒトの幼児は発話者の体格差を越えた音パターンを抽出し,自分の口で再生します。このプロセスを計算機実装しています。

■ 外国語の発音評価システムの構築と教育現場での実践的活用 ~貴方の発音とダイアナ妃の発音を比較する技術~小学校で英語の授業が始まりました。でも,先生の声と生徒の声は音としては大きく異なります。話者の年齢・性別・体格などに一切影響を受けない,セキュアーな外国語発音評価システムを構築しています。また,シャドーイングという英語聴取・発声訓練手法に着眼し,学習者のTOEICスコアの自動推定なども検討しています。

■ 話者変換/メディア変換/何でもかんでも変換しちゃえ ~手から声を出す技術の構築/音色テルミンの構築~貴方の声を別話者の声に変換する技術を構築しています。多様なキャラクタ声を出す声優の声を使って,貴方の声を色んなキャラ声に変換します。声空間と声空間の写像を設計する訳ですが,声空間と手の運動空間の写像を設計すれば,手の運動からダイレクトに声が生成されます。貴方の手に喋らせることだってできちゃいます(構音障害者支援)。

■ 最後に ~学生さんへのメッセージ 「さあ,はじけちまおうぜぃ!」~峯松研は,よく学び,よく語り,よく遊び,よく食い,よく飲む,そういう学生を求めています。先輩には,研究科長賞をとった方もいます。問うて考え,基盤技術を構築し,最後は社会貢献する。これが我々のモットーです。

?