Post on 24-Jul-2021
埼玉大学大学院
理工学研究科教授
島村徹也
音声分野におけるMATLABの利用と先端研究紹介
Outline 自己紹介
MATLABと音声処理
音声強調
骨伝導
最後に
1986年慶應義塾大学理工学部電気工学科卒
高橋・浜田研究室(回路と信号処理)
1988年 同大学院修士課程修了
1991年 同博士課程修了 工学博士
同年 埼玉大学工学部助手
現在 同大学院理工学研究科教授
MATLABについて 1990年頃
IEEE ICASSP 1990でMATLABデモ
日本ではほとんど出回っていなかった
MATLABについて(続き) 制御分野でより早く
Control System Toolbox
System Identification Toolbox
これまではいったい何だったんだ?
MATLABについて(続き) 埼玉大学で(1991年)
日本では大阪大学が早かった
日本語解説書はなかった
MATLABの利用拡大
制御 信号処理・通信 音声
・音声分野は出遅れた ・ユーザは増大している ・未だに専用ツールを用いる場合も多い
MATLABによる音声処理サイト 「MATLABによる音声信号処理入門」Web資料
早稲田大学 宮澤幸希http://www.ite.or.jp/data/journal/passed_issues/tool1202/
MATLAB音声信号処理
http://lis2.huie.hokudai.ac.jp/~toyo/MATLAB/
関連図書
音響信号全般を扱うツール WaveSurfer(編集や可視化)
Audacity (編集や可視化)
Ardour (編集や可視化)
HTK(隠れマルコフモデルを利用するキット)
Weka(機械学習用でデータマイニングソフト)
MATLAB
後藤, 緒方, “音楽・音声の音響信号の認識・理解研究の動向,”コンピュータソフトウェア, 2009
専用ツールによる音声処理 「音声工房」
NTTアドバンステクノロジ株式会社
「アコースティックコア」
株式会社アルカディア
音声強調
音声強調処理のイメージ
雑音の混入した音声から音声のみを強調して聞き取りやすくする
多分野に応用可能 音声認識、音声符号化・特徴抽出など
音声強調処理
雑音+音声 強調音声
→ 短時間(20~50ミリ秒程度)のフレームに分割 → 1フレームずつ取り出して処理する → フレームごとの結果を繋げて出力信号を構築
Time
Time
入力音声(約10秒)
出力音声
フレーム処理
くし形フィルタ
・原理的に魅力的な手法
音声+雑音 有声/無声 判別
基本周期 抽出 フィルタ
+
×
音声
係数 無声音は減衰させて 出力する
くし形フィルタで 雑音を抑圧する
J.Lim, A.Oppenheim, L.Braida(1978)
|)(| kX 2|)(|1
)( kXN
kP
音声パワースペクトル
|)(| kX
くし形フィルタとは?
1
Frequency
スペクトル引き算法
・広く用いられている手法
雑音 窓
音声+雑音 窓
FFT
FFT
位相情報
||
/1||
||
×
+ +
ー
音声
IFFT
スペクトル引き算法の原理 )()()( nwnxny 時間領域:
周波数領域:
雑音信号:
音声信号:
雑音混入音声信号:
)(
)(
)(
nw
nx
ny
)()()( fWfXfY
|)(~
| |)(| |)(~
| fWfYfX
スペクトル引き算法のブロック図
)( fY
|)(| fY
※ 1つのフレーム内での処理
)(~
fX
|)(~
| fW
2 の場合
“パワースペクトル引き算”
22 |)(~
||)(| fWfY
0|)(~
| 2fX
のとき
それ以外のとき
222 |)(~
||)(||)(~
| fWfYfX
1 の場合: Boll(1979)が検討
4/1,2/1,1,2 を比較検討: Lim(1978)
残留雑音問題 雑音推定誤差により引き去りきれない雑音成分が残る
不快な成分が含まれることがしばしばある
ミュージカルノイズ
短時間分析フレームごとの変化が激しい
実際の雑音 推定雑音 残留雑音
孤立したピーク ↓ 不快感
(スペクトル振幅イメージ図)
Freq.
Power
最近の動向
スペクトル引き算法の改善
スペクトル引き算法 Musical Noise
たいへん聞きざわり
いかにこれを抑圧するか?
非定常雑音環境対策の必要性
いかに雑音を追跡するか?
|)(~
||)(| fWfY のとき
|)(~
||)(||)(~
| fWfYfX
スペクトル引き算法の一般化表現
トレードオフ
小 SN比改善小、明瞭度向上(Musical Noise小)
大 SN比改善大、明瞭度低下(Musical Noise大) 大
Musical Noise低減小、スペクトル引きすぎなし 小
Musical Noise低減大、スペクトル引きすぎ 大
適当なスペクトル引き算の後の事後処理が有効
スペクトログラム上で音声部分とMusical Noise部分を見分ける
音声スペクトルを保持し、Musical Noise部分を抑圧する
Goh(1998)
スペクトル引き算を反復的に処理する
緒方(2005)
反復スペクトル引き算
スペクトル引き算
反復
)()()( nwnxny )(ˆ nx
Noise Estimation Method
Noise Estimation Using Low Frequency Regions
*Human speech information mostly exists between 50Hz and 3.5KHz
*At 0Hz~50Hz, noisy speech spectra have only noise information
Track the variance of noise spectra by using the low frequency regions
)()( fYfW Low
k
Low
k
Yamashita(2005)
Long-term Spectrum (Male Speech)
Use this region
Proposed Method
otherwisebfWfYa
b
afY
fYfWfY
fX
fD
fY
kkk
k
kkk
k
f
Low
f
Low
k
k
:)(,)(~
)(:)(
)(0
)()(
)()(
~)(
)(~
)(ˆ
)(
事前雑音推定
Behavior of the Proposed Method
Parameters for Experiments
Speaker : Japanese male and female
Speech Length : about 10 seconds
Sampling Rate : 10KHz (except for Yamauchi’s
Method)
Band Limitation : 3.4KHz(except for Yamauchi’s
Method)
Noise : 3 kinds of noise
*For Yamauchi’s Method : 30KHz sampling
No band limitation
Noise Characteristics
Time
-Varying
White Noise
Train Noise
at Railroad
Crossing
Babble
Noise
Improved Segmental SNR
いくつかのデモ
各種マイクの性質
咽喉マイク使用例
骨導マイク
咽喉マイク
イヤマイク
接話マイク
周波数特性
平坦
LPF的
LPF的
トランスデューサ
LPF的
骨伝導とは?
気導音
骨導音
(空気伝導による音)
(骨伝導による音)
発声経路
耳を塞いで発声しても、 音が聞こえる
骨導音声 空気を介さず声帯の振動が骨を伝わり、その振動が直接聴覚器官に伝達される
高騒音環境における通信に利用可能
骨導音声は気導音声に比べ、自然性、了解性に欠ける
音声導出のブロック図
骨導音声 復元音声 フィルタ
Normal Speech and Bone-Conducted Speech
Speech Production and Bone Conduction Model
)(nd
)(ns
)(zB
)(zV)(ne
Vocal Tract
Bone Conduction
Transforming Bone-Conducted Speech into Normal Speech
)(nd )(ns)(
1
zB )(zV
)(zH
Reconstruction Filtering
Direct design of H(z) is difficult
)(nd )(ˆ ns)(ˆ zH
|)(|
|)(|)(ˆ
fD
fSfH
Filter Design
Long-term spectrum of s(n)
Long-term spectrum of d(n)
Direct design of H(z) is difficult
音声収録の手続き 20歳前後の男性2名(A,B)、女性2名(C,D)
5母音,5つの文
気導音声収録用マイク
(パナソニックRP-VK25)
骨導音声収録用マイク
(テムコHG-17ヘッドギア)
サンプリング周波数44.1kHzで収録し、11.025kHzまでダウンサンプリングして実験に使用
量子化ビット数16bit
骨導マイク 骨などを介して音声波形信号が伝わる
Body vibrationをピックアップする特殊マイク
テムコ HG-17ヘッドギア
実験の様子
試聴実験概要
試聴者 20名
評価対象 無処理の骨導音声と3種類の導出音声
評価基準 「明瞭度」
評価方法 一対比較法、「どちらが気導音声の明瞭度に近いか」
近い方を選択
評価値 3文の選択率を平均化し、評価
試聴実験結果 (サーストン心理尺度)
話者A
-2 -1 0 1 2
話者B 話者C 話者D :骨導 :同一 :母音 :長文 明瞭度試験結果
いくつかのデモ
最後に MATLABを利用した音声処理の進展
複雑な関数を簡単にプログラミング