音響信号処理の基礎 - NAIST...8 独立成分分析と主成分分析...
Transcript of 音響信号処理の基礎 - NAIST...8 独立成分分析と主成分分析...
東京大学大学院情報理工学系研究科/奈良先端大
猿渡 洋
音情報処理論
音響信号処理の基礎~独立成分分析、スパース表現など~
音を聞き分ける耳:マイクロホンアレー
音声処理での一例:マイクロホンアレー
• 複数のマイクによって得られた複数の受音信号のなかから、必要な情報(目的音声)のみを取り出す装置
期待される応用
•高性能な hands-free 通信
•雑音にロバストな音声認識
⇒ではどういうアルゴリズム(ソフト)が必要なのか?
複数の異なる入力情報群から必要な要素を抽出する ⇒ 計測情報処理の基礎
実際、人間も2つの耳で聞くことによって、
音の方向や複数音の聞き分けを行っている
3
ブラインド音源分離の登場
Blind Source Separation (BSS)
• 複数の音源信号が混合されて観測された場合、観測信号のみから音源信号を自律的に推定する技術
• 目的音の方位・無音区間情報が不要
• マイク素子位置・特性情報も不要
独立成分分析(ICA)に基づくBSS
1989 J. Cardoso
1990 C. Jutten (高次無相関化)
1994 P. Comon (ICAという言葉を定義)
1995 A. Bell (infomaxによる定式化)
1998 P. Smaragdis, S. Ikeda, H. Saruwatari …
(音響信号へICAを導入)
第一世代
第二世代
4
「独立」とは何か?
数学における「独立」の定義:
• 2つの確率事象に関する同時確率密度分布
が,それぞれの事象における周辺密度分布の積で書ける場合を「(統計的に)独立」と呼ぶ.
• つまり
),( 21 xxp
)(),( 21 xpxp
)()(),( 2121 xpxpxxp 独立
5
独立である場合の例
1x
2x )()(),( 2121 xpxpxxp
同時確率密度
)( 1xp
1x
周辺確率密度
2x
周辺確率密度
)( 2xp
6
独立ではない場合の例
1x
2x )()(),( 2121 xpxpxxp
同時確率密度
)( 1xp
1x
周辺確率密度
2x
周辺確率密度
)( 2xp と に
強い関連がある1x 2x
7
独立成分分析(ICA)とは何か?
独立な成分の抽出:• 複数の確率信号が混合された観測系列から,統計的に独立な個々の確率過程を分解する.
特徴:• 独立性は「無相関性」よりも厳しい尺度であり,確率信号同士の確率密度構造の幾何が問われる.よって「情報幾何学」とも呼ばれる.
• 確率密度の構造を測るために,3次以上の統計量が必要とされる.よって統計の分野では,「高次統計量数理」の一種でもある.
• 決定論的な目標値を与えずに最適化を行うことより,学習理論の分野では「教師無し学習」とも呼ばれる.
8
独立成分分析と主成分分析
主成分分析(PCA):• 複数要因の混合で表現されるものの中から,分散の大きなものの順に成分を取り出す.
• エネルギーの大きな因子を優先した成分分解法
→ エネルギーが大=影響が大と見なす
一方,独立成分分析は…
• エネルギーの大小とは無関係に,「独立」なもの同士に分解する.小さな成分でも他と独立性が高ければそれを抽出することが可能.
• 取り出される因子の順番は問わない.
9
独立成分分析と主成分分析の違い
信号1の散布図
信号2の散布図
10
主成分分析の場合
第二主成分 第一主成分
真の成分軸を
求められない
11
独立成分分析の場合
第二成分
第一成分
真の成分軸を
抽出可能
互いに独立
既知
ICAに基づくBSS とは?
妨害音
目的ユーザ
マイク 1
マイク 2
おはよう
#&%¥観測信号 2
我々が知り得るのはこれだけ
観測信号 1 ICAによる
音源分離
出力同士が最も関係なくなるように最適化
ICAに基づくBSSの定式化
)(
)(
)(
)( 11
1
111
tx
tx
ts
ts
AA
AA
LKLKL
K
線形混合過程
混合行列 音源信号 観測信号
分離過程分離信号 分離行列
)(
)(
)(
)( 1
1
1111
tx
tx
WW
WW
ty
ty
LKLK
L
K
独立?
コスト関数
最適化
ICAにおける様々なコスト関数
2次統計量
• 信号間相関を最小化(複数時間区間利用)
高次統計量1
• 高次相関をも最小化
高次統計量2
• 源信号確率密度関数を仮定
分離信号ベクトル: T21 )(),...,()( tytyt y
diag)()(E T tt yy
diag)()(E T3 tt yy
diag)()(E T tt yyΦ
:Φ tanh関数など
非線型関数2の導出独立⇒Kullback Leibler Divergenceの最小化問題
• 一般にKullback Leibler Divergenceとは2分布間の距離
分離信号 の同時分布密度関数)(ty),,()( 1 Kyypp z
K
k kypvp 1 )()(
yy
y dyp
ppWKL
K
k k
1 )(
)(log)()(
周辺分布密度関数の積
最小化
zv
zzzv d
p
ppKL
)(
)(log)(),(
上式において…
とおき,これらのKLを分離行列Wに関して最小化すれば独立
非線型関数2の導出(cont’d)
WX
xWxx
yyyWY
log)(
)log)((log)(
)(log)();(
H
dpp
dppH
xx
yyW
dypp
dyppYH
k
kk
)(log)(
)(log)();(
K
kk
K
k k
WYHWH
dyp
ppWKL
1
1
);();(
)(
)(log)()(
Y
yy
y
1. 結合エントロピー 2. 周辺エントロピー和
|)|/)()(( Wxy pp
))()(( yyxx dpdp
非線型関数2の導出(cont’d)
WX
xWxx
yyyWY
log)(
)log)((log)(
)(log)();(
H
dpp
dppH
xx
yyW
dypp
dyppYH
k
kk
)(log)(
)(log)();(
K
kk
K
k k
WYHWH
dyp
ppWKL
1
1
);();(
)(
)(log)()(
Y
yy
y
1. 結合エントロピー 2. 周辺エントロピー和
|)|/)()(( Wxy pp
))()(( yyxx dpdp
この値を最大化
⇒ 音源間の関連を無くす
この値を最小化
⇒ 個々の音を非ガウス化
非線型関数2の導出(cont’d)
1TT
T1T
T1T
)(E
)(E)(
)()()()(
WyyI
xyW
xxyWW
WW
y
x
dxpKL
に関する勾配を求め,その逆方向に を更新学習Wの W
音声の場合はSigmoid
関数で近似可能
T
1
1 )(log...,,
)(log)(
K
K
y
yp
y
ypy
)(WKL分離信号の同時確率密度と周辺確率密度積のKL擬距離
様々なバリエーション
EMアルゴリズムによるp(y)の同時推定
二次統計量によるp(y)の推定+高次統計量ICA [Saruwatari, ICASSP2009]
ICAと音響信号処理の類似点を明らかにし、相補性を生かした高速収束アルゴリズム [Saruwatari, IEEE Trans. SAP 2003 & 2006]
教師無し最適化としてのICA
従来の教師有り最適化:目標値が与えられる
• 子育てで言えば「医者にするにはどうするか?」
• 最小化関数=∫ (医者ー子供の現在)2
• コスト関数が可計算、その微分勾配も可計算
ICA等の教師無し最適化:目標値が無い!
• 子育てで言えば「良い大人になりなさい!(でも具体的には?)」
• 最小化関数=div(???||子供の現在) ⇒陽に計算不可
• コスト関数は可計算ではないが、その勾配は可計算
• 独立性自体をデータから測ることは困難であるが、どの方向に動けば独立性が高まるかは計算可能
• 「勉強しよう」、「運動しよう」、「約束は守る」、「友達は大切に」…
スパース信号解析としてのICA(1)
スパース(疎)信号解析とICAの密接な関係
• スパースな生起を有する信号の確率密度は非ガウス
• より非ガウス分布に従う確率信号へ分解するのがスパース解析
• ICAによって分解される信号は、実際、より「疎」なものになる
Amplitude
Amplitude
観測スペクトログラム 基底スペクトル行列
アクティベーション行列
Time
Ω: 周波数ビン数𝑇: 時間フレーム数𝐾: 基底数
Time
Freq
uen
cy
Freq
uen
cy
スパース信号解析としてのICA(2)
スパース(疎)信号解析とICAの密接な関係
• 「スパースさ」を測る尺度として「高次統計量」がある
• 高次統計量を眺めて非ガウス性を測り、全ての分解信号を可能な限り「ガウス分布から離れたものにする」のがICA
• 音声信号は元来、非常に非ガウス(優ガウス)なので相性が良い
0 1 2 3 4 5 6 7 8 9 10
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
0 1 2 3 4 5 6 7 8 9 10
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
優ガウス
優ガウス
ガウス
ハンズフリー音声対話ロボシステムの構築
・各種モジュールを統合した実環境動作可能な音声対話システム
8チャンネルマイクアレー
キタちゃんロボディスプレー
リアルタイムブラインド空間
サブトラクションアレー
音声発話検出&音声認識デコーダ
対話管理処理
応答音声生成
各種情報提示処理
典型的な駅騒音の中で遠隔発話した場合でも
90%以上の単語認識率を達成
(今後)ロボット動作との連携
ハンズフリー音声対話ロボシステムの構築
ICA利用したアプリケーション
世界で初めてリアルタイムBSSモジュールが商用化され、2008年には警察備品として採用された。
ドコモモバイルサイエンス賞
京大NAIST-CRESTプロジェクトにて「場の雰囲気を読むポスタセッションアーカイブシステム」に導入された。
ポスタ会場 発表者 質問者
スパース表現信号処理について
~非負値行列因子分解~
25
研究背景
• 複数の楽器音が多重に混合された音楽信号から,楽器音を分離・抽出 音楽信号分解
• 応用例
–ユーザが好み応じて各楽器音を編集
–音楽信号の自動採譜
–音の拡張現実 (AR) 等
26
• 非負値行列因子分解 [Lee, et al., 1999]
• データのスパース性,重ね合わせ表現を考慮
• 効率的な乗法型更新式
• 画像処理,信号処理等様々な分野への応用
研究背景
27
Time [sec]
Fre
quency [
Hz]
Nonnegative Matrix Factorization (NMF)
28
…
…
……
頻出スペクトル
各スペクトルのタイミングと音量
Time [sec]
Fre
quency [
Hz]
Nonnegative Matrix Factorization (NMF)
29
…
…
…… アクティベーション行列
スペクトル基底行列
• NMF では,分解行列因子の と を最適化するための目的関数が距離関数として与えられる
• この距離関数はデータや分解する目的に応じて使い分けられる
–音源分離: 一般化KLダイバージェンス
–自動採譜: 板倉-斉藤擬距離
NMF の目的関数
30
: 任意の距離関数
ex.)
• 一般化距離関数 -divergence [Eguchi, et al., 2001]
31
: ユークリッド距離
: 一般化KLダイバージェンス
: 板倉-斉藤擬距離
スパース性が重視された距離尺度に
-divergence について
• における のグラフ
32
-divergence について
5x102
4
3
2
1
0
IS-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-d
iverg
ence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EU
C-d
ista
nce
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
が正 入力変数 がデータ より大きい
が負 入力変数 がデータ より小さい
板倉-斉藤擬距離やKL-divergenceでは大きな距離値に
板倉-斉藤擬距離やKL-divergenceでは小さな距離値に
33
-divergence について
5x102
4
3
2
1
0
IS-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-d
iverg
ence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EU
C-d
ista
nce
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
• における のグラフ
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
スパース性: 強 スパース性: 弱
-divergence について
34
• における のグラフ100
80
60
40
20
0
-d
iverg
ence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=3)9x10
2
8
7
6
5
4
3
2
1
0
-d
iverg
ence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=4)5x10
97
0
-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=100)
さらに を大きくすると,入力変数 とデータ を入れ替えたような性質になる
• -divergence の全ての において収束性が保障された更新式の導出
-divergence規範NMF [Nakano, et al., 2010]
35
はそれぞれの要素
• 分離する楽器の教師音を用いる手法
学習プロセス
36
目的の楽器の教師音を用いて学習した基底
分離プロセス 教師基底 を固定して を構成
Penalized Supervised NMF (PSNMF)[Kitamura, et al., 2013]
は となるべく無相関となるように求める
• 分離する楽器の教師音を用いる手法
学習プロセス
Penalized Supervised NMF (PSNMF)
37
目的の楽器の教師音を用いて学習した基底
分離プロセス 教師基底 を固定して を構成
から再構成したスペクトログラムが分離結果
[Kitamura, et al., 2013]
多チャネル音楽信号分離デモ4楽器から成るステレオ曲を実際に分解してみた。
原曲
分離音1
分離音2
分離音3
分離音4
全てのメロディが聞き取れた
ら、君もプロミュージシャン!
フルート聞き取れた?
難しい
簡単