音声認識のための非線形音声強調happyoukai/2018/essay/岩本...音声認識のための非線形音声強調...

音声認識のための非線形音声強調

及川靖広研究室 4年岩本美緒

1. まえがき

近年，音声認識システムによる自動テキスト化の技術

が発展しており，テレビ番組や動画投稿サイトの字幕，

音声入力による文書作成などに活用されている．一方で，

昔に収録された音声データのデジタル化が盛んに行われ

ており，研究・調査などを目的とした文字起こしの必要

性が高まっている．大量の音声データを人の手で文字起

こしすることは困難であるため，音声認識による自動テ

キスト化が有効であると考えられる．しかし，収録環境・

方法によって録音データが定常ノイズによる乱れ，声の

こもり，音の途切れなどの原因で低品質になっている場

合，既存の音声認識システムを用いたテキスト化が困難

である．このことから，低品質音声データの音声認識率

向上を目的とした研究を行った．

認識率向上のための手法の一つとして，音声認識の前

段階で信号処理を行い音質を改善することが考えられる．

ただし，近年実用化されている機械学習を用いた高性能

な音声認識システムはノイズのある音声を処理できるよ

うに設計されており，事前の信号処理は認識精度の低下

につながるとされている．したがって本研究では，音声

認識させる前に低品質音声データへ定常ノイズ低減信号

処理を適用したときの認識率を調べ，それを改善する手

法を検討した．高周波数成分が減少した音声データに倍

音成分を加えると音声話者認識において話者性が向上す

ることが先行研究によって明らかになっている [1]．こ

のことから，ノイズ低減処理によって失われた倍音成分

の復元は，音声認識率の向上につながる可能性があると

考えられる．倍音成分を復元し高品質な音声を得るため

の手法として，倍音復元に基づく雑音抑圧が提案されて

いる [2]．この手法は，ウィナーフィルタリング法，スペ

クトルサブトラクション法，MMSE-STSA 法に対して

適用したとき聴感上の音質が改善されることが明らかに

なっており [2–4]，これを用いることによりノイズ低減に

よって失われた音声の情報を復元し，信号を音声として

認識するために有用な音を増加させる効果が期待される．

2. ノイズ低減信号処理

音声データの低品質化の一つとして，定常ノイズが含

まれていることが挙げられる．音声信号の質の改善を目

的としたノイズ低減信号処理手法は複数提案されており，

多くの分野で利用されている．定常ノイズを加法性雑音

であると考えると，ノイズが含まれた観測信号 x(t)は，

音声信号 s(t)と雑音信号 n(t)を用いて

x(t) = s(t) + n(t) (1)

と表される．式 (1)を短時間フーリエ変換して周波数領

域で考えると，第 l フレームにおけるフレームの先頭か

ら k 番目の観測信号の複素スペクトル X(l, k)について

X(l, k) = S(l, k) +N(l, k) (2)

の関係式が得られる．フィルタリングによるノイズ低

減処理は，観測信号のスペクトル X(l, k)にゲイン関数

G(l, k)を適用し，音声信号のスペクトルの推定値 S(l, k)

を

S(l, k) = G(l, k)X(l, k) (3)

のように得ることでノイズを抑制する手法である．ここ

で，ゲイン関数G(l, k)はフィルタであり，信号処理の手

法によって異なる．ウィナーが提案したウィナーフィル

タリング法 [5]では，ゲイン関数 G(l, k)は

G(l, k) =ξ(l, k)

1 + ξ(l, k)(4)

となっている．ここで，ξ(l, k)は事前 SNRと呼ばれ，

ξ(l, k) =|S(l, k)|2

|N(l, k)|2(5)

のように SNRの推定値を表す．

2. 1 スペクトルサブトラクション法

スペクトルサブトラクション法は，観測信号の振幅ス

ペクトル |X(l, k)|からノイズの振幅スペクトルの推定値|N(l, k)|を減算することで音声の振幅スペクトルの推定値 |S(l, k)|を求める方式である [6]．ノイズの振幅スペク

トルの推定値 |N(l, k)|には非音声部分の振幅スペクトルの平均値を用いる．

|S(l, k)| = max{|X(l, k)| − |N(l, k)|, 0

}(6)

したがってゲイン関数 G(l, k)は

G(l, k) = max

{(1− |N(l, k)|

|X(l, k)|

), 0

}(7)

と表される．また，スペクトルサブトラクション法の原

理を利用した SS型ウィナーフィルタにおいては，式 (6)

によって音声の振幅スペクトルの推定値 |S(l, k)|を求め，それを用いて式 (5)の ξ(l, k)を導出し，式 (4)に示した

ゲイン関数 G(l, k) を生成する．スペクトルサブトラク

ション法は計算量が少なく高速な処理が可能であること

などの利点がある一方で，ミュージカルノイズと呼ばれ

るトーン性の雑音が発生するため，聞き取りやすい音の

実現を目的とした処理としては適切ではない．

2. 2 MMSE-STSA法

MMSE-STSA法は，本来の音声信号と推定した音声信

号の振幅スペクトルの平均二乗誤差を最小にする方式で

ある [7]．処理の過程としては，まずノイズのパワースペ

クトルを推定する．そして事後 SNR γ(l, k)と事前 SNR

ξ(l, k) を推定し，それらの値からゲイン関数 G(l, k) を

求める．事後 SNR γ(l, k)とは，

γ(l, k) =|X(l, k)|2

|N(l, k)|2(8)

のように観測信号 X(l, k) とノイズの推定値 N(l, k) の

パワースペクトルの比を表すものである．MMSE-STSA

法のゲイン関数 G(l, k)は

G(l, k) =

√ν(l, k)

γ(l, k)g (ν(l, k)) (9)

で表される．ここで，ν(l, k)は事前 SNR ξ(l, k)と事後

SNR γ(l, k)を用いて

ν(l, k) =ξ(l, k)

1 + ξ(l, k)γ(l, k) (10)

のように求められる．ここで，式 (5)で表される事前 SNR

ξ(l, k) を求めるための音声のスペクトル S(l, k) が与え

られていないため，decision-directed法 [7]を利用し，

ˆξ(l, k) = α|G(l − 1, k)X(l − 1)|2

| ˆN(l, k)|2

+ (1− α)max[γ(p, k)− 1, 0]

(11)

のように事前 SNR ξ(l, k)を推定する．式 (11)の第 1項

は 1つ前のフレームのスペクトルゲインと事後 SNRの

情報を，第 2項は現在のフレームの事後 SNRの情報を

含んでいる．それらをどの割合で用いるかを決めるパラ

メータ α は忘却係数と呼ばれている [5, 7]．α を大きく

すると 1 つ前のフレームの情報をより多く用いるため

時間軸方向に滑らかな音声となる．MMSE-STSA法は，

ミュージカルノイズが発生しにくく，スペクトルサブト

ラクション法より質の良い音声が得られる．

3. 倍音復元に基づく雑音抑圧

過剰なノイズ低減処理によって音声の情報が削減され

てしまうと音声認識率が低下する可能性がある．音声認

識のために必要な情報を保ったままノイズを除去する手

法として，倍音復元に基づく雑音抑圧 (Harmonic Re-

generation Noise Reduction: HRNR)[2] が有効である

と考えられる．HRNRにおけるゲイン関数GHRNR(l, k)

は，ノイズ低減処理によって得られた信号 S(l, k)を用い

て求められる．ノイズ低減信号処理のときと同様に，音

声信号のスペクトルの推定値 SHRNR(l, k)は，観測信号

X(l, k) と HRNR におけるゲイン関数 GHRNR(l, k) を

用いて

SHRNR(l, k) = GHRNR(l, k)X(l, k) (12)

のように求める．HRNR におけるゲイン関数

GHRNR(l, k) についても信号処理手法によって異なっ

たものを用いる．式 (4)に示したウィナーフィルタリン

グ法のゲイン関数を用いて GHRNR(l, k)を求めると

GHRNR(l, k) =ξHRNR(l, k)

1 + ξHRNR(l, k)(13)

となる．HRNRの事前 SNR ξHRNR(l, k)は

ξHRNR(l, k) = ρ(p, k)|S(l, k)|2

|N(l, k)|2

+ (1− ρ(p, k))|Sharmo(l, k)|2

|N(l, k)|2

(14)

のように推定する．ここで，ρ(l, k)にノイズ低減処理に

おけるゲイン関数 G(l, k)を用いて

ρ(l, k) = G(l, k) (15)

とすることで事前 SNRがよい区間ほど HRNRの影響を

小さく，悪い区間ほど HRNR の影響を大きくすること

ができる．式 (14)における Sharmo(l, k)は

Sharmo(l, k) = FT[∣∣∣IFT

(S(l, k)

)∣∣∣] (16)

のように表される．ノイズ低減処理後の音声の複素スペ

クトルを逆フーリエ変換し，絶対値をフーリエ変換する

ことで，処理後の音声が大きい部分を強調する処理に

なっている．

4. 音声認識実験

4. 1 実験方法

ノイズ低減信号処理としてスペクトルサブトラクショ

ン法とMMSE-STSA法を適用し，信号処理の過程で用

いる分析窓と合成窓を変化させた複数のデータを作成

して，それぞれを音声認識させた．実験に用いた音声認

識システムは Google 社の Cloud Speech API である．

このシステムは機械学習によって音声をテキストに変

換するものであり，ファイルに保存された音声から認識

されたテキストを返すことが可能である．ファイル読込

時のサンプリング周波数は 16kHzとなっている．また，

Google Cloud 公式ホームページのドキュメントには『音

声をサービスに送信する前にノイズ低減信号処理を適用

すると，一般に認識精度が低下』するとの記載がある．

図–1 元データのスペクトログラム

表–1 元データの音声認識結果

内容（正しい文）今日は 11 月の 17 日 1967 年であります元データの認識結果 ”今日は 10 月月 1960 出演者”

音声データには UCLA（カリフォルニア大学ロサンゼル

ス校）で保存されているアメリカへの移民の日本語音声

の一部を用いた．これは，磁気テープに記録されたもの

を AD 変換して作成したデジタルデータである．図–1

にスペクトログラムを示す．聴感上は定常ノイズによる

乱れと音声のこもりが確認できる．このデータのサンプ

リング周波数は 44.1kHz，データの長さは 8.6秒，文に

含まれる単語数は 9である．日本語音声の内容（正しい

文）と，この音声データをそのまま音声認識させた結果

を表–1に示す．単語正解数は 2となっており，元データ

が正確に音声認識されないことが確認できる．

また，音声を意図的に歪ませるような処理として

HRNR を行い，ノイズ低減手法とパラメータを変化

させた複数のデータを作成し，同じ音声認識システムを

用いて音声認識させた．ノイズ低減手法としては SS型

ウィナーフィルタリング法とMMSE-STSA法を用いた．

上記のデータと同様の状態の短文を４パターン用意し，

１短文ずつ音声認識させ，用いた文に含まれる単語につ

いて正解率を算出した．全ての文に含まれる単語数は 49，

元データをそのまま音声認識させたときの単語正解数は

16，単語正解率は 32.7%である．

4. 2 実験結果

4. 2. 1 ノイズ低減信号処理

ノイズ低減信号処理としてスペクトルサブトラクショ

ン法を用いたときの音声認識結果を表–2 に示す．ただ

し，各条件で最も音声認識率が高くなるような長さの窓

関数（合成窓が標準双対窓のとき：8192サンプル，合成

窓が矩形窓のとき：4096サンプル）を用いている．双対

窓とは，ある信号を短時間フーリエ変換した後そのまま

逆短時間フーリエ変換するときに用いると同じ信号に戻

すことができるような窓関数である．合成窓として双対

窓を用いた場合は認識結果が元データと同程度または元

データより悪くなっている．矩形窓を用いた場合は認識

結果が良くなっており，元データを上回っている．聴感

図–2 合成窓としてハミング窓の標準双対窓を用いたデータ

(上)と矩形窓を用いたデータ (下)の比較．矩形窓を用いたも

のにはパルスのような不連続な部分が見られる．

上は，合成窓として双対窓を用いた場合は滑らかで聞き

取りやすい音声となっており，矩形窓を用いた場合の音

声にはプツプツという音がのっているように聞こえる．

これらのスペクトログラムの比較を図–2 に示す．また，

MMSE-STSA 法を用いて処理した音声は，ノイズが低

減され元データに比べて聞き取りやすさが向上し，スペ

クトルサブトラクション法を用いたときに比べてミュー

ジカルノイズが減少していることも確認された．一方，

どの条件においても音声認識結果は１文字も得られな

かった．

ノイズ低減処理によって聴感上の音質が改善された音

声については元データに比べ認識率が低下するのに対

し，不連続な部分が生じ歪みが大きくなった音声につい

ては元データの認識結果を上回ることがあるという結果

となった．ノイズ除去の処理によってもたらされた何ら

かの原因がシステムの音声認識精度の低下に影響してい

ることが確認された．信号処理によって認識に必要な音

声の情報を減らしている可能性がある．そして，不連続

が生じた音声は歪んだことで音声として認識されやすく

なったのではないかと考えられる．

4. 2. 2 倍音復元

ノーマルなノイズ低減処理（SS型ウィナーフィルタリ

ング法，MMSE-STSA 法）をした音声と，それと同様

の手法を取り入れた HRNRを適用した音声をそれぞれ

認識させた結果として，元データの単語正解率との差を

図–3に示す．横軸はノイズ低減処理のゲイン関数G(l, k)

における ξ(l, k)を周波数軸方向に滑らかにするようなメ

ディアンフィルタの次数 N，MMSE-STSA法について

の縦軸は忘却係数 αとなっている．ここで，一般的に α

の値は 0.98であると最も良いとされているが [5, 7]，今

回用いたデータは音声がこもっており，αが大きくなる

とさらにこもってしまい聴感上の音質と音声認識結果の

表–2 スペクトルサブトラクション法によるノイズ低減処理後の音声認識結果

分析窓合成窓音声認識結果単語正解数

ハン窓ハン窓の標準双対窓 ”今日は何の日” 2

ハン窓矩形窓 ”今日は 12 月 1961 になります” 3

ハミング窓ハミング窓の標準双対窓 ”今日は全額返金があります” 4

ハミング窓矩形窓 ”今日は 11 月の休診日 1969 年であります” 7

図–3 ノイズ低減処理をした音声（左）とそれに HRNR を適

用したもの（右）の音声認識結果．

双方が悪くなってしまうため，α = 0～0.4のときを示し

ている．図–3によると，N や αといったパラメータの

変化によって結果が段階的に変化するのではなくある値

のみで結果が急に変化するという現象が見られる．また，

条件によってはノーマルなノイズ低減処理のみを用いた

ときに認識結果が向上している場合もあるが，全体的に

見るとHRNRを行ったほうが音声認識結果が良くなって

いることが確認できる．例えばMMSE-STSA法を用い，

α = 0.3，N = 5とした場合の単語正解率について，ノイ

ズ低減処理後は元データより 18.3%低下しているのに対

し，HRNRを適用したことにより元データより 10.2%向

上している．このときのスペクトログラムを図–4に示す．

HRNR によって音声の倍音成分が復元されている部分

や，音声区間の高周波数帯のレベルが上がっている部分

が確認できる．聴感上の差としては，HRNRを行ってい

ない音声の方が滑らかで聞き取りやすく，HRNRを行っ

た音声は声帯振動が強調されたような歪みが聞こえる．

音声に意図的に歪みを生じさせるような処理をかける

と音声認識結果が向上する場合があるという結果が得ら

れた．ノイズ低減処理により減少した音声の情報が歪ま

せることで復元したと考えられる．また，滑らかになる

ことにより音声として認められにくくなっていた部分に

はっきりとした音が加えられることで音声認識できるよ

うになったと考えることもできる．しかしデータの状態

や処理の条件によっては，音声を意図的に歪ませる処理

が音声認識結果を向上させるための最適な手法とは限ら

ないということもわかった．

5. むすび

本研究では，低品質音声データの音声認識率向上を目

的とし，音声認識の前段階でノイズ低減信号処理を適用

図–4 MMSE-STSA 法によりノイズが低減された音声（左）

と，それに HRNR を適用したもの（右）．

した場合の認識率を調べ，それを改善する手法を検討し

た．ノイズ低減処理法としてスペクトルサブトラクショ

ン法と MMSE-STSA 法を用いて音声認識実験を行い，

音質改善に適した処理を用いると音声認識率の低下につ

ながることを確認した．HRNRの適用により倍音成分を

復元し歪ませた音声について音声認識実験を行い，音声

に意図的に歪みを生じさせるような処理を行うと音声認

識結果が向上することを確認した．今後は音声データに

含まれる情報の中で音声認識結果に対応するものを明ら

かにするために，信号処理が音声認識の特徴量に与える

影響を調査し，処理手法の改良を行う．

参考文献

[ 1 ] H. Miyamoto, S. Shiota and H. Kiya, “Non-linear nar-

monic generation based blind bandwidth extention consider-

ing aliasing artifacts,” Proceedings, APSIPA Annual Summit

and Conference 2018, Hawaii, 12-15 Nov. 2018.

[ 2 ] C. Plapous, C.Marro and P. Scalart, “Improved signal-to-

noise ratio estimation for speech enhancement,” IEEE Trans-

actions on Acoustics, Speech and Signal Processing, vol.14,

no.6, pp.2098–2108, 2006.

[ 3 ] M. Une, R. MIyazaki, “Evaluation of sound quality and

speech recognition performance using harmonic regeneration

for various noise reduction techniques,” 2017 RISP Interna-

tional Workshop on Nonlinear Circuits, Communications and

Signal Processing, pp.377–380, 2017.

[ 4 ] 宇根昌和，宮崎亮一，“倍音復元技術に基づくバイアス付き事前SNR 推定を導入したミュージカルノイズフリー MMSE-STSA 法の音質改善に関する研究，”情報処理学会研究報告，vol.2017-MUS-115，no.47，18 Jul. 2017.

[ 5 ] N. Wiener, “Extrapolation, interpolation and smooth-

ing of stationary time series with engineering applications,”

Cambridge, MA: MIT Press, 1949.

[ 6 ] S. F. Boll, “Suppression of acoustic noise in speech us-

ing spectral subtraction,” IEEE Transactions on Acoustics,

Speech and Signal Processing, vol.27, no.2, pp.113–120, 1979.

[ 7 ] Y. Ephraim and D. Malah, “Speech enhancement using

a minimum mean-square error short-time spectral amplitude

estimator,” IEEE Transactions on Acoustics, Speech and Sig-

nal Processing, vol.27, no.6, pp.1109–1121, 1984.

音声認識のための非線形音声強調happyoukai/2018/essay/岩本...音声認識のための非線形音声強調...

Documents

Transcript of 音声認識のための非線形音声強調happyoukai/2018/essay/岩本...音声認識のための非線形音声強調...