07 11 FromNTTドコモAMR-WBをはじめとする音声符号化の多くが,直前ピッ...

4
NTT技術ジャーナル 2015.7 32 EVSコーデックの標準化 VoLTE(Voice over Long Term Evolution) *1 のサー ビス開始と音声定額料金プランにより,高品質な通話コ ミュニケーションの価値が注目されています.そのような 中,3GPP(3rd Generation Partnership Project) *2 は, VoLTE向 け に 新 し い 音 声 符 号 化 方 式EVS(Enhanced Voice Services) コ ー デ ッ ク (1) の規格を2014年12月 に完成させました. EVSコーデックは,これまでの音声通話サービスを大 きく上回る音質を目標に標準化作業が開始されました.従 来 サ ー ビ ス で は,VoLTEで 用 い ら れ て い るAMR-WB (Adaptive Multi-Rate Wide Band) (2) に代表されるサン プリング周波数 *3 16 kHzの広帯域音声に対応した音声符 号化方式を用いてAMラジオ並みの音質が達成可能でし た.一方,EVSコーデックはサンプリング周波数32 kHz の超広帯域音声にも対応してFMラジオ並みの音質の達成 が可能になります.また,MPEG USAC(Moving Picture Experts Group Unified Speech and Audio Coding) (3) に代表される,音声も音楽も高音質 ・ 高効率に符号化でき る非リアルタイムサービス用途の音声 ・ 音響統合符号化方 式の登場により,リアルタイムサービス用途のEVSにお いても音声のみならず,音楽にも対応することが要求条件 に盛り込まれました.さらに,AMR-WBを用いた音声通 話サービスが世界的に広がりつつある状況を考慮して, EVSコーデックにはAMR-WBと互換性を持つモードも備 えることが要求されました. NTTドコモは2010年よりEVSコーデックの標準化に 参画し,NTTと協力して標準化作業を推進しました.標 準化作業は世界各国のオペレータ,ベンダ,研究機関など が参加して進められ,日本からはNTT,NTTドコモに加 え て パ ナ ソ ニ ッ ク が 参 加 し ま し た.NTTド コ モ は, VoLTEへのEVSコーデック導入によるネットワークの変 更を最小化するような設計条件を設定することで早く ・ 広 い普及を目指すべきと主張しました.これにより無線区間 伝送時のデータサイズがAMR-WBと同じになるように設 定され,AMR-WB利用時のVoLTEの無線ネットワーク設 計をそのまま利用できるようになりました.さらに,将来 の音声サービスと音楽サービスとの融合によるVoLTEの 進化を見据えて,無線環境で利用できるよう低ビットレー トにおける音楽の音質の重要性を主張しました.当初は, EVSコーデックが音楽に対して達成するべき音質の要求 条件は音声に比べて比較的低く設定される方向で議論が進 められていましたが,最終的には音楽の符号化において有 利な,EVSコーデックよりも長い原理遅延 *4 を持つ符号 化方式と同程度の音質,という高い要求条件が設定されま した. このような3GPPにおける標準化活動により,EVSコー デックは,①FMラジオ並みの音質を達成する超広帯域音 声に対応,②VoLTEへの容易な導入,③音声のみならず 音楽も高音質,の3つの特長を持つ音声符号化方式になり ました. EVSコーデックの技術概要 EVSコーデックは,広帯域・超広帯域音声に加えて, 従来の電話で利用されてきたサンプリング周波数8 kHzの 狭帯域音声,CDよりも高いサンプリング周波数48 kHz *1 VoLTE:高速データ通信方式であるLTEのパケット通信ネットワークを 利用して音声通話を実現する技術. *2 3GPP:各国 ・ 各地域の標準化団体によって設立された移動通信システ ムに関する国際標準を規格化するプロジェクト. *3 サンプリング周波数:アナログ信号からデジタル信号に変換するために, 音声信号の音圧を1秒間に何回記録するかを表す単位.大きいほど高い 周波数まで記録できます(単位はHz). *4 原理遅延:コーデックで復号された音が原音に比べてどのくらい遅れて 出力されるかの指標. f rom NTTドコモ VoLTEのさらなる高音質化と音楽の活用を 実現する3GPP標準EVSコーデック 最新の3GPP標準音声符号化方式であるEVS(Enhanced Voice Services)コーデックは,FMラジオ並みの高い音声品 質に加えて,従来の音声符号化方式が苦手としている音楽の高効率な圧縮を達成し,VoLTEのさらなる高音質化を実現します. NTTドコモは,標準化方針の議論および技術提案を通してEVSコーデックの標準化を推進しました.ここでは,EVSコーデッ クの概要,および新しいオーディオコミュニケーションスタイルを紹介します.

Transcript of 07 11 FromNTTドコモAMR-WBをはじめとする音声符号化の多くが,直前ピッ...

Page 1: 07 11 FromNTTドコモAMR-WBをはじめとする音声符号化の多くが,直前ピッ チ波形からの差分信号の符号化に代数符号帳 *6を用いま す.EVSコーデックでは,符号語当りの表現力が向上し

NTT技術ジャーナル 2015.732

EVSコーデックの標準化

VoLTE(Voice over Long Term Evolution)*1のサービス開始と音声定額料金プランにより,高品質な通話コミュニケーションの価値が注目されています.そのような中,3GPP(3rd Generation Partnership Project)*2は,VoLTE向けに新しい音声符号化方式EVS(Enhanced Voice Services)コーデック(1)の規格を2014年12月に完成させました.

EVSコーデックは,これまでの音声通話サービスを大きく上回る音質を目標に標準化作業が開始されました.従来 サ ー ビ ス で は,VoLTEで 用 い ら れ て い るAMR-WB

(Adaptive Multi-Rate Wide Band)(2)に代表されるサンプリング周波数*3 16 kHzの広帯域音声に対応した音声符号化方式を用いてAMラジオ並みの音質が達成可能でした.一方,EVSコーデックはサンプリング周波数32 kHzの超広帯域音声にも対応してFMラジオ並みの音質の達成が可能になります.また,MPEG USAC(Moving Picture Experts Group Unified Speech and Audio Coding)(3)

に代表される,音声も音楽も高音質 ・ 高効率に符号化できる非リアルタイムサービス用途の音声 ・ 音響統合符号化方式の登場により,リアルタイムサービス用途のEVSにおいても音声のみならず,音楽にも対応することが要求条件に盛り込まれました.さらに,AMR-WBを用いた音声通話サービスが世界的に広がりつつある状況を考慮して,EVSコーデックにはAMR-WBと互換性を持つモードも備えることが要求されました.

NTTドコモは2010年よりEVSコーデックの標準化に参画し,NTTと協力して標準化作業を推進しました.標準化作業は世界各国のオペレータ,ベンダ,研究機関などが参加して進められ,日本からはNTT,NTTドコモに加え て パ ナ ソ ニ ッ ク が 参 加 し ま し た.NTTド コ モ は,VoLTEへのEVSコーデック導入によるネットワークの変

更を最小化するような設計条件を設定することで早く ・ 広い普及を目指すべきと主張しました.これにより無線区間伝送時のデータサイズがAMR-WBと同じになるように設定され,AMR-WB利用時のVoLTEの無線ネットワーク設計をそのまま利用できるようになりました.さらに,将来の音声サービスと音楽サービスとの融合によるVoLTEの進化を見据えて,無線環境で利用できるよう低ビットレートにおける音楽の音質の重要性を主張しました.当初は,EVSコーデックが音楽に対して達成するべき音質の要求条件は音声に比べて比較的低く設定される方向で議論が進められていましたが,最終的には音楽の符号化において有利な,EVSコーデックよりも長い原理遅延*4を持つ符号化方式と同程度の音質,という高い要求条件が設定されました.

このような3GPPにおける標準化活動により,EVSコーデックは,①FMラジオ並みの音質を達成する超広帯域音声に対応,②VoLTEへの容易な導入,③音声のみならず音楽も高音質,の3つの特長を持つ音声符号化方式になりました.

EVSコーデックの技術概要

EVSコーデックは,広帯域 ・ 超広帯域音声に加えて,従来の電話で利用されてきたサンプリング周波数8 kHzの狭帯域音声,CDよりも高いサンプリング周波数48 kHz

*1 VoLTE:高速データ通信方式であるLTEのパケット通信ネットワークを利用して音声通話を実現する技術.

*2 3GPP:各国・各地域の標準化団体によって設立された移動通信システムに関する国際標準を規格化するプロジェクト.

*3 サンプリング周波数:アナログ信号からデジタル信号に変換するために,音声信号の音圧を1秒間に何回記録するかを表す単位.大きいほど高い周波数まで記録できます(単位はHz).

*4 原理遅延:コーデックで復号された音が原音に比べてどのくらい遅れて出力されるかの指標.

from NTTドコモ

VoLTEのさらなる高音質化と音楽の活用を実現する3GPP標準EVSコーデック最新の3GPP標準音声符号化方式であるEVS(EnhancedVoiceServices)コーデックは,FMラジオ並みの高い音声品質に加えて,従来の音声符号化方式が苦手としている音楽の高効率な圧縮を達成し,VoLTEのさらなる高音質化を実現します.NTTドコモは,標準化方針の議論および技術提案を通してEVSコーデックの標準化を推進しました.ここでは,EVSコーデックの概要,および新しいオーディオコミュニケーションスタイルを紹介します.

Page 2: 07 11 FromNTTドコモAMR-WBをはじめとする音声符号化の多くが,直前ピッ チ波形からの差分信号の符号化に代数符号帳 *6を用いま す.EVSコーデックでは,符号語当りの表現力が向上し

NTT技術ジャーナル 2015.7 33

のフルバンド音声にも対応し,また設定可能なビットレート範囲は5.9〜128 kbit/sと非常に広いです.

EVSコーデックのエンコーダ ・ デコーダの基本構成を図 1に示します.低ビットレート動作モードでは,音声を効率良く圧縮可能な時間領域符号化と,音楽を効率良く圧縮可能な周波数領域符号化をフレームごとに切り替えて用います.一方,入力信号の圧縮に十分な情報量が利用できる高ビットレートの動作モードでは,入力信号によらず周波数領域符号化を用います.

VoLTEのような移動通信環境下においてはパケットロスが避けられないため,これにより生じる復号音の欠落を疑似的に生成した音で補うPLC(Packet Loss Concealment:パケットロス隠蔽)技術が重要です.EVSコーデックではPLC技術も標準化されており,パケットロス前で最後に正常に復号できたフレームの符号化領域に応じて,時間領域PLC技術と,周波数領域PLC技術を切り替えて用います.

以下,時間領域符号化と周波数領域符号化,およびPLC技術について概要を紹介します.■時間領域符号化

時間領域符号化の構成を図 2に示します.人間の聴覚は,低周波数帯域成分を敏感に聞き分けられますが,高周波数帯域になるほど鈍感になるため,入力信号を低周波数帯域成分と高周波数帯域成分に分けて高周波数帯域を少ない情報量で符号化することにより,音質を維持したまま効率良く情報量を削減できます.

低周波数帯域成分は,入力信号を線形予測分析*5して得られる線形予測係数と,その予測誤差である線形予測残差信号を量子化して伝送するCELP(Code Excited Linear Prediction)により符号化されます.線形予測残差信号の符号化には,類似の波形(ピッチ波形)が周期的に繰り返す音声信号の性質を利用し,その周期(ピッチ周期)の長さと直前のピッチ波形からの差分信号を符号化します.AMR-WBをはじめとする音声符号化の多くが,直前ピッ

チ波形からの差分信号の符号化に代数符号帳*6を用います.EVSコーデックでは,符号語当りの表現力が向上した高効率代数符号帳が導入され,品質が大幅に向上しています.

高周波数帯域成分は,低周波数帯域成分を整形することにより高周波数帯域成分をつくり出す帯域拡張符号化により符号化されます.整形に必要なパラメータだけを低ビットレートで伝送するため,効率良く高品質な高周波数帯域成分が得られます.EVSコーデックでは低遅延での帯域拡張を実現するため,時間領域帯域拡張符号化を採用しています.■周波数領域符号化

周波数領域符号化の構成を図 3に示します.周波数領域符号化では,時系列の入力信号を修正離散コサイン変換

(MDCT: Modified Discrete Cosine Transform)*7を 用いて周波数領域表現に変換したうえで,MDCTの係数を符号化します.

周波数領域符号化には,MDCT係数をサブバンドに分割してサブバンドごとのエネルギーとそれにより正規化されたMDCT係数を量子化する方式と,線形予測残差信号を周波数領域表現に変換して符号化するTCX(Transformed Code Excitation)を用いる方式があります.

TCXでは,すべてのMDCT係数を符号化できず,符号

*5 線形予測分析:ある時刻の音声信号を,過去の音声信号の線形和で近似する分析手法.

*6 代数符号帳:複数の振幅1のパルスを持つベクトル信号で構成される符号帳.パルスごとの取り得る位置と極性を規則で決めておくため,符号帳のメモリを非常に小さくすることができ,探索に要する演算量も抑えられます.

*7 修正離散コサイン変換:離散時間信号系列を周波数成分に直交変換する手法の1つ.前後の隣接する変換ブロックを窓かけして重複させる変換で,情報の無駄がありません.変換ブロックの境界歪みを防ぐことができるため,多くの音響符号化で利用されています.

周波数領域PLC

エンコーダ デコーダ

入力信号

時間領域符号化

周波数領域符号化

符号多重化

符号逆多重化

復号信号

時間領域PLC

時間領域復号

周波数領域復号

図 1 EVSコーデックのエンコーダ ・デコーダの基本構成

符号化ビット列

高周波数帯域成分

入力信号 帯域分割 帯域拡張符号化

線形予測分析 予測係数量子化

低周波数帯域成分Transition Coding

線形予測残差信号ピッチ波形抽出

代数符号帳探索

ピッチ波形との差分信号

符号多重化

図 2 時間領域符号化の構成図

Page 3: 07 11 FromNTTドコモAMR-WBをはじめとする音声符号化の多くが,直前ピッ チ波形からの差分信号の符号化に代数符号帳 *6を用いま す.EVSコーデックでは,符号語当りの表現力が向上し

NTT技術ジャーナル 2015.734

化できないMDCT係数は0に量子化されるため,周波数領域で表現した線形予測残差において信号成分がない周波数帯域が生じます.従来,このような周波数帯域に雑音を付加して埋めるNoise Fillingが用いられてきましたが,EVSコーデックでは,周囲のMDCT係数も用いて埋めるIGF (Intelligent Gap Filling)が採用されました.■PLC技術

(1) 時間領域PLC技術時間領域符号化であるCELPはフレーム間予測を用いる

ため,パケットロス後に正常に受信できたフレームの復号にもパケットロスの影響が伝搬する性質があります.EVSコーデックでは,パケットロス前に正常に受信できたフレームから,線形予測係数とピッチ周期を推定し,パ

ケットロスを隠蔽する信号を生成する方式が用いられています.さらに,入力信号の性質が大きく変化する際に直前フレームに依存せずに線形予測係数と線形予測残差信号を符号化するTransition Coding モードが採用され,パケットロスに対する耐性が向上しています(図 2 ).

(2) 周波数領域PLC技術周波数領域PLC技術は,基本的に,パケットロス直前

のフレームの復号により得たMDCT係数をパケットロスが発生したフレームに複写してパケットロスを隠蔽する信号を生成します.単純にMDCT係数を複写するとフレーム境界付近で波形の不連続が生じるため,EVSコーデックでは,波形の不連続が生じないよう,複写後の波形の位相を周波数領域で調整して信号波形を滑らかにつなぐ処理を行います.

NTTドコモは,主に時間領域帯域拡張技術,IGF,時間領域PLC技術に関する技術提案を実施し,EVSコーデックの主観品質の向上に貢献しました.

EVSコーデックの性能

3GPPにおいて,EVSコーデックの性能を評価するための特性評価(Characterization)試験が行われました.特性評価試験では広範囲の実用性を示すために多くの主観品質評価試験が実施され,その試験結果は特性評価レポート(4)に記載されています.特性評価試験結果の抜粋を図 4に示します.これらの試験では,入力を背景雑音な

予測係数量子化

符号多重化

TCX

符号化ビット列

MDCT係数

入力信号 MDCT

サブバンドエネルギー量子化

スペクトル量子化

IGF

算術符号化

線形予測分析

図 3 周波数領域符号化の構成図

AMR EVS-SWBAMR-WB

高品質

低品質

主観評価値

5.0

4.5

4.0

3.5

3.0

2.5

2.0

1.5

1.0

5.0

4.5

4.0

3.5

3.0

2.5

2.0

1.5

1.0

5.0

4.5

4.0

3.5

3.0

2.5

2.0

1.5

1.0(kbit/s)(kbit/s)(kbit/s)5 25201510 5 25201510 5 25201510

(a) 音声(背景雑音なし) (c) 音楽および音声と音楽の混合(b) 音声(背景雑音あり)

図 4 特性評価試験結果(抜粋)

NTTドコモfrom

Page 4: 07 11 FromNTTドコモAMR-WBをはじめとする音声符号化の多くが,直前ピッ チ波形からの差分信号の符号化に代数符号帳 *6を用いま す.EVSコーデックでは,符号語当りの表現力が向上し

NTT技術ジャーナル 2015.7 35

し ・ ありの音声,音楽および音声と音楽の混合とし,試験条件にEVSコーデックに加えてAMR-WBと第3世代携帯電話で用いられているAMR(5)を設定し,原音からの劣化を 5 段 階 で 評 価 す るDCR(Degradation Category Rating)法*8で実施されました.試験結果から,超広帯域音声に対応するEVSコーデックの超広帯域モード(図4 のEVS-SWB)は入力によらず,同程度のビットレートでAMR,AMR-WBよりも顕著に高い主観品質を達成していることが分かります.また,AMR-WBは入力が音楽および音声と音楽の混合になるとAMRと同程度の音質まで低下するのに対して,EVSコーデックは高い音質を維持しています.

今後の展開

EVSコーデックはVoLTE向けの音声符号化方式として規格化されましたので,超広帯域音声を用いた音声通話サービスの早期実現が期待されます.それに加えて,音声のみならず音楽も高音質というEVSコーデックの特長を活用し,音楽を用いた新しいコミュニケーションサービスの登場が期待されます.

NTTドコモでは,音声通話において音楽や効果音などを用いる新しいオーディオコミュニケーションスタイルを紹介するアプリケーションを,2015年3月にバルセロナで開催された世界最大級のモバイル関連の展示会Mobile World Congress 2015に出展しました(図 5).本アプ

リケーションでは,通話をしながらスマートフォン上に表示されるアイコンを押すことで音楽や効果音が再生されると同時にマイクから入力される音声と混合して送信されるため,通話相手と一緒に聞くことができます.これらの音楽や効果音によって感情やその場の空気感を豊かに表現し,またゲーム感覚で会話を楽しむことができます.例えば,幸せな気分のときには「Happy」のアイコンを押すと明るい効果音が流れて会話を盛り上げ,緊張しているときには「Nervous」のアイコンを押すと心臓の鼓動の音が流れて緊張感を伝えることができます.展示会では多くの来場者が体験して面白いとの感想が寄せられ,今後の音声通話サービスへの導入に関心を集めました.

今後も引き続きEVSコーデックのVoLTEへの導入に向けた検討,新しいオーディオコミュニケーションスタイルの検討を進め,音声通話サービスにおける新しい価値創造に貢献していきます.

■参考文献(1) 3GPPTS26.441V12.1.1: “Speechcodecspeechprocessing functions;

EnhancedVoiceService(EVS)speechcodec;Generaldescription,” 2014.(2) 3GPPTS26.171V12.0.0: “Speechcodecspeechprocessing functions;

AdaptiveMulti-Rate -Wideband (AMR-WB) speech codec;Generaldescription,” 2014.

(3) ISO/IEC23003- 3 : “Informationtechnology-MPEGaudiotechnologies-Part 3 :Unifiedspeechandaudiocoding,” 2012.

(4) 3GPPTR26.952V12.1.0: “CodecforEnhancedVoiceServices (EVS);Performancecharacterization,” 2015.

(5) 3GPPTS26.071V12.0.0: “MandatoryspeechCODECspeechprocessingfunctions;AMRspeechCodec;Generaldescription,” 2014.

◆問い合わせ先NTTドコモ R&D戦略部TEL 03-5156-1749

*8 DCR法:品質評価の基準となる参照信号と評価対象信号を受聴して,評価対象信号が参照信号に対してどの程度劣化しているかを評価する主観評価試験手法.

アイコンを押すと効果音が流れる

図 5 新しいオーディオコミュニケーションスタイルのアプリケーション