第 6 章 自适应差分脉码调制

Post on 19-Mar-2016

142 views 1 download

description

第 6 章 自适应差分脉码调制. 计算机学院 陈加忠. chenjz70@263.net 027 87541764. 6.1 概述. 几十年来,人们一直致力于压缩数字化语音占用频带的工作,也就是在相同质量指标下,努力降低数字化语音比特率,以提高数字通信系统的频带利用率 语音压缩方法有 DPCM SBC ATC CELP MPLPC VQ ADPCM ADPCM 在更低的码率下 (16-8kbps) ,质量明显下降. 6.2 DPCM 基本原理 P141. 6.3 ADPCM 基本原理 P142. 极点预测器 预测误差滤波器 重建滤波器. - PowerPoint PPT Presentation

Transcript of 第 6 章 自适应差分脉码调制

第 6 章 自适应差分脉码调制

chenjz70@263.net 027 87541764

计算机学院 陈加忠

6.1 概述 几十年来,人们一直致力于压缩数字化语音占用频带的工作,也就是在相同质量指标下,努力降低数字化语音比特率,以提高数字通信系统的频带利用率 语音压缩方法有 DPCM SBC ATC CELP M

PLPC VQ ADPCM ADPCM 在更低的码率下 (16-8kbps) ,质量明显下降

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( ) ( ) ( )

e

r e q

r q

d k S k S kS k S k d k

e k S k S k d k d k

2 2( ) ( )qSNR E d k E e k

6.2 DPCM 基本原理 P141

6.3 ADPCM 基本原理 P142

极点预测器 预测误差滤波器 重建滤波器

1( ) ( )

N

e i ri

S k a S k i

1( ) 1

Ni

ii

D z a z

1

1( ) 1 ( )1

Ni

ii

H z D za z

6.4 语音压缩编码 原理框图

A/D 信号

变换 压缩编码 输出

6.4.1 语音编码技术概述 语音编码:移动通信数字化的基础 第 1/2 代蜂窝系统根本区别 语音编码的意义:

提高通话质量 ( 数字化 + 信道编码纠错 )提高频谱利用率 ( 低码率编码 )提高系统容量 ( 低码率,语音激活技术 )

6.4.2 语音编码分类

语音编码器

波形编码器

参量编码器

频域

时域 非差分

子带编码自适应变换域编码

差分

PCM

DPCM

M 连续可变斜率 M

ADPCM APC

线性预测编码

声码器信道声码器共振峰声码器倒频谱声码器语音激励声码器

多脉冲激励 LPC

码本激励 LPC

矢量和激励 LPC

6.4.3 语音编码分类 波形编码:将时域模拟话音的波形信号进过采样、量化和编码形成数字语音信号 --- 《现代通信原理》

编码速率较高, 16k~64k 包括: PCM , ADPCM , M , CVSDM , APC 等 占用较高带宽,适合有线

参量编码:基于人类语音的产生机理建立数学模型,根据输入语音得出模型参数并传输,在收端恢复。 编码速率较低, 1.2~4.8 kbps 包括各种线形预测编码 (LPC) 方法和余弦声码器 语音质量中等,不满足商用要求

混合编码:波形编码 + 参量编码 (LPAS) 包括 GSM 的 RPE-LPC 编码和 VSELP 编码

6.4.4 语音编码的标准 G.711 PCM (64k bps) G.721 ADPCM (32k bps) G.722 7kHz 带宽 64k bps 速率内的音频编码 G.723 6.3k/5.6k 双速率多媒体语音编码 G.728 16k bps 语音编码 LD-CELP G.729 8k bps 多媒体语音编码

6.4.5 语音编码的发展 极低速率语音编码, 600bps

高保真语音编码 自适应多速率语音编码 新的编码分析技术:

非线形预测 多精度时频分析技术 ( 子波分析技术 ) 高阶统计分析技术

6.4.6 线形预测编码的原理 原理:模型化人类语音信号产生的机制,提取模型参数,并且只传输模型的参数。 语音信号的产生模型:

语音的产生,声带和声道 不同语音产生的原因:声音激励源和声道不同 声音分类:浊音和清音

发声过程 口腔和鼻腔形成时变滤波器

周期-基音周期浊音 声带振动

语音 波形-三角形周期脉冲波,含丰富谐波

清音 声带不振动 类似白噪声

6.4.7 清音和浊音 清浊音频谱 清浊音信号

6.4.8 语音产生模型 语音模型的建立: 1. 产生激励, 2. 响应 模型参数:基音,共振峰频率及强度,清浊音判决

低码率编码 码率降低有限 合成的语音波形失去了自然度和音质

周期脉冲发生器

随机噪声发生器G

时变数字滤波器)(nu

清 / 浊音开关声道参数

)(ns

基音周期

6.4.9 LPC 语音编码

使误差均方最小,可求得一组预测系数 {ak} , 传送:预测系数,基音周期合增益,清浊音判决

1

1

1

( )( )( ) 1

( ) ( ) ( )

ˆ( ) ( )

ˆˆ( ) ( ) ( )

Nk

kk

N

kk

N

kk

S Z GH ZU Z a Z

S n a S n k G u n

S n a S n k

e n S n S n

时变滤波器:

预测器:

误差:

6.5 图像编码 变换:

编码.261

DFTDCT H JPEGWTHTSlant

静止 二维预测变换 利用象素间的相关特性

活动 三维

离散傅立叶变换变换 离散余弦变换 最广,函数变换

利用变换域 沃尔什变换参数分布特征 哈达码变换

倾斜变换

帧内编码

局部更新编码

帧间编码 帧间预测运动补偿

6.5.1 图像压缩标准 可压缩的原因

已有的标准

统计冗余度 低频分量多视觉冗余度 人眼的感觉

冗余度空间冗余度 图像结构时间冗余度 图像活动性

12 ,4

MPEGISO MPEG DVD DVB

MPEG Internet

.261

.263

.264

HITU H

H

为什么要变换和量化

变换 量化 熵编码具有优良频率特性的滤波器作变换工具,有利于得到平稳的能量分布,有利于进一步的量化处理

原始信号的信息损失主要发生在量化阶段,好的量化能以尽可能少的量化误差换取最小的码率+ =

高质量编码器

6.5.2 编码与变换、量化

6.6 DFT 与 DCT1 2

0

( ) [ ( )] ( ) ,0 1N j nk

N

n

X k DFT x n x n e k N

1 2

0

1( ) [ ( )] ( ) ,0 1N j nk

N

k

x n IDFT X k X k e n NN

DFT 变换 结果有虚部和实部 对 DFT 变换系数量化后,吉布斯效应明显 把 x(n) 对称延拓,可以消除其中的虚部,得 到 DCT 变换

6.6.1 正交变换的一个例子

假设图象的大小只有一个 4×4 的块,即一共 16 个点,其中每个象素点都有一定的值,我们把这个值叫灰度值。对图象而言,这些值为 0~255 之间的整数。假设一幅 4×4 的图象,它的灰度值如下: 128 16 5 818 23 45 214200 168 48 6424 36 220 4

下面我们对这个 4×4 的图象做变换,变换矩阵我们选:1 1 1 11 1 1 111 1 1 121 1 1 1

T

一般我们希望它是正交矩阵,即变换矩阵和它的逆矩阵的乘积,为单位矩阵,即:

1TT I I

1 0 0 00 1 0 00 0 1 00 0 0 1

I

对上述图像作变换,可以验证:

T

1 1 1 11 1 1 111 1 1 121 1 1 1

128 16 5 818 23 45 214200 168 48 6424 36 220 4

370 243 318 29078 165 218 154166 139 132 2662

286 125 212 146

我们希望这个过程是可逆的,即可以验证: =

1 1 1 11 1 1 111 1 1 121 1 1 1

370 243 318 29078 165 218 154166 139 132 2662

286 125 212 146

128 16 5 818 23 45 214200 168 48 6424 36 220 4

6.6.2 二维 4×4 DCT 变换a a a a a b a cb c c b a c a ba a a a a c a bc b b c a b a c

TY = AXA X

1 1 1 3, cos , cos2 2 8 2 8

a b c

TY = CXC E X

2 2

2 2

2 2

2 2

a ac a ac1 1 1 1 1 d 1 1d 1 1 d 1 1 1 d ac c ac c1 1 1 1 1 1 1 d a ac a ac1 d d 1 1 d 1 1 ac c ac c

若 表示矩阵对应元素相乘, d=b/c ,那么上式可以表示为 时,为最优变换矩阵1/( 2 1) 2.4142...d

在这里, d 取 5/ 2 ,非常接近最优值 此时, ,得到整数变换矩阵的正变换为: 1/( 2 1) 2.4142...d 1 5 2 2, ,2 2 29 29

a b c

6.6.3 二维 4×4 DCT整数变换

Tf f fY = C XC E

X

2 2

2 2

2 2

2 2

1 1 1 1 1 5 1 1 a ac / 2 a ac / 25 1 1 5 1 1 1 5 ac / 2 c / 4 ac / 2 c / 41 1 1 1 1 1 1 5 a ac / 2 a ac / 21 5 5 1 1 5 1 1 ac / 2 c / 4 ac / 2 c / 4

6.6.4 二维 4×4 DCT 变换与量化对于 9 比特的预测误差数据做变换,变换矩阵每一行绝对值之和的最大值为 14 ,因此对于变换后的矩阵元素需要 位来表示。现在大多数处理装置(如CPU , DSP)为 32位宽,用上述变换进行处理就没有数据溢出的危险。

29+log 14 14=17

一旦得到变换后的系数,我们就可以对变换系数进行量化操作。对于某个量化步长 QStep ,对应一个量化参数 Q ,量化参数 Q 的取值范围为 0 到 44整数,量化就是把变换得到的结果都除以 QStep :

Tf f fY/Qstep = C XC E

X

/Qstep

1/ 4 1/ 232 1/ 4 1/ 2321 1 1 1 1 5 1 15 1 1 5 1 1 1 5 1/ 232 1/58 1/ 232 1/ 58

/Qstep1 1 1 1 1 1 1 5 1/ 4 1/ 232 1/ 4 1/ 2321 5 5 1 1 5 1 1 1/ 232 1/58 1/ 232 1/ 58

Tf f f= C XC M qbits

Q/(2 ) Y

2f qbitsf

EM

QStep

可以得到:

其中, , floor表示向负无穷取整。量化参数 Q 与量化步长 QStep 的对应关系如表 1 。从表1 中可以看出,量化参数 Q 每增加 5 时,量化步长 QStep 就随之翻倍增加。

15 ( / 5)qbits floor Q

可以得到

Q 0 1 2 3 4 5 6 7 8 9 10 11 …

QStep 0.625 0.6875 0.8125 0.875 1 1.25 1.375 1.625 1.75 2 2.5 2.75 …

Q … 14 … 19 … 24 … 29 … 34 … 39 …

QStep … 4 … 8 … 16 … 32 … 64 … 128 …

表 1 量化参数 Q 与量化步长 QStep 的对应关系

Moret首先提出了小波的概念 (Moret小波函数是 Grossmann和Morlet在 1984年提出的 ),在很多学者的共同努力下,小波理论得到了完善和发展。特别是 Mallat ,他提出的多分辨率分析 (Multiresolution analysis, MRA) 理论,对小波构造理论起到了十分重要的作用。 1976 年, Crochiere等人首先把子带编码应用于语音编码。在语音编码中,用作频谱 QMF (Quadrature mirror filt

er) 滤波器能够很好地解决过度带频率混叠问题,而且很自然地,人们把 QMF引入二维信号处理。 子带就是小波分解后,得到不同的频带分量的时域或者空域表现。 子带编码的基本思想是,把信号分成多个子带,然后对各个子带进行编码。

6.7 小波变换与 QMF

6.7.1 QMF 滤波器 混叠问题 (aliasing) 从信号处理角度看: QMF 滤波器能够很好地解决过度带频率混叠问题。

1 1( ) ( ) ( )X Z H Z X Z 1/ 2 1/ 21 1 1

1( ) ( ( ) ( ))2

Y z X Z X Z

)()( 211 ZYZU

1 1 1 1 1 11( ) ( ) ( ) ( ( ) ( ) ( ) ( )) ( )2

T Z K Z U Z H Z X Z H z X Z K Z

2 2 2 2 2 21( ) ( ) ( ) ( ( ) ( ) ( ) ( )) ( )2

T Z K Z U Z H Z X Z H z X Z K Z

假设: 1 1( ) ( )K Z H Z 2 2 1( ) ( ) ( )K Z H Z H Z 2 2

1 21( ) ( ( ) ( )) ( )2

S Z H Z H Z X Z 得到:

同理:2

1 1( ) ( )U Z Y Z

6.7.2 小波分解 从函数正交分解角度看:小波分解能够很好地解决信号的重构问题。 Meyer 于 1985-1986 年度在 Boubaki研讨会上提出了二进小波概念,完善了 QMF 滤波器的理论,为 QMF 把频谱以二分分解提供了理论依据。

( ) (2 )nkt h t n 1( ) ( 1) (2 )n

nkt h t n

对于具有紧支的标准正交函数系,任何连续可积函数的取样值为: 0 ( ), ( )nc x t t n

那么, x(t) 可以写成: 0( ) ( )nn

x t c t n

由于 (t-n) 对不同的 n 正交,对 x(t) 的小波分解算法可以写成: 1 1( ), (2 )nc x t t n

0 ( ), ( 2 )k mk mc t k h t n m 0

2n m mmc h

1 02 1( 1)mn n m mm

d c h

可以证明, (t-n) 对不同的 n 正交,等价于: 2 2( ) ( ) 1H H

Mallat提出了多分辨率分析 (Multiresolution analysis, MRA)理论,希望得到图象 3个方向的纹理特征,以便机器识别

6.7.3 小波和 QMF 的比较 完备性概念 具有相同的信号完全重构的条件 具有相同的信号分解和重构的算法 小波分解采用的是 L2空间中完备的正交基 小波理论,能构造出相同抽头 (Taps) 下,不同性能的滤波器 小波分析有更广泛的应用,除了编码,还能用在信号检测、微分方程、曲面拟合等领域。

6.7.4 正交小波的构造2 2 2 22 (0) (0) (1) (2) ... ( )

2 (1) (0) (1) ... ( 1) ( )2 (2) (0) (2) ... ( 2) ( )

...2 ( ) (0) ( )

g h h h h Ng h h h N h Ng h h h N h N

g L h h N

根据MRA的思想, Daubechies 设计了正交性能良好的高低通滤波器组,但是它们不对称即不满足线性相位,因此不能完全重构图象的边界

6.7.5 双正交小波的构造

1 2 (0) (0) (0) 2 (1) (1)

9 16 2 (1) 2 (0) (1) 2 (1) (0) 2 (1) (2)

0 2 (2) 2 (0) (2) 2 (1) (1)

1 16 2 (3) 2 (1) (2)

g h h h h

g h h h h h h

g h h h h

g h h

3/5 双正交小波

¼ ½ ¼ -1/8 ¼ ¾ ¼ -1/8

3/5 小波分解与重构中的对齐问题 x2 x1 x0 x1 x2 …… xn-4 xn-3 xn-2 xn-1 xn-2

ck -1/8 1/4 3/4 1/4 -1/8…………-1/8 1/4 3/4 1/4 -1/8 dk (-1)n 1/4 1/2 1/4 …………………………1/4 1/2 1/4

0 0 c0c0 0 c1 0 c2…….cn-2 0 cn-1 0 c1 0 c2…….cn-2 0 cn-1 0 0 cn-1cn-11/4 1/2 1/4 ……………………………………………..1/4 1/2 1/41/4 1/2 1/4 ……………………………………………..1/4 1/2 1/4

0 d0 0 d0 0 0 d0 0 d1……. dn-2 0 d0 0 d1……. dn-2 0 dn-1dn-1 0 dn-2 0 dn-2(-1)(-1)n n -1/8 1/4 3/4 1/4 -1/8 -1/8 1/4 3/4 1/4 -1/8-1/8 1/4 3/4 1/4 -1/8 -1/8 1/4 3/4 1/4 -1/8

分解取偶数点,重构时补 0 在奇数点,分解时在奇数点,补 0 在偶数点。然后以边界点为中心对称延拓,分解和重构时延拓方式是一样的。

6.7.6 矢量小波 (Multiwavelets)

SOM 多重小波具有很好的低通、带通和高通特性,具有提高编码质量的潜力

6.7.7 零树量化 (EZW SPIHT)

6.7.8 Wavelet 与 DCT 的比较(Y)

Wavelet 与 DCT 的比较 (U V)

DCT 变换编码 , 17.95 dB

Wavelet 变换编码 , 20.98 dB小波变换可以有效的克服块效应

(a) Lenna 原图 (b) 0.005bpp, PSNR=20.76dB (c) 0.01bpp, PSNR=22.72dB

(d) 0.02bpp, PSNR=24.21dB (e) 0.05bpp, PSNR=27.30dB (f) 0.1bpp, PSNR=28.81dB

小波编码在高码率和低码率情况下都取得很很好的实验结果

编码的尺寸可伸缩性 编码的质量可伸缩性

6.7.9 小波变换编码具有可伸缩性

小波编码的数据结构的量化手段十分有利于可伸缩性编码和解码

6.8 视频编码与 H.264

随着数字技术的发展,欣赏数字影视成为大众娱乐生活的重要内容。数字影视以数字信号形式,或者说以 bit 的形式在各种介质(或者叫存储器)存储和传输。我们希望在容量有限的存储器内存放更多的电影数量,或者希望在网络点播中看到更流畅的电影作品。然而存储器的容量或者网络能提供的带宽总是不能满足人们不断增长的需要,这就推动了视频压缩编码技术的发展。

对于 CIF格式的视频流,它的画面大小是 352×288 个象素,每个象素点用 8 个 bit 来表示,对于黑白的画面来说,一幅画面需要 352×288×8=811,008bit ,如果是彩色画面,则需要 1,216,512 。为了欣赏到连续的画面,根据人类的视觉特性,每秒差不多要播放 25 个这样的画面(或者叫帧),才不会有快镜头的感觉(比如象卓别林的老电影)。那么,对于一部 60 分钟长的电影,它需要的存储量为 1,216,512×25×60×60=109,486,080,000 ,约为 13,685,760,000 个字节,即 13 个 G 的存储空间。市场上的硬盘目前流行的一般为 150 个 G ,也就是说,这么一个硬盘里面只能放 10 部电影,这远远不能满足我们实际的需要。而实际上, 150G 的硬盘至少可以存放 100 部高质量的电影,这正是通过视频压缩手段才能做到这一点的。

6.8.1 视频编码框架

6.8.2 运动预测

搜索窗口

帧 k (当前帧)

帧 k-1 (参考帧)

1, 2( , ( , )) | [ , ]- [ - , - ]|

1, 1

B BSAD s c REF m s x y c x m y mx y

x y

多参考帧技术——如果在整个宇宙中找到的最亮的恒星,一定不会比在整个银河系中找到的暗

当 前 帧

△ =4

△ =2

△ =1

前面4 个参考帧

同一帧中的不同块的预测值可以在不同的参考帧中参。而且考帧越多,越能找到符合要求的预测值。以硬件的计算、存储能力为代价

1/2精度 (33.25dB) 整数精度 (33.00dB)

多尺寸预测块——能根据物体的运动剧烈情况选择预测块的尺寸

码率开销 (16×16预测误差 +一个运动矢量的)>码率开销 (4 个 8×8预测误差 +4个运动矢量的 ) ?

5 个参考帧 (33.19dB) 1 个参考帧 (31.65dB)

分精度插值预测技术——运动物体半个象素点的位移,但只能通过整数点象素来表达,影响了预测的精度 A

B

预测误差 ERROR:|B-A’|< |B-A|

A’

通过预测滤波器,得到 A’ ,滤波器的系数为 M/2N ,有利于硬件的实现

6.8.3 率失真 -RD

J D R SAD R 2

( ) lnR D aD

( ) 1R D aD D

2

78Q