模式识别理论及应用 Pattern Recognition - Methods and Application

31
武武武武武武武武武武 武武武 武武武 武武武武武武武武武武 武武武武武武武武武武 武武武武武武武武武 武武武武武武武武武 Pattern Recognition Pattern Recognition - Methods and Applicatio - Methods and Applicatio n n

description

IPL. 武汉大学电子信息学院. 模式识别理论及应用 Pattern Recognition - Methods and Application. 第六章 模式特征的选择与提取. 模式识别与神经网络. IPL. 第六章 模式特征的选择与提取. 内容目录. 1. 6.1 引言. 6 . 2 类别可分离性判据. 2. 6 . 3 特征提取与 K-L 变换. 3. 6 . 4 特征的选择. 4. 6 . 5 讨论. 5. 6.1 引言. 特征的选择与提取是模式识别中重要而困难的一个环节: - PowerPoint PPT Presentation

Transcript of 模式识别理论及应用 Pattern Recognition - Methods and Application

Page 1: 模式识别理论及应用 Pattern Recognition  - Methods and Application

武汉大学电子信息学院

第六章 第六章 模式特征的选择与提取 模式特征的选择与提取

模式识别理论及应用模式识别理论及应用Pattern Recognition Pattern Recognition - Methods and Application- Methods and Application

内容目录内容目录 第六章 模式特征的选择与提取第六章 模式特征的选择与提取 6161 引言引言

32

45

662 2 类别可分离性判据类别可分离性判据663 3 特征提取与特征提取与 K-LK-L 变换变换664 4 特征的选择特征的选择665 5 讨论讨论

1

模式识别与神经网络

第六章 模式特征的选择与提取 3

6161 引言引言 特征的选择与提取是模式识别中重要而困难的一特征的选择与提取是模式识别中重要而困难的一个环节个环节

bull 分析各种特征的有效性并选出最有代表性的特征是模分析各种特征的有效性并选出最有代表性的特征是模式识别的关键一步式识别的关键一步bull 降低特征维数在很多情况下是有效设计分类器的重要降低特征维数在很多情况下是有效设计分类器的重要课题课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但有时难于易于为人的直觉感知但有时难于定量描述因而不易用于机器判别定量描述因而不易用于机器判别bull 数学特征易于用机器定量描述和判别如基于统计易于用机器定量描述和判别如基于统计的特征的特征

第六章 模式特征的选择与提取 4

特征的形成特征的形成 特征形成 (acquisition)(acquisition)

bull 信号获取或测量rarr原始测量信号获取或测量rarr原始测量bull 原始特征

实例实例bull 数字图象中的各像素灰度值数字图象中的各像素灰度值bull 人体的各种生理指标人体的各种生理指标

原始特征分析原始特征分析bull 原始测量不能反映对象本质原始测量不能反映对象本质bull 高维原始特征不利于分类器设计计算量大高维原始特征不利于分类器设计计算量大冗余样本分布十分稀疏冗余样本分布十分稀疏

引言引言

第六章 模式特征的选择与提取 5

特征的选择与提取特征的选择与提取 两类提取有效信息压缩特征空间的方法两类提取有效信息压缩特征空间的方法特征提取和特征选择特征提取和特征选择 特征提取 (extraction) 用映射(或变换)用映射(或变换)的方法把原始特征变换为较少的新特征的方法把原始特征变换为较少的新特征 特征选择 (selection) 从原始特征中挑选出从原始特征中挑选出一些最有代表性分类性能最好的特征一些最有代表性分类性能最好的特征 特征的选择与提取与具体问题有很大关系特征的选择与提取与具体问题有很大关系目前没有理论能给出对任何问题都有效的特目前没有理论能给出对任何问题都有效的特征选择与提取方法征选择与提取方法

引言引言

第六章 模式特征的选择与提取 6

特征的选择与提取举例特征的选择与提取举例 细胞自动识别细胞自动识别

bull 原始测量(正常与异常)细胞的数字图像原始测量(正常与异常)细胞的数字图像bull 原始特征(特征的形成找到一组代表细胞性原始特征(特征的形成找到一组代表细胞性质的特征)细胞面积胞核面积形状系数质的特征)细胞面积胞核面积形状系数光密度核内纹理和浆比光密度核内纹理和浆比bull 压缩特征原始特征的维数仍很高需压缩以压缩特征原始特征的维数仍很高需压缩以便于分类便于分类

特征选择挑选最有分类信息的特征特征选择挑选最有分类信息的特征 特征提取数学变换特征提取数学变换

bull 傅立叶变换或小波变换傅立叶变换或小波变换bull 用用 PCAPCA 方法作特征压缩方法作特征压缩

引言引言

第六章 模式特征的选择与提取 7

62 62 类别可分离性判据类别可分离性判据 类别可分离性判据衡量不同特征及其组合对分类衡量不同特征及其组合对分类是否有效的是否有效的定量准则 理想准则某组特征使分类器错误概率最小理想准则某组特征使分类器错误概率最小 实际的类别可分离性判据应满足的条件实际的类别可分离性判据应满足的条件

bull 度量特性度量特性bull 与错误率有单调关系bull 当特征独立时有可加性当特征独立时有可加性bull 单调性单调性

常见类别可分离性判据基于距离概率分布熵常见类别可分离性判据基于距离概率分布熵函数函数

0 if 0 if ij ij ij jiJ i j J i j J J

1 21

( ) ( )d

ij d ij kk

J x x x J x

1 2 1 2 1( ) ( )ij d ij d dJ x x x J x x x x

第六章 模式特征的选择与提取 8

基于距离的可分性判据基于距离的可分性判据类间可分性 == 所有样本间的平均距离所有样本间的平均距离

可分性可分性判据判据

( ) ( )

1 1 1 1

1 1( ) ( )2

ji nnc ci j

d i j k li j k li j

J P Pn n

x x x (8-1)( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )i j i j T i jk l k l k lx x x x x x squared Euclidian

( )

1

1 ini

i kkin

m x1

c

i ii

P

m m

( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m (8-5)

类内平均距离类间距离

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m (8-6)

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 2: 模式识别理论及应用 Pattern Recognition  - Methods and Application

内容目录内容目录 第六章 模式特征的选择与提取第六章 模式特征的选择与提取 6161 引言引言

32

45

662 2 类别可分离性判据类别可分离性判据663 3 特征提取与特征提取与 K-LK-L 变换变换664 4 特征的选择特征的选择665 5 讨论讨论

1

模式识别与神经网络

第六章 模式特征的选择与提取 3

6161 引言引言 特征的选择与提取是模式识别中重要而困难的一特征的选择与提取是模式识别中重要而困难的一个环节个环节

bull 分析各种特征的有效性并选出最有代表性的特征是模分析各种特征的有效性并选出最有代表性的特征是模式识别的关键一步式识别的关键一步bull 降低特征维数在很多情况下是有效设计分类器的重要降低特征维数在很多情况下是有效设计分类器的重要课题课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但有时难于易于为人的直觉感知但有时难于定量描述因而不易用于机器判别定量描述因而不易用于机器判别bull 数学特征易于用机器定量描述和判别如基于统计易于用机器定量描述和判别如基于统计的特征的特征

第六章 模式特征的选择与提取 4

特征的形成特征的形成 特征形成 (acquisition)(acquisition)

bull 信号获取或测量rarr原始测量信号获取或测量rarr原始测量bull 原始特征

实例实例bull 数字图象中的各像素灰度值数字图象中的各像素灰度值bull 人体的各种生理指标人体的各种生理指标

原始特征分析原始特征分析bull 原始测量不能反映对象本质原始测量不能反映对象本质bull 高维原始特征不利于分类器设计计算量大高维原始特征不利于分类器设计计算量大冗余样本分布十分稀疏冗余样本分布十分稀疏

引言引言

第六章 模式特征的选择与提取 5

特征的选择与提取特征的选择与提取 两类提取有效信息压缩特征空间的方法两类提取有效信息压缩特征空间的方法特征提取和特征选择特征提取和特征选择 特征提取 (extraction) 用映射(或变换)用映射(或变换)的方法把原始特征变换为较少的新特征的方法把原始特征变换为较少的新特征 特征选择 (selection) 从原始特征中挑选出从原始特征中挑选出一些最有代表性分类性能最好的特征一些最有代表性分类性能最好的特征 特征的选择与提取与具体问题有很大关系特征的选择与提取与具体问题有很大关系目前没有理论能给出对任何问题都有效的特目前没有理论能给出对任何问题都有效的特征选择与提取方法征选择与提取方法

引言引言

第六章 模式特征的选择与提取 6

特征的选择与提取举例特征的选择与提取举例 细胞自动识别细胞自动识别

bull 原始测量(正常与异常)细胞的数字图像原始测量(正常与异常)细胞的数字图像bull 原始特征(特征的形成找到一组代表细胞性原始特征(特征的形成找到一组代表细胞性质的特征)细胞面积胞核面积形状系数质的特征)细胞面积胞核面积形状系数光密度核内纹理和浆比光密度核内纹理和浆比bull 压缩特征原始特征的维数仍很高需压缩以压缩特征原始特征的维数仍很高需压缩以便于分类便于分类

特征选择挑选最有分类信息的特征特征选择挑选最有分类信息的特征 特征提取数学变换特征提取数学变换

bull 傅立叶变换或小波变换傅立叶变换或小波变换bull 用用 PCAPCA 方法作特征压缩方法作特征压缩

引言引言

第六章 模式特征的选择与提取 7

62 62 类别可分离性判据类别可分离性判据 类别可分离性判据衡量不同特征及其组合对分类衡量不同特征及其组合对分类是否有效的是否有效的定量准则 理想准则某组特征使分类器错误概率最小理想准则某组特征使分类器错误概率最小 实际的类别可分离性判据应满足的条件实际的类别可分离性判据应满足的条件

bull 度量特性度量特性bull 与错误率有单调关系bull 当特征独立时有可加性当特征独立时有可加性bull 单调性单调性

常见类别可分离性判据基于距离概率分布熵常见类别可分离性判据基于距离概率分布熵函数函数

0 if 0 if ij ij ij jiJ i j J i j J J

1 21

( ) ( )d

ij d ij kk

J x x x J x

1 2 1 2 1( ) ( )ij d ij d dJ x x x J x x x x

第六章 模式特征的选择与提取 8

基于距离的可分性判据基于距离的可分性判据类间可分性 == 所有样本间的平均距离所有样本间的平均距离

可分性可分性判据判据

( ) ( )

1 1 1 1

1 1( ) ( )2

ji nnc ci j

d i j k li j k li j

J P Pn n

x x x (8-1)( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )i j i j T i jk l k l k lx x x x x x squared Euclidian

( )

1

1 ini

i kkin

m x1

c

i ii

P

m m

( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m (8-5)

类内平均距离类间距离

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m (8-6)

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 3: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 3

6161 引言引言 特征的选择与提取是模式识别中重要而困难的一特征的选择与提取是模式识别中重要而困难的一个环节个环节

bull 分析各种特征的有效性并选出最有代表性的特征是模分析各种特征的有效性并选出最有代表性的特征是模式识别的关键一步式识别的关键一步bull 降低特征维数在很多情况下是有效设计分类器的重要降低特征维数在很多情况下是有效设计分类器的重要课题课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但有时难于易于为人的直觉感知但有时难于定量描述因而不易用于机器判别定量描述因而不易用于机器判别bull 数学特征易于用机器定量描述和判别如基于统计易于用机器定量描述和判别如基于统计的特征的特征

第六章 模式特征的选择与提取 4

特征的形成特征的形成 特征形成 (acquisition)(acquisition)

bull 信号获取或测量rarr原始测量信号获取或测量rarr原始测量bull 原始特征

实例实例bull 数字图象中的各像素灰度值数字图象中的各像素灰度值bull 人体的各种生理指标人体的各种生理指标

原始特征分析原始特征分析bull 原始测量不能反映对象本质原始测量不能反映对象本质bull 高维原始特征不利于分类器设计计算量大高维原始特征不利于分类器设计计算量大冗余样本分布十分稀疏冗余样本分布十分稀疏

引言引言

第六章 模式特征的选择与提取 5

特征的选择与提取特征的选择与提取 两类提取有效信息压缩特征空间的方法两类提取有效信息压缩特征空间的方法特征提取和特征选择特征提取和特征选择 特征提取 (extraction) 用映射(或变换)用映射(或变换)的方法把原始特征变换为较少的新特征的方法把原始特征变换为较少的新特征 特征选择 (selection) 从原始特征中挑选出从原始特征中挑选出一些最有代表性分类性能最好的特征一些最有代表性分类性能最好的特征 特征的选择与提取与具体问题有很大关系特征的选择与提取与具体问题有很大关系目前没有理论能给出对任何问题都有效的特目前没有理论能给出对任何问题都有效的特征选择与提取方法征选择与提取方法

引言引言

第六章 模式特征的选择与提取 6

特征的选择与提取举例特征的选择与提取举例 细胞自动识别细胞自动识别

bull 原始测量(正常与异常)细胞的数字图像原始测量(正常与异常)细胞的数字图像bull 原始特征(特征的形成找到一组代表细胞性原始特征(特征的形成找到一组代表细胞性质的特征)细胞面积胞核面积形状系数质的特征)细胞面积胞核面积形状系数光密度核内纹理和浆比光密度核内纹理和浆比bull 压缩特征原始特征的维数仍很高需压缩以压缩特征原始特征的维数仍很高需压缩以便于分类便于分类

特征选择挑选最有分类信息的特征特征选择挑选最有分类信息的特征 特征提取数学变换特征提取数学变换

bull 傅立叶变换或小波变换傅立叶变换或小波变换bull 用用 PCAPCA 方法作特征压缩方法作特征压缩

引言引言

第六章 模式特征的选择与提取 7

62 62 类别可分离性判据类别可分离性判据 类别可分离性判据衡量不同特征及其组合对分类衡量不同特征及其组合对分类是否有效的是否有效的定量准则 理想准则某组特征使分类器错误概率最小理想准则某组特征使分类器错误概率最小 实际的类别可分离性判据应满足的条件实际的类别可分离性判据应满足的条件

bull 度量特性度量特性bull 与错误率有单调关系bull 当特征独立时有可加性当特征独立时有可加性bull 单调性单调性

常见类别可分离性判据基于距离概率分布熵常见类别可分离性判据基于距离概率分布熵函数函数

0 if 0 if ij ij ij jiJ i j J i j J J

1 21

( ) ( )d

ij d ij kk

J x x x J x

1 2 1 2 1( ) ( )ij d ij d dJ x x x J x x x x

第六章 模式特征的选择与提取 8

基于距离的可分性判据基于距离的可分性判据类间可分性 == 所有样本间的平均距离所有样本间的平均距离

可分性可分性判据判据

( ) ( )

1 1 1 1

1 1( ) ( )2

ji nnc ci j

d i j k li j k li j

J P Pn n

x x x (8-1)( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )i j i j T i jk l k l k lx x x x x x squared Euclidian

( )

1

1 ini

i kkin

m x1

c

i ii

P

m m

( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m (8-5)

类内平均距离类间距离

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m (8-6)

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 4: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 4

特征的形成特征的形成 特征形成 (acquisition)(acquisition)

bull 信号获取或测量rarr原始测量信号获取或测量rarr原始测量bull 原始特征

实例实例bull 数字图象中的各像素灰度值数字图象中的各像素灰度值bull 人体的各种生理指标人体的各种生理指标

原始特征分析原始特征分析bull 原始测量不能反映对象本质原始测量不能反映对象本质bull 高维原始特征不利于分类器设计计算量大高维原始特征不利于分类器设计计算量大冗余样本分布十分稀疏冗余样本分布十分稀疏

引言引言

第六章 模式特征的选择与提取 5

特征的选择与提取特征的选择与提取 两类提取有效信息压缩特征空间的方法两类提取有效信息压缩特征空间的方法特征提取和特征选择特征提取和特征选择 特征提取 (extraction) 用映射(或变换)用映射(或变换)的方法把原始特征变换为较少的新特征的方法把原始特征变换为较少的新特征 特征选择 (selection) 从原始特征中挑选出从原始特征中挑选出一些最有代表性分类性能最好的特征一些最有代表性分类性能最好的特征 特征的选择与提取与具体问题有很大关系特征的选择与提取与具体问题有很大关系目前没有理论能给出对任何问题都有效的特目前没有理论能给出对任何问题都有效的特征选择与提取方法征选择与提取方法

引言引言

第六章 模式特征的选择与提取 6

特征的选择与提取举例特征的选择与提取举例 细胞自动识别细胞自动识别

bull 原始测量(正常与异常)细胞的数字图像原始测量(正常与异常)细胞的数字图像bull 原始特征(特征的形成找到一组代表细胞性原始特征(特征的形成找到一组代表细胞性质的特征)细胞面积胞核面积形状系数质的特征)细胞面积胞核面积形状系数光密度核内纹理和浆比光密度核内纹理和浆比bull 压缩特征原始特征的维数仍很高需压缩以压缩特征原始特征的维数仍很高需压缩以便于分类便于分类

特征选择挑选最有分类信息的特征特征选择挑选最有分类信息的特征 特征提取数学变换特征提取数学变换

bull 傅立叶变换或小波变换傅立叶变换或小波变换bull 用用 PCAPCA 方法作特征压缩方法作特征压缩

引言引言

第六章 模式特征的选择与提取 7

62 62 类别可分离性判据类别可分离性判据 类别可分离性判据衡量不同特征及其组合对分类衡量不同特征及其组合对分类是否有效的是否有效的定量准则 理想准则某组特征使分类器错误概率最小理想准则某组特征使分类器错误概率最小 实际的类别可分离性判据应满足的条件实际的类别可分离性判据应满足的条件

bull 度量特性度量特性bull 与错误率有单调关系bull 当特征独立时有可加性当特征独立时有可加性bull 单调性单调性

常见类别可分离性判据基于距离概率分布熵常见类别可分离性判据基于距离概率分布熵函数函数

0 if 0 if ij ij ij jiJ i j J i j J J

1 21

( ) ( )d

ij d ij kk

J x x x J x

1 2 1 2 1( ) ( )ij d ij d dJ x x x J x x x x

第六章 模式特征的选择与提取 8

基于距离的可分性判据基于距离的可分性判据类间可分性 == 所有样本间的平均距离所有样本间的平均距离

可分性可分性判据判据

( ) ( )

1 1 1 1

1 1( ) ( )2

ji nnc ci j

d i j k li j k li j

J P Pn n

x x x (8-1)( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )i j i j T i jk l k l k lx x x x x x squared Euclidian

( )

1

1 ini

i kkin

m x1

c

i ii

P

m m

( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m (8-5)

类内平均距离类间距离

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m (8-6)

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 5: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 5

特征的选择与提取特征的选择与提取 两类提取有效信息压缩特征空间的方法两类提取有效信息压缩特征空间的方法特征提取和特征选择特征提取和特征选择 特征提取 (extraction) 用映射(或变换)用映射(或变换)的方法把原始特征变换为较少的新特征的方法把原始特征变换为较少的新特征 特征选择 (selection) 从原始特征中挑选出从原始特征中挑选出一些最有代表性分类性能最好的特征一些最有代表性分类性能最好的特征 特征的选择与提取与具体问题有很大关系特征的选择与提取与具体问题有很大关系目前没有理论能给出对任何问题都有效的特目前没有理论能给出对任何问题都有效的特征选择与提取方法征选择与提取方法

引言引言

第六章 模式特征的选择与提取 6

特征的选择与提取举例特征的选择与提取举例 细胞自动识别细胞自动识别

bull 原始测量(正常与异常)细胞的数字图像原始测量(正常与异常)细胞的数字图像bull 原始特征(特征的形成找到一组代表细胞性原始特征(特征的形成找到一组代表细胞性质的特征)细胞面积胞核面积形状系数质的特征)细胞面积胞核面积形状系数光密度核内纹理和浆比光密度核内纹理和浆比bull 压缩特征原始特征的维数仍很高需压缩以压缩特征原始特征的维数仍很高需压缩以便于分类便于分类

特征选择挑选最有分类信息的特征特征选择挑选最有分类信息的特征 特征提取数学变换特征提取数学变换

bull 傅立叶变换或小波变换傅立叶变换或小波变换bull 用用 PCAPCA 方法作特征压缩方法作特征压缩

引言引言

第六章 模式特征的选择与提取 7

62 62 类别可分离性判据类别可分离性判据 类别可分离性判据衡量不同特征及其组合对分类衡量不同特征及其组合对分类是否有效的是否有效的定量准则 理想准则某组特征使分类器错误概率最小理想准则某组特征使分类器错误概率最小 实际的类别可分离性判据应满足的条件实际的类别可分离性判据应满足的条件

bull 度量特性度量特性bull 与错误率有单调关系bull 当特征独立时有可加性当特征独立时有可加性bull 单调性单调性

常见类别可分离性判据基于距离概率分布熵常见类别可分离性判据基于距离概率分布熵函数函数

0 if 0 if ij ij ij jiJ i j J i j J J

1 21

( ) ( )d

ij d ij kk

J x x x J x

1 2 1 2 1( ) ( )ij d ij d dJ x x x J x x x x

第六章 模式特征的选择与提取 8

基于距离的可分性判据基于距离的可分性判据类间可分性 == 所有样本间的平均距离所有样本间的平均距离

可分性可分性判据判据

( ) ( )

1 1 1 1

1 1( ) ( )2

ji nnc ci j

d i j k li j k li j

J P Pn n

x x x (8-1)( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )i j i j T i jk l k l k lx x x x x x squared Euclidian

( )

1

1 ini

i kkin

m x1

c

i ii

P

m m

( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m (8-5)

类内平均距离类间距离

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m (8-6)

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 6: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 6

特征的选择与提取举例特征的选择与提取举例 细胞自动识别细胞自动识别

bull 原始测量(正常与异常)细胞的数字图像原始测量(正常与异常)细胞的数字图像bull 原始特征(特征的形成找到一组代表细胞性原始特征(特征的形成找到一组代表细胞性质的特征)细胞面积胞核面积形状系数质的特征)细胞面积胞核面积形状系数光密度核内纹理和浆比光密度核内纹理和浆比bull 压缩特征原始特征的维数仍很高需压缩以压缩特征原始特征的维数仍很高需压缩以便于分类便于分类

特征选择挑选最有分类信息的特征特征选择挑选最有分类信息的特征 特征提取数学变换特征提取数学变换

bull 傅立叶变换或小波变换傅立叶变换或小波变换bull 用用 PCAPCA 方法作特征压缩方法作特征压缩

引言引言

第六章 模式特征的选择与提取 7

62 62 类别可分离性判据类别可分离性判据 类别可分离性判据衡量不同特征及其组合对分类衡量不同特征及其组合对分类是否有效的是否有效的定量准则 理想准则某组特征使分类器错误概率最小理想准则某组特征使分类器错误概率最小 实际的类别可分离性判据应满足的条件实际的类别可分离性判据应满足的条件

bull 度量特性度量特性bull 与错误率有单调关系bull 当特征独立时有可加性当特征独立时有可加性bull 单调性单调性

常见类别可分离性判据基于距离概率分布熵常见类别可分离性判据基于距离概率分布熵函数函数

0 if 0 if ij ij ij jiJ i j J i j J J

1 21

( ) ( )d

ij d ij kk

J x x x J x

1 2 1 2 1( ) ( )ij d ij d dJ x x x J x x x x

第六章 模式特征的选择与提取 8

基于距离的可分性判据基于距离的可分性判据类间可分性 == 所有样本间的平均距离所有样本间的平均距离

可分性可分性判据判据

( ) ( )

1 1 1 1

1 1( ) ( )2

ji nnc ci j

d i j k li j k li j

J P Pn n

x x x (8-1)( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )i j i j T i jk l k l k lx x x x x x squared Euclidian

( )

1

1 ini

i kkin

m x1

c

i ii

P

m m

( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m (8-5)

类内平均距离类间距离

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m (8-6)

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 7: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 7

62 62 类别可分离性判据类别可分离性判据 类别可分离性判据衡量不同特征及其组合对分类衡量不同特征及其组合对分类是否有效的是否有效的定量准则 理想准则某组特征使分类器错误概率最小理想准则某组特征使分类器错误概率最小 实际的类别可分离性判据应满足的条件实际的类别可分离性判据应满足的条件

bull 度量特性度量特性bull 与错误率有单调关系bull 当特征独立时有可加性当特征独立时有可加性bull 单调性单调性

常见类别可分离性判据基于距离概率分布熵常见类别可分离性判据基于距离概率分布熵函数函数

0 if 0 if ij ij ij jiJ i j J i j J J

1 21

( ) ( )d

ij d ij kk

J x x x J x

1 2 1 2 1( ) ( )ij d ij d dJ x x x J x x x x

第六章 模式特征的选择与提取 8

基于距离的可分性判据基于距离的可分性判据类间可分性 == 所有样本间的平均距离所有样本间的平均距离

可分性可分性判据判据

( ) ( )

1 1 1 1

1 1( ) ( )2

ji nnc ci j

d i j k li j k li j

J P Pn n

x x x (8-1)( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )i j i j T i jk l k l k lx x x x x x squared Euclidian

( )

1

1 ini

i kkin

m x1

c

i ii

P

m m

( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m (8-5)

类内平均距离类间距离

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m (8-6)

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 8: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 8

基于距离的可分性判据基于距离的可分性判据类间可分性 == 所有样本间的平均距离所有样本间的平均距离

可分性可分性判据判据

( ) ( )

1 1 1 1

1 1( ) ( )2

ji nnc ci j

d i j k li j k li j

J P Pn n

x x x (8-1)( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )i j i j T i jk l k l k lx x x x x x squared Euclidian

( )

1

1 ini

i kkin

m x1

c

i ii

P

m m

( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m (8-5)

类内平均距离类间距离

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m (8-6)

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 9: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 9

基于距离的可分性判据矩阵形式基于距离的可分性判据矩阵形式 可分性可分性判据判据

1

( )( )c

Tb i i i

i

S P

m m m m

( ) ( )

1 1

1 ( )( )inc

i i Tw i k i k i

i ki

S Pn

x m x m

( ) tr( )d w bJ S S x

基于距离的准则概念直观计算方便但与错误率没有直接联系

样本类间样本类间离散度矩阵离散度矩阵

样本类内样本类内离散度矩阵离散度矩阵

类间可分离类间可分离性判据性判据

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 10: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 10

基于概率的可分性判据基于概率的可分性判据 基于概率的可分性判据用概率密度函数间基于概率的可分性判据用概率密度函数间的距离来度量的距离来度量

可分性可分性判据判据

1 2 1 2( ) ( | ) ( | ) pJ g p p P P d x x x x

散度散度( | )( ) ( | ) ( | ) ln( | )

iD ij ji i j

j

pJ I I p p dp

xxx x x xx

( | )( ) ln( | )

iij

j

plp

xxx

( | )( ) ( ) ( | ) ln( | )

iij ij i

j

pI E l p dp

xxx x x xx

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 11: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 11

正态分布的散度正态分布的散度 可分性可分性判据判据

~ ( )i i iN μ

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

Mahalanobis

~ ( )j j jN μ

i j

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 12: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 12

基于熵函数的可分性判据基于熵函数的可分性判据 熵函数熵函数

可分性可分性判据判据

1( | ) ( | )c cH J P P x x

ShannonShannon 熵熵 12

1

( | ) log ( | )c

c i ii

J P P

x x

平方平方熵熵 2 2

1

2 1 ( | )c

c ii

J P

x

熵函数期望表征类别的分离程度熵函数期望表征类别的分离程度 1( ) ( | ) ( | )c cJ E J P P x x

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 13: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 13

类别可分离性判据应用举例类别可分离性判据应用举例 图像分割图像分割 OtsuOtsu 灰度图像阈值算法灰度图像阈值算法((Otsu thresholdingOtsu thresholding)) 图像有图像有 LL 阶灰度阶灰度 nnii是灰度为是灰度为 ii的像素数的像素数图像总像素数 图像总像素数 NN= = nn11++nn22+ hellip + + hellip + nnLL

bull 灰度为灰度为 ii的像素概率的像素概率 ppi i = = nniiNNbull 类间方差类间方差

可分性可分性判据判据

2 2 21 1 2 2( ) ( ) ( )B k

1 21 1 1

1 2 11 1

1

k L L

i i ii i k i

i i

k L

i ii i k

ip ip ip

p p

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 14: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 14

Otsu thresholdingOtsu thresholding 灰度图像阈值灰度图像阈值

可分性可分性判据判据2

1argmax ( )

L

Bk

t k

OtsuOtsu 灰度图像二值化算法演示及程序分析灰度图像二值化算法演示及程序分析

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 15: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 15

663 3 特征提取与特征提取与 K-LK-L变换变换 特征提取特征提取用映射(或变换)的方法把原始用映射(或变换)的方法把原始特征变换为较少的新特征特征变换为较少的新特征 PCA (Principle Component Analysis)PCA (Principle Component Analysis) 方法方法进行特征降维变换不能完全地表示原有的进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小最为集中的的变换方法使损失最小 K-L (Karhunen-Loeve)K-L (Karhunen-Loeve) 变换最优正交线变换最优正交线性变换相应的特征提取方法被称为性变换相应的特征提取方法被称为 PCAPCA方法方法

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 16: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 16

K-LK-L变换变换 离散离散 K-LK-L 变换对向量变换对向量 xx 用确定的完备正交归一向量用确定的完备正交归一向量系系 uujj展开展开

特征特征提取提取

1j j

j

y

x u

Ti j iju u

Tj jy u xx y

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 17: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 17

离散离散 K-LK-L 变换变换的的均方误差均方误差 用有限项估计用有限项估计 xx

特征特征提取提取

1

ˆd

j jj

y

x u

该估计的均方误差该估计的均方误差 ˆ ˆ( ) ( )TE x x x x

2

1 1

T Tj j j

j d j d

E y E

u xx u

E( ) Tij i jr x x E R xx

1 1

T T Tj j j j

j d j d

E

u xx u u Ru

Tj jy u x

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 18: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 18

求解最小均方误差正交基求解最小均方误差正交基 用用 LagrangeLagrange 乘子法乘子法

特征特征提取提取

1

if then Tj j j j j

j d

Ru u u Ru 取得极值

结论以相关矩阵结论以相关矩阵 RR 的的 dd 个本征向量个本征向量为基向量来展开为基向量来展开 xx 时其均方误差为时其均方误差为 1j

j d

K-L 变换当取矩阵当取矩阵 RR 的的 dd个最大本征值对应的个最大本征值对应的本征向量本征向量来展开来展开 xx 时其截断均方误差最小这时其截断均方误差最小这 dd个本征向量组成的正交坐标系称作个本征向量组成的正交坐标系称作 xx 所在的所在的 DD维维空间的空间的 dd维维 K-LK-L 变换坐标系 变换坐标系 x 在 K-L坐标系上的展开系数向量 y 称作 x 的 K-L 变换

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 19: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 19

K-LK-L变换的表示变换的表示 K-LK-L 变换的向量展开表示变换的向量展开表示

特征特征提取提取

Tj jy u x

K-LK-L 变换的矩阵表示变换的矩阵表示1 2[ ]d x u u u y Uy

Ty U x

1

d

j jj

y

x u

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 20: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 20

K-LK-L 变换的性质变换的性质 yy 的相关矩阵是对角矩阵的相关矩阵是对角矩阵

特征特征提取提取

T T T Ti j i j i j

T Ti j i j j i ij

E y y E E

R

u xx u u xx u

u u u u

T T T

T

E E U U

U U

yy xx

R Λ

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 21: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 21

K-LK-L 变换的性质变换的性质 特征特征提取提取

1

2

0

0 d

Λ

K-LK-L 坐标系把矩阵坐标系把矩阵 RR 对角化即通过对角化即通过K-LK-L 变换消除原有向量变换消除原有向量 xx的各分量间的的各分量间的相关性从而有可能去掉那些带有较少相关性从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的信息的分量以达到降低特征维数的目的

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 22: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 22

K-LK-L变换图解变换图解

x1

x2u2

u1

1 2

1

2 2 21 1 2 2

( )

( )

n

n

ij i ji j

U

n n

f x x x

r x x

y y y

x y

x Rx y U RU y y Λy

二次曲线方程

标准二次曲线方程

特征特征提取提取

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 23: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 23

K-LK-L变换的数据压缩图解变换的数据压缩图解 取取 2x12x1 变换矩阵变换矩阵 UU=[=[uu11]]则则 xx 的的 K-LK-L 变换变换 yy为为 y = y = UUTTx = ux = u11T T x = x = yy11

变换的能量损失为变换的能量损失为22

2 2 2 21 2

1 594 1

特征特征提取提取

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 24: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 24

K-LK-L变换的产生矩阵变换的产生矩阵 数据集数据集 KKNN==xxii 的的 K-LK-L 变换的产生矩阵由数变换的产生矩阵由数据的二阶统计量决定即据的二阶统计量决定即 K-LK-L 坐标系的基向坐标系的基向量为某种基于数据量为某种基于数据 xx 的二阶统计量的产生矩的二阶统计量的产生矩阵的本征向量阵的本征向量 K-LK-L 变换的产生矩阵可以有多种选择变换的产生矩阵可以有多种选择

bull xx 的相关函数矩阵的相关函数矩阵 R=E[R=E[xxxxTT]]bull xx 的协方差矩阵的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]bull 样本总类内离散度矩阵样本总类内离散度矩阵

特征特征提取提取

1

E ( )( ) c

Tw i i i i i i

i

S P

x μ x μ x

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 25: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 25

未知类别样本的未知类别样本的 K-LK-L变换变换 用总体样本的协方差矩阵用总体样本的协方差矩阵 CC=E[(=E[(x-x-μμ) ) ((x-x-μμ))TT]]进行进行 K-LK-L 变换变换 K-LK-L 坐标系坐标系 UU=[=[uu11uu22uudd]] 按按照照 CC 的本征值的下降次序选择的本征值的下降次序选择 例设一样本集的协方差矩阵是例设一样本集的协方差矩阵是求最优求最优 2x12x1 特征提取器特征提取器 UU解答计算特征值及特征向量解答计算特征值及特征向量 [V D]=eig(C)[V D]=eig(C)特征值特征值 D=[24736 2263]D=[24736 2263]TT 特征向量特征向量 由于由于 λλ11gtgtλλ22 故故最优最优 2x12x1 特征提取器特征提取器此时的此时的 K-LK-L 变换式为变换式为

特征特征提取提取

195 9595 75

C

0875 04820482 0875

V

108750482

U

u

1

2

0875 0482T T xU

x

y x u x

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 26: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 26

664 4 特征的选择特征的选择 特征选择 =从原始特征中挑选出一些最有代表性从原始特征中挑选出一些最有代表性分类性能最好的特征进行分类分类性能最好的特征进行分类 从从 DD个特征中选取个特征中选取 dd个个 共 种组合若不限定共 种组合若不限定特征选择个数则共特征选择个数则共 22DD种组合种组合- 典型的组合优化问题- 典型的组合优化问题 特征选择的方法大体可分两大类特征选择的方法大体可分两大类

bull FilterFilter 方法根据独立于分类器的指标方法根据独立于分类器的指标 JJ 来评价所选择来评价所选择的特征子集的特征子集 SS然后在所有可能的特征子集中搜索出使然后在所有可能的特征子集中搜索出使得得 JJ 最大的特征子集作为最优特征子集不考虑所使用最大的特征子集作为最优特征子集不考虑所使用的学习算法的学习算法bull WrapperWrapper 方法将特征选择和分类器结合在一起在学方法将特征选择和分类器结合在一起在学习过程中表现优异的的特征子集会被选中习过程中表现优异的的特征子集会被选中

dDC

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 27: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 27

经典经典特征选择算法特征选择算法 许多特征选择算法力求解决搜索问题经典许多特征选择算法力求解决搜索问题经典算法有1048708算法有1048708

bull 分支定界法分支定界法bull 单独最优特征组合法单独最优特征组合法bull顺序后退法顺序后退法bull顺序前进法顺序前进法bull 模拟退火法模拟退火法bull TabuTabu 搜索法搜索法bull遗传算法遗传算法

特征特征选择选择

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 28: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 28

单独最优特征组合单独最优特征组合 计算各特征单独使用时的可分性判据计算各特征单独使用时的可分性判据 JJ并加并加以排队取前以排队取前 dd 个作为选择结果个作为选择结果 不一定是最优结果不一定是最优结果 当可分性判据对各特征具有当可分性判据对各特征具有 (( 广义广义 ))可加性可加性该方法可以选出一组最优的特征来例该方法可以选出一组最优的特征来例

bull 各类具有正态分布各类具有正态分布bull 各特征统计独立各特征统计独立bull 可分性判据基于可分性判据基于 MahalanobisMahalanobis 距离距离

1( ) ( ) ( )TD i j i jJ x μ μ μ μ

特征特征选择选择

1 21

( ) ( )d

ij d ij kk

J x x x J x

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 29: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 29

顺序后退法顺序后退法 该方法根据特征子集的分类表现来选择特征该方法根据特征子集的分类表现来选择特征 搜索特征子集从全体特征开始每次剔除搜索特征子集从全体特征开始每次剔除一个特征使得所保留的特征集合有最大的一个特征使得所保留的特征集合有最大的分类识别率分类识别率 依次迭代直至识别率开始下降为止依次迭代直至识别率开始下降为止 用ldquo用ldquo leave-one-outrdquoleave-one-outrdquo 方法估计平均识别率方法估计平均识别率用用 N-1N-1 个样本判断余下一个的类别个样本判断余下一个的类别 NN 次次取平均取平均

特征特征选择选择

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 30: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 30

6655 讨论讨论 特征的选择与提取是模式识别中重要而困特征的选择与提取是模式识别中重要而困难的一步难的一步

bull 模式识别的第一步分析各种特征的有效性并模式识别的第一步分析各种特征的有效性并选出最有代表性的特征选出最有代表性的特征bull 降低特征维数在很多情况下是有效设计分类器降低特征维数在很多情况下是有效设计分类器的重要课题的重要课题

三大类特征物理结构和数学特征三大类特征物理结构和数学特征bull 物理和结构特征易于为人的直觉感知但难物理和结构特征易于为人的直觉感知但难于定量描述因而不易用机器判别于定量描述因而不易用机器判别bull 数学特征易于用机器定量描述和判别数学特征易于用机器定量描述和判别

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
Page 31: 模式识别理论及应用 Pattern Recognition  - Methods and Application

第六章 模式特征的选择与提取 31

习题1 1 试推导试推导 (8-6)(8-6) 式即式即

1 1 1

1( ) ( )2

c c c

i i i j i ji i j

P P P

m m m m

2 2 试由试由 (8-1)(8-1)式推导式推导 (8-5)(8-5)式即式即( )

1 1

1( ) ( ) ( )inc

id i k i i

i ki

J Pn

x x m m m

3 3 习题习题 81 81 9 9 习题习题 91 91

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31