基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet...

37
基基 Dirichlet 基基基基基基基基基基基基基基 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model 王王 王王王 王王王 王王王王王王

description

基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model. 王婵 王小捷 袁彩霞 北京邮电大学. 大纲. 引言 基于 DPMM 的自适应话题追踪 基于 DPMM 的传统话题追踪 实验及结果分析 结论. 大纲. 引言 基于 DPMM 的自适应话题追踪 基于 DPMM 的传统话题追踪 实验及结果分析 结论. 引言. 话题识别与追踪( TDT ):有效的信息组织和加工手段 话题跟踪: TDT 的一个子任务 - PowerPoint PPT Presentation

Transcript of 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet...

Page 1: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

基于Dirichlet 过程混合模型的自适应话题追踪

Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

王婵 王小捷 袁彩霞北京邮电大学

Page 2: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

大纲• 引言• 基于 DPMM 的自适应话题追踪• 基于 DPMM 的传统话题追踪• 实验及结果分析• 结论

Page 3: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

大纲• 引言• 基于 DPMM 的自适应话题追踪• 基于 DPMM 的传统话题追踪• 实验及结果分析• 结论

Page 4: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

引言• 话题识别与追踪( TDT ):有效的信息组织和加工手段• 话题跟踪: TDT 的一个子任务

– 针对给定待测话题,判断后续报道是否和待测话题相关,从而不断获取待测话题的相关报道流来丰富这些待测话题的信息

• 一般实现流程:– 报道 / 话题的模型化– 相关度计算– 相关度比较

Page 5: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

引言• 传统话题追踪( TTT ):

– 根据已有的种子报道进行话题建模,建成后的话题模型在追踪过程中保持不变

• 话题漂移现象:– 种子报道少量– 话题是逐渐进展的:随着时间发展,同一话题的内容逐渐丰富,

焦点也会逐渐转移 • 自适应话题跟踪( ATT ) :

– 根据相关报道更新话题模型,更新后的话题模型作为判断后续报道相关性的基础,从而实现话题跟踪的自学习功能

Page 6: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

引言• 更新手段

– 为话题模型嵌入新的相关特征– 动态调整话题模型的特征权重– 同时进行

• 优点– 一定程度上削弱由种子报道数量有限而造成的话题模型不完整

• 缺点– 跟踪反馈同时包含相关报道和不相关报道,已有自适应方法的学

习过程就会将不相关信息也嵌入话题模型。新的话题模型因为包含过多不相关信息,已经偏离了待测话题的内容,从而导致话题偏离现象

• 基于可信度的自适应话题追踪模型– 利用“可信度”的度量参数控制跟踪反馈的影响

Page 7: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

引言• 本文工作:

– 一种基于有效结合待测话题信息的 DPMM 的自适应话题追踪方案• 特点:

– 利用 DPMM 估计报道和待测话题的相关度,使其适用于话题追踪任务

– 通过一种新的自适应学习机制,不仅有效地解决了话题漂移问题,并且可以有效地抑制已有自适应算法带来的话题偏离现象

Page 8: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

大纲• 引言• 基于 DPMM 的自适应话题追踪• 基于 DPMM 的传统话题追踪• 实验及结果分析• 结论

Page 9: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

基于 DPMM 的 ATT

• 计算待处理报道 S 和待测话题 Zi 的相关度 ( 一元语言模型 )

( 2 )

• 使用 DPMM 估计参数 P(Zi) 和 P(wj|Zi)

• DPMM 图模型:

)(})|({)(})(

)|({

)(

)()|()|( i

Swiji

Sw j

ijiii ZPZwPZP

wP

ZwP

SP

ZPZSPSZP

jj

φ

Z

β

N

θ

α

w

Page 10: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

GIBBS 抽样

• 利用 Gibbs 抽样实现模型参数的推理 – wj :待处理文本中的第 j 个特征,对应的话题标记为 Zj 。根据贝叶斯理

论,可以得到对 Zj 抽样所使用的条件分布公式:

(3)– W-: 除去 wj 以外的特征– 已知其他特征的话题的前提下, wj 属于一个已有的话题或者新话题的先

验满足:

(4)– 话题生成特征 wj 的概率满足

(5)

),|()|(),|( WZwPZZPWZZP jjj

otherwisen

ifZzZP

zj ,

zz , {)|(

,

new

zwj nWZwwP ,),|(

Page 11: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 模型描述

• 自适应机制– 为了防止话题偏离,由种子报道建立的初始话题模型保持不变。本文为

跟踪反馈赋予一个“可信度”的度量参数,用 M_reli表示。在 ATT 实现过程中,初始话题模型和跟踪反馈在设定的可信度条件下同时影响报道与待测话题的相关度计算。

• 基本思路– 扩展 DPMM ,在进行话题追踪的过程中考虑跟踪反馈的影响。

Page 12: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 模型描述

• ATT 图模型– 引入参数:指导信息; St : t 时刻处理的报道 ; GIt : t 时刻对模型的指

导信息; GI0 :待测话题的种子报道构成的先验信息

– 生成过程和 DPMM 的区别:模型假设 θ 和 φ受到 GIt 的影响。 GIt 和 St

的处理结果共同决定 t+1 时刻的指导信息 GIt+1

– 指导信息包含两个部分:待测话题的种子报道构成的先验知识和跟踪反馈。在 ATT 模型中,它们分别以不同的方式指导话题追踪过程

……

β ββ

Z

Nt

θ

α

w

φ

GIt

Z

Nt+1

θ

α

w

φ

GIt+1

Z

Nt-1

θ

α

w

φ

GIt-1……

Page 13: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

• 首先为每个待测话题 Zi创建一个对应的话题 Zi+

• Col_ Zi+ : 跟踪反馈中,话题 Zi 相关报道的集合。

– 话题追踪开始前, Col_ Zi+ 是空集

Page 14: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

t 时刻,话题追踪的具体实现流程:1. 改进 Gibbs 抽样过程,使其进行参数

推理时融入待测话题信息,从而实现了融入话题先验知识的 DPMM 建模。

a. 随机初始化

b. 基于话题先验知识的 Gibbs 抽样

Page 15: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

•基于话题先验知识的 Gibbs 抽样

抽样过程考虑待测话题的先验知识对当前特征的影响

(6)

n-,z : St 对应的特征集合中,除去当前特征以外,话题 z 包含的特征个数

Col_z: 包含的报道对应的特征集合

nCol_z: : Col_z 包含的特征个数

(7)

nw,z : St 对应的特征集合中,除去当前特征以外, z,w 关联的次数

nw,Col_z: : Col_z 包含 w 的个数

otherwisenn

ifZzZP

zcolzj ,

zz , {)|(

_,

new

zcolwzwj nnWZwwP _,,),|(

Page 16: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

t 时刻,话题追踪的具体实现流程:1. 改进 Gibbs 抽样过程,使其进行参数

推理时融入待测话题信息,从而实现了融入话题先验知识的 DPMM 建模。

a. 随机初始化 b. 基于话题先验知识的 Gibbs 抽样c. 达到稳定状态,抽样结束

Page 17: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

t 时刻,话题追踪的具体实现流程:1. 改进 Gibbs 抽样过程,使其进行参数

推理时融入待测话题信息,从而实现了融入话题先验知识的 DPMM 建模。

a. 随机初始化 b. 基于话题先验知识的 Gibbs 抽样c. 达到稳定状态,抽样结束

通过改进,每一次抽样都受到话题先验知识的影响。因此, DPMM 建模过程中融入了待测话题的先验知识,从而实现了指导信息中的待测话题先验知识对话题追踪的指导。

通过改进,每一次抽样都受到话题先验知识的影响。因此, DPMM 建模过程中融入了待测话题的先验知识,从而实现了指导信息中的待测话题先验知识对话题追踪的指导。

Page 18: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

1)步得到 St 的特征 - 话题信息2. 将对应话题 Zi

+ 加入待测话题集合,{Z1,…, Zk , Z1

+,…, Zk +} 。特征 - 话题到

St - 话题的转化计算 a. 估计式( 2 )中的参数: P(Zi) 和 P(wj

|Zi)

Page 19: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

•估计式( 2 )中的参数: P(Zi) 和 P(wj|Zi)

借鉴公式( 7 )

(8)

Nw,z : 抽样结束后, St 对应的特征集合中,话题 z 包含 w 的个数

nw,Col_z:: Col_z 包含 w 的个数

(9)

Nz : 抽样结束后, St 对应的特征集合中,话题 z 包含特征的个数

nCol_z:: Col_z 所有特征的数目

iZcoljwij

nNZwP Zwij _ , ,)|(

ii ZcolZi nNZP _)(

Page 20: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

1)步得到 St 的特征 - 话题信息2. 将对应话题 Zi

+ 加入待测话题集合,{Z1,…, Zk , Z1

+,…, Zk +} 。特征 - 话题到

St - 话题的转化计算 a. 估计式( 2 )中的参数: P(Zi) 和 P(wj

|Zi)

b. 联合公式( 2 ) , ( 8 )和( 9 )计算报道 St 和每个话题的相关度

Page 21: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

•联合公式( 2 ) , ( 8 )和( 9 )计算报道 St 和每个话题的相关度 : {p(Z1 | S t),…, p(Zk |S t) , p(Z1

+ | St),…, p(Zk + | St)} 。

• St 和已知待测话题 Zi 的相关度p_Adaptive(Zi |S t)的衡量公式为

(10)

M_reli :跟踪反馈的可信度 初始话题模型是依赖先验知识建立的,而跟踪反馈可能包含不相关报道, M_reli<0.5

)|(*_)|(*)_1(

)|(_

SZPreliMSZPreliM

SZAdaptiveP

ii

i

Page 22: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

1)步得到 St 的特征 - 话题信息2. 将对应话题 Zi

+ 加入待测话题集合,{Z1,…, Zk , Z1

+,…, Zk +} 。特征 - 话题到

St - 话题的转化计算 a. 估计式( 2 )中的参数: P(Zi) 和 P(wj

|Zi)

b. 联合公式( 2 ) , ( 8 )和( 9 )计算报道 St 和每个话题的相关度

依据公式( 10 ),本步实现了指导信息中的跟踪反馈对话题追踪的指导

依据公式( 10 ),本步实现了指导信息中的跟踪反馈对话题追踪的指导

Page 23: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 算法流程

报道

改进Gibbs抽样

转化计算

特征→话题

话题

报道→话题

{Z1,…,Zi,…,Zk}

{Z1+,…,Zi

+,…,Zk+}

3. 选取相关度最大的话题作为 St 所属的话题, St 加入到所属话题对应的相关报道集合中。

• 如果 St和新话题的相关度最大,则与任何一个待测话题都不相关。

Page 24: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

大纲• 引言• 基于 DPMM 的自适应话题追踪• 基于 DPMM 的传统话题追踪• 实验及结果分析• 结论

Page 25: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

基于 DPMM 的 TTT

• 基于 DPMM 的 ATT 图模型,取消跟踪反馈的指导作用,就可以得到基于 DPMM 的 TTT 图模型

Z

N

θ

α

w

φ

β

GI

• 指导信息 GI 仅仅包含由待测话题种子报道所构成的先验知识,并一直保持不变

Page 26: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

大纲• 引言• 基于 DPMM 的自适应话题追踪• 基于 DPMM 的传统话题追踪• 实验及结果分析• 结论

Page 27: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

实验及结果分析• 评价机制

– TDT评测指标:误报率和漏报率加权求和的检测错误开销 CDet

• 实验数据– TDT3 语料中的中文语料

• 实验设置– 种子报道个数为 1– 实验分为两部分 :

• TTT 性能评测• ATT 性能评测

– 四种特征选择方式• term_c :实义词组成• term_n+v :名词和动词• term_n :名词• term_v :动词

Page 28: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

TTT 性能评测

• 考察 DPMM 中的参数和不同的特征表示方式对话题追踪模型( D_TTT )的影响

11

α值变化时, term_v、 term_c、 term_n+v、 term_n系统的值分别集中在 [0.81, 0.85]、 [0.40,0.43]、 [0.37,0.40]、 [0.30,0.34]之间。这个结果说明了在固定特征选择方式的条件下, DPMM 的模型参数的变化对 D_TTT系统效果的影响很小

Page 29: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

TTT 性能评测

• 考察 DPMM 中的参数和不同的特征表示方式对话题追踪模型( D_TTT )的影响

22

在不同的特征表示方式中, term_n效果最好( 0.3095), term_v( 0.8135)效果最差, term_c( 0.4014)和 term_n+v( 0.3789)介于二者之间。由此可知,仅仅使用动词很难表征报道内容,同时验证了优化特征选择算法对提高话题追踪的效果有很大的帮助。

Page 30: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

TTT 性能评测

• 对比基于一元语法模型的 TTT 模型( B_TTT )和基于DPMM 的 TTT 模型( D_TTT )的话题追踪效果

11 B_TTT 和 D_TTT系统都在仅仅选择动词作为特征的时候效果最差。这一结论再次验证文本特征选择在话题追踪中的重要性

Page 31: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

TTT 性能评测

• 对比基于一元语法模型的 TTT 模型( B_TTT )和基于DPMM 的 TTT 模型( D_TTT )的话题追踪效果

22

在四种特征选择条件下, D_TTT 系统追踪效果都优于 B_TTT 系统。最佳性能:

• D_TTT: 0.3095 ; B_TTT: 0.3989将 DPMM应用到话题追踪任务中来可以提高话题追踪的效果

Page 32: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 性能评测

• 考察基于 DPMM 自适应话题追踪模型( D_ATT )在不同可信度前提下的效果。选取名词为特征。– 红点: D_TTT系统的最佳追踪性能( 0.3095 )

11

M_reli<0.5, D_ATT 系统追踪性能都优于 D_TTT 系统M_reli=0.2,最佳性能( 0.1599)验证了本文提出的 ATT算法可以在一定程度上解决话题漂移问题

Page 33: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 性能评测

• 考察基于 DPMM 自适应话题追踪模型( D_ATT )在不同可信度前提下的效果。选取名词为特征。– 红点: D_TTT系统的最佳追踪性能( 0.3095 )

22

M_reli>0.5, D_ATT追踪代价明显增大,甚至远大于 D_TTT的追踪代价。

• 原因:参考公式( 10) ,初始话题模型以( 1-M_reli)的程度,跟踪反馈以M_reli的程度影响追踪结果。初始话题模型是依赖先验知识建立的,所以是绝对可以信赖的,而跟踪反馈可能包含不相关报道。因此一旦大于 0.5,跟踪反馈的影响因子比初始话题模型的大,那么会带来最终结果的误差。

Page 34: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

ATT 性能评测

• 验证自适应算法的有效性,本节利用一种经典的自适应算法作为对比系统( B_ATT系统):话题模型嵌入新的相关特征

11

D_ATT 系统追踪效果优于 B_ATT 系统,使得追踪系统最小从 0.2260 降为 0.1599。验证了本文提出的自适应算法的有效性,可以抑制一般自适应算法带来的话题偏离现象。

系统类型 B_ATT D_ATT

最佳性能 0.2260 0.1599

Page 35: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

大纲• 引言• 基于 DPMM 的自适应话题追踪• 基于 DPMM 的传统话题追踪• 实验及结果分析• 结论

Page 36: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

结论• 工作:

– 提出了一种基于有效结合待测话题信息的 Dirichlet 过程混合模型( DPMM )的自适应话题追踪方案

• 方案特点1. 利用 DPMM 估计报道和待测话题的相关度,实现话题追踪任务

实验验证 DPMM 适用于话题追踪,可以显著提高话题追踪性能。2. 提出一种新的基于可信度的自适应话题追踪算法

初始话题模型没有被嵌入不相关信息,通过设置可信度的大小,始终以比较大的影响因子影响最终话题追踪的结果,因此能够降低不相关报道反馈带来的误差

实验验证不仅可以在一定程度上解决了话题追踪任务中的话题漂移问题,并且可以有效地抑制已有自适应算法带来的话题偏离现象

Page 37: 基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

•谢谢 !