C-Rank: 一种 Deep Web 数据记录可信度评估方法
description
Transcript of C-Rank: 一种 Deep Web 数据记录可信度评估方法
C-Rank: 一种 Deep Web 数据记录可信度评估方法
艾静 王仲远 孟小峰中国人民大学 WAMDM 实验室
http://idke.ruc.edu.cn
2
大纲• 研究背景• Deep Web 数据记录可信度评估方法
– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算
• 实验评估• 总结 & 未来工作
3
大纲• 研究背景• Deep Web 数据记录可信度评估方法
– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算
• 实验评估• 总结 & 未来工作
Deep Web 简介• Deep Web 是一个海量信息源,信息以数据记录的形式存放• Deep Web 数据库是按领域 (domain) 划分的• Deep Web 数据库之间是相互孤立的,通过查询接口访问
zhaopin.com chinahr.com 51job.com
… … … 数据记录 1数据记录 1
数据记录 2数据记录 2
数据记录 1数据记录 1
数据记录 2数据记录 2
数据记录 1数据记录 1
数据记录 2数据记录 2
Deep Web 中的信息可信性问题
zhaopin.com
51job.com
…...
chinahr.com myjob.com.cn ……
如何有效地辨别每条招聘记录的
可信度?
如何有效地辨别每条招聘记录的
可信度?
与 Deep Web 信息可信度相关的两个问题(以招聘信息领域为例)
• 用户的隐私泄露问题• 数据记录最优选择问题
6
与 Deep Web 信息可信度相关的两个问题(以招聘信息领域为例)
• 用户的隐私泄露问题• 数据记录最优选择问题
7
发布虚假招聘信息
收集简历
信息骚扰、诈骗活动!
填写信用卡申请表,
刷卡或提现!
给用户造成损失和伤害
与 Deep Web 信息可信度相关的两个问题(以招聘信息领域为例)
• 用户的隐私泄露问题• 数据记录最优选择问题
– 招聘公司的数量远远超过一名应聘者所能够了解的能力范围
8
未知情况
花费大量时间
精力
应聘者应聘者
某招聘记录对本公司的描述某招聘记录对本公司的描述
名副其实名副其实
小公司小公司
皮包公司皮包公司
Deep Web 的其他领域
网上购书 网上预订飞机票、火车票
新闻网站
?
二手物品转让
10
大纲• 研究背景• Deep Web 数据记录可信度评估方法
– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算
• 实验评估• 总结 & 未来工作
问题分析 (1)
(1) 可信度值越高的网站,其发布的数据记录的可信度值也越高;(2) Web2.0 信息共享平台、 Deep Web 数据发布平台需要与专业机构等传统的
网站平台区分开;(3) 不同数据源之间的可信度值可以通过链接相互传递;
http://www.chinahr.com/
http://campus.chinahr.com/2009/pages/cmri/main.asp
http://labs.chinamobile.com/cmri/job.php
http://www.google.cn/
http://www.google.cn/intl/zh-CN/jobs/
问题分析 (2)
12
(4) 同一数据记录在不同数据源出现次数越多,其可信度值越高。
(1) 可信度值越高的网站,其发布的数据记录的可信度值也越高;
(2) Web2.0 信息共享平台、 Deep Web 数据发布平台需要与专业机构等传统的网站平台区分开;
(3) 不同数据源之间的可信度值可以通过链接相互传递;
S-R 可信度网络 (1)• S-R 可信度网络:针对 Deep Web 中某一条记录而构造的
一个包含两种类型顶点、三种类型边的网络。
13
1rv
2rv
2sv
3sv
1sv
4rv
3rv
7rv
5rv
6rv
5sv
6sv
4sv
S-R 可信度网络 (2)
14
1rv
2rv
2sv
3sv
1sv
4rv
3rv
7rv
5rv
6rv
5sv
6sv
4sv
rv
Site 顶点:含有数据记录的网站。sv
Record 顶点:各个网站上的数据记录。
• 两种顶点:
• 三种边:内部链接边:从 Site 顶点出发,指向它所包含 Record 顶点的有向边。
外部链接边:表示记录与记录,以及记录与外部数据源之间链接关系的有向边。
实体识别边:通过实体识别技术验证,表示同一实体但属于不同数据源之间的无向边。
局部可信度值计算 (1)• 局部可信度值:在 S-R 可信度网络中,每一个 Record 顶
点的可信度值称为局部可信度值
• 基于可信度传播的思想,经过 n 次可信度值传播后的顶点可信度值,迭代计算第 n+1 次传播后顶点的可信度值: ( 1) ( ) (1 )
| |n nloc loc
dR dAR s
S
利用 PageRank 以及 ObjectRank的基本思想 , 进行可信度传播计算利用 PageRank 以及 ObjectRank的基本思想 , 进行可信度传播计算A是一个m×m的矩阵, A中的每一个元素是一条边的实际传播率A是一个m×m的矩阵, A中的每一个元素是一条边的实际传播率
局部可信值计算 (2)
• 传播率类型• 对于 S-R 图中的每一条边
– 判断它是属于哪种类型的边– 计算属于这种传播率类型的边的出度– 再计算这条边的实际传播率
• 边 ,传播率类型为 ,这条边的实际传播率为
数据源1 数据源2 数据源3 数据源4
记录1 记录2 记录3实体识别
ie ie ieoe oe oe
re
sv sv sv sv
rv rv rv
( ), ( , ) 0
( , )( )
0, ( , ) 0
iiGGii
Gk
iG
eOutDeg u e
OutDeg u ee
OutDeg u e
( )iGe ( )oGe ( )rGe
( )ike u v ( )iGe
全局可信度值计算• 全局可信度值:整个 S-R 可信度网络的可信度值,它代表
了此 S-R 网络对应的招聘记录在 Web 上的总体可信度值• 方法一:求和法
• 方法二:最大值法
• 方法三:顶点加权法
- ( - ) ( )loc iC Rank S R r v
- ( - ) max{ ( ) | 1, , }loc iC Rank S R r v i m
- ( - ) ( ) ( )nor i loc iC Rank S R v r v
优点:反映了一条记录重复出现次数越多,可信度值越高的情况缺点:无法正确处理虚假信息恶意转载
优点:反映了一条记录重复出现次数越多,可信度值越高的情况缺点:无法正确处理虚假信息恶意转载
优点:记录多次出现,有一次能够被证明可信度是非常高的,那么这条记录应该也是非常可信的缺点:无法正确处理中小型公司的招聘信息可信度问题
优点:记录多次出现,有一次能够被证明可信度是非常高的,那么这条记录应该也是非常可信的缺点:无法正确处理中小型公司的招聘信息可信度问题
优点:综合考虑了“问题分析”中的所有因素,较为真实准确缺点:权值的确定
优点:综合考虑了“问题分析”中的所有因素,较为真实准确缺点:权值的确定
18
大纲• 研究背景• Deep Web 数据记录可信度评估方法
– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算
• 实验评估• 总结 & 未来工作
实验设置• 目的:验证 C-Rank 方法的有效性与合理性
• 数据集获得:– 我们使用 Jobtong (一个工作信息领域的数据集成原
型系统)从 Deep Web 数据源中爬取招聘信息记录– 用 Jobtong取到任意的 900 条不同的招聘记录– 手工加入 100 条不可信的招聘记录
• 将计算的可信度值标准化为 [0,1] 区间内的值
19
记录可信度分布散点图
20
0
0.2
0.4
0.6
0.8
1
0 100 200 300 400 500 600 700 800 900 1000
招聘信息记录
可信度值
不同可信度等级的记录数
21
0
50
100
150
200
250
300
350
400
450
1 2 3 4 5
可信度等级
记录数量
可信度值平均分为 5 个区间: [0, 0.2), [0.2, 0.4),……, [0.8, 1]
用户对于记录可信度分值的评价结果
22
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10
合理
偏高
偏低
不合理
用户
记录数量
10 名用户评价的平均合理率达到 94.2% ,而认为偏高或偏低的记录只占 1.8% 及 2.7% ,认为不合理的记录仅占 1.3%
23
大纲• 研究背景• Deep Web 数据记录可信度评估方法
– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算
• 实验评估• 总结 & 未来工作
总结 & 未来工作• 本文提出了一种基于传播机制的 Deep Web 数据记录可信
度评估方法• 该方法为每一条记录构造一个 S-R 可信度网络• 通过计算 S-R 网络的局部可信度值以及全局可信度值得到
Deep Web 数据记录的可信度值• 未来搜索引擎:按相关度排序 / 按可信度排序• 未来扩展工作
– 考虑实体识别中不准确因素所导致的 S-R 可信度网络中的噪音– 不仅仅考虑链接关系所产生的可信度传播,还需要考虑数据质量
问题
24
谢谢
Q&A