1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学)....
-
Upload
phillip-harmon -
Category
Documents
-
view
287 -
download
0
Transcript of 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学)....
1
基于 LCA分块算法的大学科研人员信息抽取
报告人:易晨辉(武汉大学)
2
研究背景
信息网模型数据库( Information Networking Model DBMS )
“ 天罗地网”科研机构与人员信息搜索引擎
学院网站等公开渠道获取科研人员信息
学院首页 -> 人员页面
人员列表页面及个人主页信息抽取
生成结构化数据放入网站数据库
网页分块 分块结果对齐
3
网页分块方法
基于 DOM 树结构的相似性
基于视觉特征
基于标签树路径
• 模仿人的视觉分析• 难以设置统一规则
• 现有文献证明在 Deep Web 中测试结果较好• 大学人员页面通常不是 Deep Web
• 经典的 Mining Data Records ( MDR )算法• 前提是 Data Records 之间树结构相似• 人员页面中修饰与冗余部分会极大影响相似性
基于上下文语义分析 • 针对无结构化数据,需要上下文语义• 人员页面通常是离散型的半结构化页面
4
对 MDR 算法的改进动机
不论自顶向下与自底向上, MDR 的主要局限在于修饰与冗余的树节点
跳过无效的修饰与冗余节点
从有效的文本叶子节点向上搜索祖先节点
遇到无效节点继续向上搜索祖先节点
两个有效叶子节点向上搜索到公共祖先并属于公共祖先的不同子树
这些子树即类似 MDR 算法中的 Data Records
5
LCA 概念与语义相关区域
Lowest Common Ancestor ( LCA ): 对于有根树 T 的两个结点 u 、 v ,最近公共祖先 LCA(T,u,v) 表示一个结点 x ,满足 x 是 u 、 v 的祖先且 x 的深度尽可能大。
<div> <div>… … …
…
…
Text3
<li>
Text4
<li>
<ul>
…
<div>
<div> <div>
…
<ul>
…
Text1 Text2
<li> <li>
<ul>
Text5 Text6
<div>
<li>
Text7
<body> t1
t5
t2 t3
t4
t6 <ul><ul>
<a> <a>
<a> <a>
<a> <a> <a>
<li> <li>
通过 LCA 划分页面的语义相关区域:
6
基于 LCA 的页面初步分割
• 基本语义块 ( Basic Semantic Blocks )
• 有效语义块 ( Effective Semantic Blocks )
单条文本信息所属的最小语义区域
• 以单个人员为核心找到包含其信息的最大区域
• 类似 MDR 算法中的 Data Records• 可以容忍嵌套包含其他人员信息的情
况为适用于强异构性的大量页面,不采用 Data Region 包含 Data Records 的严格两层划分,而采用有效语义块这种较灵活的方式
7
半结构化人员信息的基本格式关系信息的逻辑结构
属性信息的逻辑结构
• 关系前导词后挂载其映射的所有人员名字
Rel Name_Block Name_Block • 关系前导词后挂载一个人员、一块人员、多块人员或者嵌套出现的人员块,在逻辑结构上都可认为是“ rel : Name_Block” 形式。
NameAttr AttrAttr Attr• 一条人员记录包含了一个人
员的名字信息及其属性信息
• 属性信息可以是属性名、属性值以及并不属于单文本叶子节点的个人图片等
8
有效语义块的边界识别及对齐关系信息对齐
属性信息对齐
Name Block
rel Name_Block Name_Block
rel Name_Block…
rel(可缺省)
人名块形式的对齐方式
rel3
Name Block3Name Block1
…
Rel Table
rel4 …rel1 Name Block2 …
………
rel2 Name Block4
rel(可缺省)
…
关系表形式的对齐方式
Cards
imageAttr_Name
name
…
Attr_Name
Attr_Value
imageAttr_Name
nameAttr_Value
…
Attr_Name Attr_Value
…
rel(可缺省)imageAttr_Name
name
…
Attr_Name
Attr_Value
imageAttr_Name
nameAttr_Value
…
Attr_Name Attr_ValueAttr_Name1
namename
…
Attr Table
Attr_Name2 …Attr_Value Attr_Value …
……Attr_Value
rel(可缺省)
…Attr_Value…
卡片形式的对齐方式 属性表形式的对齐方式
9
实验结果及未来工作
• 大量真实人员页面中,仍有较高准确率与召回率• 有效克服了页面中修饰与冗余部分的干扰
• 数据集: 8 所中国大学, 245 个学院, 1641 个人员列表页面
网站 demo :http://rose.whu.edu.cn/tldw
• 未来需要在现有的数据基础上进行语义分析及对象关系提取,进而构造更加完善的学术关系网络
10
Q & A
PPT 模板下载: www.1ppt.com/moban/ 行业 PPT 模板: www.1ppt.com/hangye/ 节日 PPT 模板: www.1ppt.com/jieri/ PPT 素材下载: www.1ppt.com/sucai/PPT 背景图片: www.1ppt.com/beijing/ PPT 图表下载: www.1ppt.com/tubiao/ 优秀 PPT 下载: www.1ppt.com/xiazai/ PPT 教程: www.1ppt.com/powerpoint/ Word教程: www.1ppt.com/word/ Excel 教程: www.1ppt.com/excel/ 资料下载: www.1ppt.com/ziliao/ PPT 课件下载: www.1ppt.com/kejian/ 范文下载: www.1ppt.com/fanwen/ 试卷下载: www.1ppt.com/shiti/ 教案下载: www.1ppt.com/jiaoan/
11
谢谢!
PPT 模板下载: www.1ppt.com/moban/ 行业 PPT 模板: www.1ppt.com/hangye/ 节日 PPT 模板: www.1ppt.com/jieri/ PPT 素材下载: www.1ppt.com/sucai/PPT 背景图片: www.1ppt.com/beijing/ PPT 图表下载: www.1ppt.com/tubiao/ 优秀 PPT 下载: www.1ppt.com/xiazai/ PPT 教程: www.1ppt.com/powerpoint/ Word教程: www.1ppt.com/word/ Excel 教程: www.1ppt.com/excel/ 资料下载: www.1ppt.com/ziliao/ PPT 课件下载: www.1ppt.com/kejian/ 范文下载: www.1ppt.com/fanwen/ 试卷下载: www.1ppt.com/shiti/ 教案下载: www.1ppt.com/jiaoan/