1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学)....

11
1 基基 LCA 基基基基基基基基基基基基 基基基 报报报 报报报报 报报报报报 :()

Transcript of 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学)....

Page 1: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

1

基于 LCA分块算法的大学科研人员信息抽取

报告人:易晨辉(武汉大学)

Page 2: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

2

研究背景

信息网模型数据库( Information Networking Model DBMS )

“ 天罗地网”科研机构与人员信息搜索引擎

学院网站等公开渠道获取科研人员信息

学院首页 -> 人员页面

人员列表页面及个人主页信息抽取

生成结构化数据放入网站数据库

网页分块 分块结果对齐

Page 3: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

3

网页分块方法

基于 DOM 树结构的相似性

基于视觉特征

基于标签树路径

• 模仿人的视觉分析• 难以设置统一规则

• 现有文献证明在 Deep Web 中测试结果较好• 大学人员页面通常不是 Deep Web

• 经典的 Mining Data Records ( MDR )算法• 前提是 Data Records 之间树结构相似• 人员页面中修饰与冗余部分会极大影响相似性

基于上下文语义分析 • 针对无结构化数据,需要上下文语义• 人员页面通常是离散型的半结构化页面

Page 4: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

4

对 MDR 算法的改进动机

不论自顶向下与自底向上, MDR 的主要局限在于修饰与冗余的树节点

跳过无效的修饰与冗余节点

从有效的文本叶子节点向上搜索祖先节点

遇到无效节点继续向上搜索祖先节点

两个有效叶子节点向上搜索到公共祖先并属于公共祖先的不同子树

这些子树即类似 MDR 算法中的 Data Records

Page 5: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

5

LCA 概念与语义相关区域

Lowest Common Ancestor ( LCA ): 对于有根树 T 的两个结点 u 、 v ,最近公共祖先 LCA(T,u,v) 表示一个结点 x ,满足 x 是 u 、 v 的祖先且 x 的深度尽可能大。

<div> <div>… … …

Text3

<li>

Text4

<li>

<ul>

<div>

<div> <div>

<ul>

Text1 Text2

<li> <li>

<ul>

Text5 Text6

<div>

<li>

Text7

<body> t1

t5

t2 t3

t4

t6 <ul><ul>

<a> <a>

<a> <a>

<a> <a> <a>

<li> <li>

通过 LCA 划分页面的语义相关区域:

Page 6: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

6

基于 LCA 的页面初步分割

• 基本语义块 ( Basic Semantic Blocks )

• 有效语义块 ( Effective Semantic Blocks )

单条文本信息所属的最小语义区域

• 以单个人员为核心找到包含其信息的最大区域

• 类似 MDR 算法中的 Data Records• 可以容忍嵌套包含其他人员信息的情

况为适用于强异构性的大量页面,不采用 Data Region 包含 Data Records 的严格两层划分,而采用有效语义块这种较灵活的方式

Page 7: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

7

半结构化人员信息的基本格式关系信息的逻辑结构

属性信息的逻辑结构

• 关系前导词后挂载其映射的所有人员名字

Rel Name_Block Name_Block • 关系前导词后挂载一个人员、一块人员、多块人员或者嵌套出现的人员块,在逻辑结构上都可认为是“ rel : Name_Block” 形式。

NameAttr AttrAttr Attr• 一条人员记录包含了一个人

员的名字信息及其属性信息

• 属性信息可以是属性名、属性值以及并不属于单文本叶子节点的个人图片等

Page 8: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

8

有效语义块的边界识别及对齐关系信息对齐

属性信息对齐

Name Block

rel Name_Block Name_Block

rel Name_Block…

rel(可缺省)

人名块形式的对齐方式

rel3

Name Block3Name Block1

Rel Table

rel4 …rel1 Name Block2 …

………

rel2 Name Block4

rel(可缺省)

关系表形式的对齐方式

Cards

imageAttr_Name

name

Attr_Name

Attr_Value

imageAttr_Name

nameAttr_Value

Attr_Name Attr_Value

rel(可缺省)imageAttr_Name

name

Attr_Name

Attr_Value

imageAttr_Name

nameAttr_Value

Attr_Name Attr_ValueAttr_Name1

namename

Attr Table

Attr_Name2 …Attr_Value Attr_Value …

……Attr_Value

rel(可缺省)

…Attr_Value…

卡片形式的对齐方式 属性表形式的对齐方式

Page 9: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

9

实验结果及未来工作

• 大量真实人员页面中,仍有较高准确率与召回率• 有效克服了页面中修饰与冗余部分的干扰

• 数据集: 8 所中国大学, 245 个学院, 1641 个人员列表页面

网站 demo :http://rose.whu.edu.cn/tldw

• 未来需要在现有的数据基础上进行语义分析及对象关系提取,进而构造更加完善的学术关系网络

Page 10: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

10

Q & A

PPT 模板下载: www.1ppt.com/moban/ 行业 PPT 模板: www.1ppt.com/hangye/ 节日 PPT 模板: www.1ppt.com/jieri/ PPT 素材下载: www.1ppt.com/sucai/PPT 背景图片: www.1ppt.com/beijing/ PPT 图表下载: www.1ppt.com/tubiao/ 优秀 PPT 下载: www.1ppt.com/xiazai/ PPT 教程: www.1ppt.com/powerpoint/ Word教程: www.1ppt.com/word/ Excel 教程: www.1ppt.com/excel/ 资料下载: www.1ppt.com/ziliao/ PPT 课件下载: www.1ppt.com/kejian/ 范文下载: www.1ppt.com/fanwen/ 试卷下载: www.1ppt.com/shiti/ 教案下载: www.1ppt.com/jiaoan/

Page 11: 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS )

11

谢谢!

PPT 模板下载: www.1ppt.com/moban/ 行业 PPT 模板: www.1ppt.com/hangye/ 节日 PPT 模板: www.1ppt.com/jieri/ PPT 素材下载: www.1ppt.com/sucai/PPT 背景图片: www.1ppt.com/beijing/ PPT 图表下载: www.1ppt.com/tubiao/ 优秀 PPT 下载: www.1ppt.com/xiazai/ PPT 教程: www.1ppt.com/powerpoint/ Word教程: www.1ppt.com/word/ Excel 教程: www.1ppt.com/excel/ 资料下载: www.1ppt.com/ziliao/ PPT 课件下载: www.1ppt.com/kejian/ 范文下载: www.1ppt.com/fanwen/ 试卷下载: www.1ppt.com/shiti/ 教案下载: www.1ppt.com/jiaoan/