中国分类主题词表网络化研究与关联 数据建设实践 … › bianmu › download › 2016 › piaosq.pdf中国分类主题词表网络化研究与关联 数据建设实践
理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
-
Upload
marcia-zeng -
Category
Technology
-
view
179 -
download
7
description
Transcript of 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
理解和利用关联数据--图情档博( LAM)作为关联数据的提供者和消费者
Marcia Lei Zeng 曾蕾Kent State University
关联数据技术与应用专题研讨班2012.07.20-23, 上海图书馆
1 个目的:关联将数据从 silo 中解放出来,通过关联得到最大利用,再利用,产生新的数据、信息、知识
Image: Slide from T.B.Lee at TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009
2
需要回答的 2 种问题这个 thing 是什么?
(属性 - 值)
这个 thing 是什么?
(属性 - 值)
这个 thing 和别的 thing 有什么
关系?
这个 thing 和别的 thing 有什么
关系?
3这 2 种问题的答案
都可以用 3 段式( triples )来描述这个 thing 是什么?
(属性 - 值)
这个 thing 是什么?
(属性 - 值)
[属性] [值]名字: 姚明 @zh名字: Yao Ming@en出生日期: 1980 - 09 -12身高: 7' 6" (2.29 m)效力球队: 上海大鲨鱼效力球队: 休斯顿火箭出身地: 上海退役时间: 2011 - 07 -20获奖: 。。。 。。。参赛: 。。。 。。。RDF triples:
主体 - 谓词 - 客体( subject-predicate-object )结构
这个 thing 和别的 thing 有什么
关系?
这个 thing 和别的 thing 有什么
关系?
[属性] [值]名字: 姚明 @zh名字: Yao Ming@en出生日期: 1980 - 09 - 12身高: 7' 6" (2.29 m)效力球队: 上海大鲨鱼效力球队: 休斯顿火箭出身地: 上海退役时间: 2011 - 07 - 20获奖: NBA All-Star奖牌: 2002 亚运会银牌
这里面有多少是独立的 thing ?
( 有自己的属性)
这里面有多少是独立的 thing ?
( 有自己的属性)
如果我们将能独立的 thing 都用特定的 ID来表示,就可以产生无歧义的 3 段式
[属性] [值]名字: 姚明 @zh名字: Yao Ming@en出生日期: 1980 - 09 - 12身高: 7' 6" (2.29 m)效力球队: 上海大鲨鱼效力球队: 休斯顿火箭出身地: 上海退役时间: 2011 - 07 - 20获奖: NBA All-Star奖牌: 2002 亚运会银牌
ex :shsharkex : htrockets
ex : shanghai
ex :NBA_AllStar
ex:yaomingex:yaoming
ex:yaominglabel: 姚明
ex:yaoming draftTeam: ex:htrockets
ex:yaomingbirthPlace: ex:shanghai
ex:yaoming award: ex:NBA_AllStar
ex:yaomingex:yaoming
ex:yaomingex:yaoming
ex:yaomingex:yaoming
ex:yaomingex:yaoming
RDF triples: 主体 - 谓词 - 客体( subject-predicate-object )结构
一个 3 段式能回答什么问题?
ex:yaominglabel: ?
ex:yaoming ? ex:htrockets
ex:yaomingbirthPlace: ex:shanghai
ex:yaoming award: ex:NBA_AllStar
ex:yaomingex:yaoming
ex:yaomingex:yaoming
??? ???
??? ???
这个人叫什么名字?
这个人与休斯顿火箭队是什么关系?
上海是哪些[名]人的出身地?
NBA All Star 的名单上都有哪些人?
3 段式中的客体部分也能变为主体么?
能由之再产生新的 3 段式么?ex:yaoming
label: ?
ex:yaoming ? ex:htrockets
ex:yaomingbirthPlace: ex:shanghai
ex:yaoming award: ex:NBA_AllStar
ex :yaomingex :yaoming
ex :yaomingex :yaoming
??? ???
??? ???
关于上海这个城市,你能想到的属性和值有哪些?
其中又有哪些客体是可以辨识的 thing ?
图示 1. thing 的描述和无限联接
subjects predicates subjectsobjects
predicates objects
17
3
3
1
2
1 2
Backgroud image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you need to know. OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06.
Image source: Dan Brickley http://farm4.static.flickr.com/3613/3384528143_8304792836_b.jpg
图示 2. 联接的内容是来自不同资源的
注意:•是格式化数据的相联,不是文本的相联;•是机器可理解和可处理的数据;•是对现有数据的再利用;•产生新的资源;其又被利用、再利用•可无限扩展下去
四项基本原则:
1. 使用 URI 作为任何事物的标识名称– Use URIs as names for things
2. 使用 HTTP URI 使任何人都可以访问名称– Use HTTP URIs so that people can look up those
names
3. 当有人访问名称时,提供有用的 [rdf] 信息– When someone looks up a name, provide useful
information
4. 尽可能提供相关的 URI 以使人们发现更多的信息– Include links to other URIs so that they can
discover more things
Translated by Liu Wei, 2008 12
http://www.w3.org/DesignIssues/LinkedData.html
1
2 3
1. 使用 URI 作为任何事物的标识名称
2. 使用 HTTP URI 使任何人都可以访问名称
3. 当有人访问名称时,提供有用的 [rdf] 信息
4. 尽可能提供相关的 URI以使人们发现更多的信
息
Source: dbpedia
机器可理解、可处理
http://dbpedia.org/page/Yao_Minghttp://dbpedia.org/page/
Shanghai_Sharks
<RDF:RDF> <RDF:Description RDF:HREF=”http://dbpedia.org/page/Yao_Ming”> < dbpprop:president
rdf:resource= "http://dbpedia.org/page/Shanghai_Sharks"> </RDF:Description></RDF:RDF>
取出其中一截,其结构是:
RDF triples
12
3
1
2
3
thingproperties values
is president of
只要遵循有 URI 命名, HTTP 途径,凡是有可能的地方对联接的 properties 合理管理,则可以被考虑为关联数据。
•这是一种为 Web 所用的含义更丰富的联结方式,使我们从超文本链接(文献到文献)发展到超数据的联结(文献中所讨论的内容资源( thing) 的联结) ;•人们可以通过 HTTP/URI 机制,直接获得数字资源(Thing) 。
Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html参考刘炜 2008-12 的翻译
相对于传统的图书馆数据来说,关联的图书馆数据有如下优点
• Shareable 可分享– 不管谁都能解析的唯一标识- URI– 可信赖的数据和元数据供大家使用
• Extensible 可无限伸展– “ 无边无际的世界” - 没有什么描述是完成了的,任何人都可
以从他自己发布的空间添加描述信息
• Re-usable 可再利用– 各种来源的描述谈的是同样的 thing – 完善、加注、等等
• Internationalizable 国际化– 多语种、翻译等都没有问题– 自然语言词串( strings )不被用来指代 things 。
This slide is based on a summary prepared by Antoine Isaac, for Talis Linked Data and Libraries day, London, July 14th 2011;built on the W3C Library Linked Data Incubator Group Final Report, draft
李爵士在提出关联数据时借用过这样一个五星排行表: From InkDroid, a nice summary (and CSS) of the star scheme
★ make your stuff available on the web (whatever format) 把你的东西发布在网上(以任何格式)
★★ make it available as structured data (e.g. excel instead of image scan of a table)
把你的东西变成有结构的数据 ( excel 格式的表格而不是扫描的图像)
★★★ non-proprietary format (e.g. csv instead of excel) 非商家格式,(如 csv 而不是 excel )
★★★★ use URLs to identify things, so that people can point at your stuff
用 URLs 来指代和辨识事物,这样别人就能指点到你的东西 ★★★★★ link your data to other people’s data to provide context
将你的数据联到其他人的 数据 -- http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006
04/10/23 20
网上有很多数据资源和知识组织系统•网上开放•机器可读 •非专属权格式(html, xml)
★★★★★★
越来越多 4 星级的数据集和知识组织系统• 采用了 RDF 标准
• 用 URI指代名称• 数据用三段式 triples 发布
★★★★
其中仅有一部分达到 5 星
•关联的 RDF★★★★★
用五星排行表理解与 LAM 有关的资源
越来越多 4 星级的数据集、知识组织系统• 采用了 RDF 标准
• 用 URI指代名称• 数据用三段式 triples 发布
★★★★
当前主要关联数据资源(根据 2012 年 7 月 16 日数据)
CKAN = Comprehensive Knowledge Archive Network
CKAN 关联数据中心 CKAN - the Data Hub ( 共有 3880 datasets ) •其中最有名的一个组是关联的开放数据 LOD云组, 云图中现含 295 个数据集 http://ckan.net/group/lodcloud 实际上该组已有 327 个。
•其它几十个组见 : http://ckan.net/group. 一个数据集可以注册到多个组,其中有些数据集也上了 LOD云。
• 图书馆关联数据组 http://ckan.net/group/lld (现含 57 个数据集,大多数联接都是与非图书馆数据的联接)
• 文献书目数据组 : (现含 77 个数据集)• 艺术、气象数据、实验数据、考古、经济、能源数据、
地理、语言、国际发展数据、政府数据(加拿大、澳大利亚、英国等)。有些在试验阶段,有些还不开放。
•数据集的发行格式(可获取格式): CSV | RDF | XML | XBRL | SDMX | HTML+RDFa | 其它 LOD Cloud group
327 datasets
Linking Open Data cloud diagram by RichardCyganiak and Anja Jentzsch. http://lod-cloud.net/
Linking Open Data ( LOD ) 数据集云图 (as of 2011-09, dataset: 295) ; 实际组里已有 327 。
跨专业
生命科学
政府
媒体
地理
出版物
入云要求:•可解的 http URIs•数据可解为常用 RDF格式 (RDFa, RDF/XML, Turtle, N-Triples).•至少有 1000 条 triples(所以你的 FOAF 文档不行)•必须通过 RDF 与本图中一个数据集相联(含其它数据集来的 URIs ,反之亦然。至少 50条联接)•必须能通过 RDF crawling, RDF dump,或 SPARQL endpoint 得到整个数据集的数据
“关联”是有不同层次的,从简单到复杂-- 以值词汇 (value vocabularies) 为例
References: Linked Data: Evolving the Web into a Global Data Space, by Tom Heath and Christian Bizer. Linked Data FAQ, by Structured Dynamics. http://structureddynamics.com/linked_data.html#question_8
同指 ‘关于’相似的主题
用结构化的 RDF图表达 ' 类 '
相联的各类
• 用 owl:sameAs 来表达同一性联接(identity links )两个数据资源指的是具有同一性的一种实体( entity )或者个体( instance (individual) 。 如:你和我提到的是同一种实体或者个体(个人、事件、物体等),尽管名称不同。
• 同一性联接 指向另一资源所采用的 URI
• 辨识同样的真实世界的物体 • 或者辨识相同的抽象概念
客户端可以从另一资源中检索到更多的描述。
http://sw.opencyc.org/concept/Mx4rvVjfjpwpEbGdrcN5Y29ycA
http://dbpedia.org/resource/Apple_Inc.
http://www.freebase.com/view/en/apple_inc
http://
data.nytimes.com/
6145302702357875852
http://www4.wiwiss.fu-berlin.de/flickrwrappr/photos/Apple_Inc.
CYC 本体
纽约时报
dbpedia
Freebase
dbpedia 图像
练习:艺术家徐冰 (1)如果:•艺术资源库 ARTstor 的艺术作品数据里有“艺术家为”:
“Xu Bing (Chinese installation artist, born 1955)” ( ID: 500125592@ulan )
•另外一个数据集采用了中国国家图书馆的规范数据, “ 徐冰 ( 版画家 , 1955~)” ( ID: 000190318@nlc )
•这两个数据集里关于这个艺术家的数据都指的是同一个人则: 可以用一个 identify link 来表达这两个是同指一人。请你写下来
哪个对?[ 1 ] Xu Bing (Chinese installation artist, born 1955) owl:sameAs 徐冰 ( 版画家 , 1955~)
[ 2 ] 500125592@ulan owl:sameAs 000190318@nlc
练习:艺术家徐冰 (2)很多数据都与 dbpedia 和 freebase 相联,徐冰的同样,不管谁有徐冰的数据都可以继续联接:• dbpedia 的:{ http://dbpedia.org/page/Xu_Bing }• Freebase 的{ http://www.freebase.com/view/en/xu_bing }
这四个代号指代的 thing 是同一个,可以用 owl : sameAs 来联:
在 LOD 云里很多数据都指向 dbpedia ,其联接大多是 owl:sameAs ,而且是个体。
http://dbpedia.org/page/Xu_Bing owl:sameAs: http://www.freebase.com/view/en/xu_bing ; owl:sameAs: {http://..... 500125592@ulan} ; owl:sameAs:{http://... 000190318@nlc}}.
Xu Bing:Background Story 7
徐冰《背后的故事: 7 》
British Museum, 2011大英博物馆, 2011
Image source: An installation by Xu Bing: Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?set=a.10150184112629723.318031.72228529722
Image source: An installation by Xu Bing: Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?set=a.10150184112629723.318031.72228529722
在 AAT 和 LCSH 中,装置艺术的概念都得到完整的定义,有注解,不同名称,语义关系,资料来源等。但是二者不完全一样,只能算‘相似’,不能用‘ sameAs’
‘about’ similar concepts
建筑与艺术词表
(通常为博物馆所用)
LCSH concept: sh85066731@lcshsubject heading: “Installations (Art)”
国会标题表
通常在图书馆目录中用
01159407@ndl
01159407@ndl
xl:prefLabel: インスタレーション ( インスタレーション )@ja
xl:altLabel:Installations (Art)
Cb121017792@rameau
Cb121017792@rameau
sh85066731 @lcsh
sh85066731 @lcsh
4131808-0@swd
4131808-0@swd
skos:prefLabel: Installations (Art)@en
skos:prefLabel: Installations (Art)@frskos:prefLabel: FRBNF121017790@x-notation
skos:prefLabel: Installation <Kunst> @de
closeMatch
closeMatch
Concept from NDL isconnected via skosxl:altLabelto LCSH's label
‘about’ similar concepts
美国国会标题表
法国国家图书馆的标题表
德国国家图书馆的主题词汇
日本国家 Diet 图书馆标题表
这几个词表的 {installations (visual works)} 概念可以用 skos : closeMatch 来关联
采用了这些概念描述的文献和物件得以通过相似概念而关联
• 比个体的联接更上一层的,是将类( Classes )或概念用SKOS做成结构化的 RDF
source: extracted from id.loc.gov/authorities/subjects/sh85066731
用结构化的 RDF 表达‘类’或概念
:sh85066731
Installations (Art)Installations (Art)
"……" "……"
sh85007805
prefLabel
note
broaderbroader
Environment (Art)Environment (Art)"……" "……"
sh85044164
" ……"" ……"
sh2001001631narrow
er
Art, Modern--20th century
"……" "……"
Site-specific installations (Art)
related
•RDF 图的结构能表征概念之间的关系
•其中有些固定的可联接的节点,通过它们能将四处分散的数据系在一起
Slide from Tom Baker "The concepts of knowledge organization systems as hubs in the Web of data". UDC 2011 Seminar. http://seminar.udcc.org/2011/index.htm
知识组织系统里定义的概念能够起到‘汇合点’的作用,令分散的资源很容易地通过已发布的三段式用 URI 来关联起来
Image source: Dan Brickley. http://philarcher.org/inc/showImage.php?src=/diary/2012/danbri/schema.org.png&float=0&w=689&h=524
超出那些 RDF 中的固定点,则是通过概念结构(例如揭示概念类之间语义关系的本体)来将各种类型的 things 相互关联起来。 这不仅仅是发布自己的数据,而是产生新的信息和知识。通过 RDF可以联通涉及到的人物、地点、事物、组织、事件、统计资料、基因、理论、思想等)
Image source: Open Knowledge Foundation. http://okfn.org/
Freebase example例 1 : Freebase查 Xu Bing
根据多种属性(谓词)将个人的有关
信息进行显示
根据多种属性(谓词)将个人的有关
信息进行显示
根据所获奖励这个属性显示
其他获奖者
根据所获奖励这个属性显示
其他获奖者
由此可关联历年所有获奖者由此可关联历年所有获奖者
source: freebase
例: Freebase MacArthur 奖获得者
获奖者概况统一显示获奖者概况统一显示
根据多种属性(谓词)对获奖者有选择性的显示
根据多种属性(谓词)对获奖者有选择性的显示
source: freebase
[1] Use case: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Civil_War_Data_150[2] About page source: http://www.civilwardata150.net/
注意:•是格式化数据的相联,不是文本的相联;•是机器可理解和可处理的数据;•是对现有数据的再利用;•产生新的资源;其又被利用、再利用•可无限扩展下去
通过本体结构、采用 RDF 关联所有涉及到的人物、地点、队伍、伤亡、物品 (如旗帜)、组织、事件 (战役)、统计资料、个人档案等。
例 2 :美国国内战争 150周年项目
案例 2 方法小结• 搜集原始资料(来源于联邦、州、地方 LAM 、政府机构、 开放数字
化学术著作、多种媒体等),做成结构化数据 • 利用 dbpedia等资源,集中一些数据• 定义本体(类,子类,以及各类的属性)• 在已有资源基础上完善名称和主题规范词汇• 通过关联数据来组织这些过去分散的研究和历史资料。• 对数据进行组织、利用
(例如,自动 tweet 战役和伤亡)
Image Source: http://www.civilwardata150.net/category/applications/
柏拉图柏拉图亚里士
多德亚里士
多德黑格尔黑格尔
马克思马克思
康德康德
例 3 :哲学史图示( simonraper 6 月 13 日贴)
围绕历代哲学家间的影响、传承、学派为线索而展开
Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/
到 dbpedia 的检索界面输入检索提问
找出凡是在‘哲学家’类有‘影响过’的所有受影响者。(‘哲学家’是 dbpedia本体定义的;属性(谓词)为‘ influenced’ )。
Source: dbpedia
得到数据后,装到 Spreadsheet 里,分三栏: | Philosopher A | Philosopher B | Weight |
然后用开源软件 Gephi ( http://gephi.org/ )做出来
Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/
讨论:要产生这样的新信息和知识,需要什么条件?
案例 3 特点: 完全是利用已有关联数据; 重在揭示某种’关系‘。
Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/
启示:图情博档在关联数据浪潮中属于什么角色?
• 作为关联数据的提供者– 书目资源、受控名称规范文档、词表类表、本体– 可供别人使用;直接利用规范成果
• 作为关联数据的消费者– 最起码的:将外面的 URI请进来,或让自己资源的 URI
被外面拿去联接– 利用已有资源,扩充知识组织系统,充实元数据– 将各类文献目录和元数据变为知识服务的新起点,而
不光是提供查到、拿到文献的工具– 充分利用各种发布的关联数据资源去生产新的知识
关联数据是大趋势• Google 全面展开 Knowledge-graphs 服务• WorldCat在书目数据页面增加关联数据• 政府部门大数据和开放数据已成现实• 各国图情机构、博物馆、档案馆已经发布不少数据集, 数字图书馆则在消费和开发上努力
与时俱进吧!