情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open...

19
情報資源組織演習A(書誌の作成) 2013年度 跡見学園女子大学文学部准教授 福田 博同 14ネットワーク情報資源のメタデータ作成の実際 15回まとめ

Transcript of 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open...

Page 1: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

情報資源組織演習A(書誌の作成)

2013年度

跡見学園女子大学文学部准教授 福田 博同

第14回

ネットワーク情報資源のメタデータ作成の実際 第15回まとめ

Page 2: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

メタデータ

〈作品〉は〔作者〕がいて、その┌解説┐は、ある本を“典拠”とした。

そこからできた【用語】は{日本}の<平安時代>のものである。

上の全角の〈〉〔〕┌ ┐“”【】{}<>は入れ物で、5W1H的意味を持たせた。

しかし、個人的使用 = Not世界標準 ( → 世界標準形式へ変換すれば良い)

• 世界標準=W3C確定。半角の記号で意味を持たせる。

• < >が開始、</ >が終了。<要素>内容</要素>でコンピュータも構造理解が可能。要素をタグという(開始タグ、終了タグ)

– 例:<title>タイトル</title> 意味:<title>の内容はタイトルである

– 例:<a href=“ファイル名”>呼出し語</a>

意味:<a>はリンクである。呼出し語のクリックで、ファイル名へ飛ぶ。

• 要素であるデータを規定 = データの意味が分かるデータ→ メタデータ

総目次へ

Page 3: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

標準的メタデータのメリット

世界標準は世界的にデータがつながる、検索できる(共同入力もできる)。

• Linked Open Dataの例:

– Europeana そのdataset→download→RDF | VIAF | LC linked data services

– LODAC | ヨコハマ・アート・LOD LOD Challenge 2013で活用事例を見よう

• 図書書誌RDF / NII 論文フォーマットのRDF仕様 / NII

• 学術機関リポジトリ構築連携支援事業→ガイドライン メタデータフォーマットjunii2(バージョン3) / NII →JAIROで検索してみよう

• 国立国会図書館ダブリンコアメタデータ記述(DC-NDL)実例集 解説

Linked Open DataやRDFの基礎技術はXML

• XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】 /Cyber Tech | XML基礎講座 / 日本ユニテック | SEのためのXML Schema入門 / @IT 等々無数にあるサイトを参照されたい

– XMLの基礎技術はSGML(標準メタ言語)やHTML(ハイパーテキストマークアップ言語)やSQL(データベース管理システム) |ではHTMLから説明

Page 4: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

HTMLと文書の構造(簡略説明)

文書の構造:例:論文

論題→ タイトル | 著者 | キーワード | 抄録 | 内容 |

内容→ 第1章→ 第1節→ 第1項 | 引用 | 注 | 文献リスト

• 文書に構造あり。SGMLは構造を表現できる言語:インターネット登場以前に開発、タグも自分で決められるメタ言語:文書型を決めるDTD(Document Type Definition )が必要。

• しかし、文書構造記述の複雑さ、WWW登場以前なのでWebコンテンツの文

書型を表現できないこと、ハードに対する負荷が大きい問題等で普及しなかった。

• WWW登場と共に、SGMLのWWW用タグセットとしてマークアップ言語のHTMLが開発され、W3Cで規定。

• 人が分かりやすいワープロのようなレイアウト言語としても利用できるので爆発的に普及。

• 1999年のHTML4.0以降、スタイルはCSS,構造はHTMLと分離。(解説はウィキペディア:HyperText_Markup_Language , The Web KANZAKI:プロローグ:HTMLって何だ)

Page 5: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

HTML4.01のメタデータ(Dublin Core準拠サイト見本)

HTML 4 (HEAD部全体がメタデータ)

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"

"http://www.w3.org/TR/html4/strict.dtd">

<HTML lang="ja">

<HEAD>

<META http-equiv="Content-Type" content="text/html; charset=UTF-8">

<TITLE>HTMLのタイトル</TITLE>

<META name="Author" lang="ja" content="著者">

<META name="keywords" lang="ja" content="キーワード,キーワード2">

<META name="description" lang="ja" content="このページの説明">

<META name="copyright" content="&copy; 著作権者">

<META name="date" content="2014年1月">

<LINK rel="NEXT" href="next.html">

<LINK rel="stylesheet" type="text/css" href="styleSheetName.css"> <!-- スタイルシートをリンクする-->

</HEAD>

<BODY>

<p>ここは<IMG src="logo.jpg" alt="ロゴ" height="60" width="80"><a href="index.html">HTMLのタイトル</a>です| <a

href="next.html">次のリンクへ</a></p>

<h1 id="kaisou01">階層1</h1>

<p>ここから段落の始まり</p>

</BODY>

</HTML>

タイトル、著者やキーワード等の要素をマークアップしわからせる

なんでもリンクで 他ファイルへ飛ぶ

終了タグが無いものもある

必ず終了タグ

Page 6: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

SGMLからXML(簡略説明)

• XMLはSGMLをWWW用に特化し、終了タグの省略を禁止することでDTDの検証不要とし、高速化。

• 「DTDやXSLTを変えることで、同一XMLで複数文書への応用可能」で普及。 – XSLTとは、XMLを他のXML文書に変換する簡易言語(説明:e-Words,

Wikipedia: XSL Transformation)

– XMLスキーマドキュメント(XMD)とは、XMLの構造(Schema)を記述する言語で、文字型とか日付型など複合的要素も扱える。

– その文書の拡張子はxmd (参考:SEのためのXML Schema入門 / @IT)

• 詳しい説明は芝野耕司(2008) , 福重青史(2008) ,はじめて学ぶXML−XMLで実現できること / 岸和孝 , XMLについて / 富士通研等々で学習くだされ

Page 7: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

XMLのメタデータ例:DC-NDL(Simple)形式による表現 <?xml version="1.0" encoding="UTF-8"?>

<record xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dcndl_simple="http://ndl.go.jp/dcndl/dcndl_simple/"

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dcndl="http://ndl.go.jp/dcndl/terms/"

xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:owl="http://www.w3.org/2002/07/owl#">

<dc:identifier

xsi:type="dcterms:URI">http://iss.ndl.go.jp/books/R000000004-I023608194-00</dc:identifier>

<dc:title>国立国会図書館のホームページが新しくなりました</dc:title> // titleをdc:titleとします

<dcndl:titleTranscription>コクリツ コッカイ トショカン ノ ホームページ ガ アタラシク ナリマシタ

</dcndl:titleTranscription>

<dcterms:alternative>Finding aids : how to use the NDL Search and the

NDL-OPAC</dcterms:alternative>

<dcterms:issued xsi:type="dcterms:W3CDTF">2012-03</dcterms:issued>

<dcterms:isPartOf xsi:type="dcndl:ISSN">00279153</dcterms:isPartOf>

<dcterms:isPartOf xsi:type="dcndl:ISSNL">00279153</dcterms:isPartOf>

<dcndl:materialType>記事・論文</dcndl:materialType>

<dcndl:materialType>国立国会図書館刊行物</dcndl:materialType>

<dcndl:publicationName>国立国会図書館月報</dcndl:publicationName>

<dcndl:number>612</dcndl:number>

<dcndl:pageRange>16-17</dcndl:pageRange>

<dc:language xsi:type="ISO639-2">jpn</dc:language>

<rdfs:seeAlso rdf:resource="http://id.ndl.go.jp/bib/023608194"></rdfs:seeAlso>

</record>

Page 8: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

XMLのメタデータ例:機関リポジトリ OAIメタデータ・ハーベスティング・プロトコル Open Archive Initiativeのメタデータ:Dublin Core (DC)の15要素が基

礎にある。 機関リポジトリはこのメタデータを利用している(junii1 guide より)

メタデータ 説明

handle :http://www.handle.net/ デジタル・アーカイブ登録先の固有記号

dc.contributor.author 監修者、協力者

dc.date.issued 発行日

dc.description.abstract 抄録

dc.Description 説明

dc.identifier.epage 終了ページ

dc.identifier.isbn ISBN

dc.identifier.issn ISSN

dc.identifier.issue 号

dc.identifier.jtitle 掲載雑誌ID

dc.identifier.spage 開始ページ

dc.identifier.url アドレス

dc.identifier.volume 巻

dc.Publisher 出版社

dc.Subject 主題

dc.title.alternative 別タイトル「例:Webページタイトル)

dc.Title タイトル

Page 9: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

HTMLとXHTMLとXML(簡略説明)

• HTML4.01の後継としてHTMLデータをXMLでも利用できるよう

• XHTML(Extensible HyperText Markup Language)を規格化。

• XHTMLの背景 / JAGADが分かりやすいので一部引用する

• MathML(数式)やSVG(幾何学図形)など別の文書型をWebコンテンツに複合文書として含められる仕様となったが、主要Webブラウザーは、対応しなかった。

• 後続のXHTML 2.0の計画は、HTML 4.01に対する後方互換性を無視したことにより頓挫した(膨大な終了タグなし問題)。

• 後方互換性を保つように設計されたHTML5(XHTML 5)の開発がWHATWGで進められ、W3Cが受け入れ、2012年にHTML5およびCanvas 2D仕様策定完了(W3C2012.12)。

• HTML5はIE8以前は対応していない。

Page 10: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

XHTMLのメタデータ(サイト見本) <?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja">

<head>

<title>ここにタイトルを書きます</title>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

<meta name=“keywords” content=“キーワード1,キーワード2” /> <!-- ここにキーワードを書く。漢字もOK -->

<meta name=“description” content=“説明文" />

<meta name=“author” content=“著者" />

<meta name="date" content="年月日, 更新:年月日" />

<meta http-equiv="Content-style-Type" content="text/css" />

<link rel=“stylesheet” type=“text/css” href=“konSiroTpCont2MenuR.css” media=“tv,screen,print” /> <!-- スタイルシートファイル -->

</head>

<body>

<div id="header">

<img src=“logo.jpg” alt=“ロゴ” width=“44” height=“33” /> <a href=“index.html”>タイトル</a> | <a href=“help.html”>ヘルプ</a> | <a href="indexE.html">English</a> | <span class="chu">&copy; <a href="self.html">作者名</a> 年月日更新</span>

</div>

<div id="main">

<h1 class=“sz1”>階層1</h1>

<p><img src=“sakura01.jpg” alt=“桜図” width=“278” height=“228” align=“left” />ここから文章<br clear="all" />

改行してます</p>

</div>

<div id="sidebar">

<p><span class="chu">参照:<br /><a href="../index.html">教材トップへ</a></span>

</p>

</div>

</body>

</html>

終了タグ / を入れる

Page 11: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

ExcelからXML作成の実際 • 目的: 内容の理解:JAIROで見たようにXMLが便利なことは分かった。

• 用意するもの: Microsoft Excel

• 作成するファイル:拡張子xmlと、拡張子xsd

1. ExcelとXMLを比較(実習故に簡略版)(参考書「 Excel VBAで行うデータベース活用の教科

書/早坂清志」、 「XMLをOfficeで扱う: XMLファイルをExcelで読む / たのしいXML」等を参照)

【先週の児童書読書ベスト5】

2014/01/01

順位

タイトル 著者 NCID 請求記号

貸出回数

寸評

1

エルマーのぼうけん

ルース・スタイルス・ガネットさく; ルース・クリスマン・ガネットえ ; わたなべしげおやく ; 子どもの本研究会編集

BB03255290 10 2週連

続トップ

2 スーホの白い馬 : モンゴル民話

大塚勇三作 ; 赤羽末吉絵 BN03815913 726.6-O88

5 健闘中

3 としょかんライオン

ミシェル・ヌードセンさく ; ケビン・ホークスえ ; 福本友美子やく

BA81401180 726.6-Kn7

4 上昇気流

要素名: element name

データベース範囲 整数型:integer 文字列型:string 整数型 文字列型

日付型

Page 12: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

Excelとxsdの対応付け: .xsdの形 <?xml version="1.0" encoding="UTF-8"?>

<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">

<xsd:element name="ベストリーダー">

<xsd:complexType>

<xsd:sequence>

<xsd:element name="lastupdate" type="xsd:date" />

<xsd:element name="順位" type="rankItem" maxOccurs="unbounded" />

<xsd:element name="コメント" type="xsd:string" />

</xsd:sequence>

<xsd:attribute name="読書リスト" type="xsd:string" />

</xsd:complexType>

</xsd:element>

<xsd:complexType name="rankItem">

<xsd:sequence>

<xsd:element name="タイトル" type="xsd:string" />

<xsd:element name="著者" type="xsd:string" />

<xsd:element name="NCID" type="xsd:string" />

<xsd:element name="請求記号" type="xsd:string" />

<xsd:element name="貸出回数" type="xsd:integer" />

<xsd:element name="寸評" type="xsd:string" />

</xsd:sequence>

<xsd:attribute name="番号" type="xsd:integer" />

</xsd:complexType>

</xsd:schema>

文字コードはUTF-8

XSDはW3Cで決定

ルート要素 複合型

データが順次出現

日付型

限定しない 文字列型

要素の属性

整数型

前頁のExcelと、このxsdを対応づけると、、、

Page 13: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

Excelとxsdの対応付け: XMLが生成される 下記のようなXMLが生成され、ブラウザで表示されます

<?xml version="1.0" encoding="UTF-8" standalone="true"?>

-<ベストリーダー 読書リスト="【先週の児童書読書ベスト5】">

<lastupdate>2014-01-01</lastupdate>

-<順位 番号="1">

<タイトル>エルマーのぼうけん</タイトル>

<著者>ルース・スタイルス・ガネットさく; ルース・クリスマン・ガネットえ ; わたなべしげおやく ; 子どもの本研究会編集</著者>

<NCID>BB03255290</NCID>

<請求記号>933.7-G19</請求記号>

<貸出回数>10</貸出回数>

<寸評>2週連続トップ</寸評>

</順位>

-<順位 番号="2">

<タイトル>スーホの白い馬 : モンゴル民話</タイトル>

<著者>大塚勇三作 ; 赤羽末吉絵</著者>

<NCID>BN03815913</NCID>

<請求記号>726.6-O88</請求記号>

<貸出回数>5</貸出回数>

<寸評>健闘</寸評>

</順位>

-(中略) --

<コメント>ベートーベン残念でした</コメント>

</ベストリーダー>

では次頁から実際に試そう

Page 14: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

ExcelからXML生成: 手順 1. 見本: bestReader.xlsx ファイル①と 見本: bestReader.xsd ファイル② をダウンロード。

2. ①を開く → 開発 → ソース で下図が表示。 開発出ない場合→ヘルプ

Page 15: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

ExcelからXML生成: 手順2 3. XMLの対応付けをクリック

Page 16: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

ExcelからXML生成: 手順2

3. XMLの対応付けをクリック → 窓が出る→ 追加→ フォルダを選んで、bestReader.xsdをクリック→ 出現→ 開く → okすると

4

3

5 ok

bestReader.xsd

出現

Page 17: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

ExcelからXML生成: 手順3

4. okすると → ベストリーダー出現 → 読書リストを【先週の児童書読書ベスト5】までドラッグアンドドロップ(マウスを押しながら別の場所まで移動して手を離す)し 対応づける。

5. Lastupdate や順位の番号やタイトルや著者等を次々と、ドラドロし、ファイルを保存します。

6. 次に開発タブから、、、

4

3

Page 18: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

ExcelからXML生成: 手順4

7. 開発タブからエクスポートを選び→ フォルダ選択→ bestReader.xmlと書き、Enterキーで確定すると… 13頁にあるxmlファイルが生成される。

3

Page 19: 情報資源組織演習A 書誌の作成artnavi1/librarySci/infoResOrgEnshuuA/mo… · Linked Open DataやRDFの基礎技術はXML • XMLの分かりやすい解説は5分でわかる!XML超入門【連載記事】

ExcelからXMLの利点

以上でExcelからXMLへ出力できた。逆にXMLを取り込む方法や、様々なWebデータを利用できるので種々のWebヘルプサイトや参考書で研究されたい。

Webヘルプサイト:「XML データをエクスポートする / Microsoft」, 「XMLをOfficeで扱う: XMLファイルをExcelで読む / たのしいXML」, 「ExcelファイルをXML形式にエクスポートするには? / IT Initiative」

参考書:早坂清志『Excel VBAで行うデータベース活用の教科書』秀和システム,2013

1. データベースでデータを扱う→ 編集・更新等管理が楽

2. XML, XHTML, CSV, Text文書, AccessやOpen Document等の相互変換も楽

3. 専門的プログラミングの知識がなくても、豊富な見本例で編集できる

以上で、Excel(または、Open OfficeのCalc) からのXML生成を学んだ。

課題: 京都大学学術情報リポジトリから見本のメタデータをダウンロードし、

自分の大学の担当教員の論文を収集し、学術機関リポジトリ形式でXML出力してみよう

第15回 今までのまとめを実習する 以上