資料結構化專家會議簡報 V1.3 20160628
-
Upload
poya-liao -
Category
Data & Analytics
-
view
86 -
download
0
Transcript of 資料結構化專家會議簡報 V1.3 20160628
1政府機關網站資料結構化專家會議: 2016.6.29
壹、研究緣起貳、背景說明參、研究方法
簡報大綱
2
3
壹、研究緣起• 專案名稱: 104年度國家發展委員會政府資料開放委外專案• 研究項目:
資料品質評鑑機制-建立資料品質評鑑指標,期能提升國內資料品質-建立 data schema範例、提供共通性欄位之標準參照
規劃政府機關網站資料結構化流程-在既有的「電子資料流通詮釋資料標準」中進行擴充-建立政府網站共通性內容的標註性語彙
API服務水準研析建議-瞭解目前其他機關介接政府資料開放平臺之 API所面臨的問題-分析國內外開放資料平台所提供之 API標準,提供平臺 API服務改善建議
4
貳、背景說明 -1
• 電子資料流通詮釋資料標準 (2007):為促進跨機關資訊之互通,以及方便民眾瞭解、擷取政府資訊與使用各項申辦服務。序號 DC資料項 說明 必要/建議
/選擇1 Title(標題) 電子檔案被賦予之一個或多個名稱。 必要2 Subject(主題和關鍵
詞)電子檔案主題或主要概念之關鍵字,及代表與本物件重要相關之人、地、事件、或其他背景資料等資訊之詞彙。必要
3 Creator(創作者) 電子檔案構思及創始者,可為一位或一位以上之個人、機構或服務系統。 必要
4 Description(簡述) 文件摘要或影像資源之內容敘述。可包括摘要、目次、圖示資料之來源說明、或對於內容的文字敘述等。 選擇
5 Publisher(出版者)負責發行電子檔案之個人或機構,如博物館,同時可著錄主要資助單位或政府機關。此外,發行者與其他重要代理商亦可著錄於此。
必要
6 Contributor(貢獻者)除著者外,對電子檔案創作有貢獻之其他相關人士或機構(如編者或譯者)。亦可用於著錄贊助者、捐贈者及負責人。描述生物標本時。可於此著錄標本製作者。
選擇
7 Date(製作日期)電子檔案公開發表日期,建議日期著錄格式: YYYY-MM-DD。此處所著錄之日期不一定與 Coverage欄位所定義之資源內容所涵蓋之日期或期間相同。描述生物標本時,本欄位值著錄鑑定、觀察及採集的相關日期。
必要
8 Type(資料類型) 電子檔案類型或所屬抽象範疇,例如文字、聲音、影像、實體物件、事件、原件或代理物件等。 必要
5
貳、背景說明 -2
序號 DC資料項 說明 必要/建議/選擇
9 Format(資料格式) 本欄位描述存取、呈現或使用此電子檔案時可能所需之軟硬體工具。 選擇
10 Identifier(識別資料) 用來有效辨識此電子檔案之文字或號碼,如機關OID、 URN、 URL、 ISSN、 ISBN等。 必要
11 Relation(關連) 與其他電子檔案之關聯,或所屬系列和檔案庫。 選擇12 Source(來源) 電子檔案其他衍生來源。 選擇13 Language(語言) 電 子 檔 案 所 使 用 之 語 言 。
建議使用 RFC1766 並併用 ISO639 標準。 建議
14 Coverage(時空涵蓋範圍)
電子檔案所涵蓋之時期和地理區域。時間涵蓋範圍指電子檔案內容相關時期,例如新石器時代,而非電子檔案產生或創作時間。空間涵蓋範圍若是一個實際地區,則著錄地名或座標(經緯度)。
建議15 Rights(權限範圍) 電子檔案版權聲明和使用規範。 建議16 category.theme(主題分
類)以政府完整施政分類為基礎,提供簡潔易懂之分類架構。 必要
17 category.cake(施政分類)
各機關依行政施政業務與功能,以階層式架構建立完整行政施政知識種類,建立分類表內所涵蓋之詞彙。 必要
18 category.service(服務分類)
以民眾使用角度出發,以其較易瞭解及熟悉的方式呈現分類內容。 必要
6
貳、背景說明 -3• GSA(2013)之開放與結構內容模式計畫 (Open and Structured Content Models
Project):為能讓政府機關更易於以多種形式和平臺上發佈內容,促成跨機關間資料流通:文章內容模式:內容欄位 必填 (R)/選填 (O) 數量 內容欄位 必填 (R)/選填
(O)數量
標題 Required 1 語言 Optional 1
短標 Optioinal 1 讀者 Optional 多個完整標題 Required 1 參考資料 Optional 多個
描述 Required 1 主題 Required 多個短描述 Optional 1 文章主體 Required 1
詳細描述 Required 1 文章段落 Required 多個URL Optional 1 -段落標題 Required 1
文章類型 Optional 1 -段落主體 Required 1
日期 Optional 1 相關多媒體 Optional 1
上架日期 Required 1 影片 Optional 多個第一次發布日期 Optional 1 音訊 Optional 多個最後修正日期 Optional 1 影像 Optional 多個釋出日期 Optional 1 評分 Optional 1
資料來源單位 Required 1 資料來源 URL Optional 多個提供者 Optional 1 相關 URL Optional 多個作者 Optional 多個
7
貳、背景說明 -4活動內容模式:內容欄位 必填 (R)/選填
(O)數量 內容欄位 必填 (R)/選填
(O)數量
標題 Required 1 URL Optional 1短標 Optioinal 1 電話會議號碼 Optional 1
描述 Required 1 視訊會議資訊 Optional 1
詳細描述 Optional 1 -實體位址 Optional 1活動類型 Required 1 國家 Optional 1開始時間 Required 1 地址位置 Required 1結束時間 Required 1 地區 Required 1參與型態 Required 1 郵遞區號 Required 1活動聯絡方式 Required 1 街名 Required 1活動 URL Optional 1 地理座標 Optional 1聯絡 email Optional 1 註冊資訊 Optional 1
贊助單位 Optional 多個 註冊型態 Required 1講者 Required 多個 註冊費用 Required 1姓名 Required 1 註冊 URL Optional 1主題 Required 1 注意事項 Optional 1所屬單位 Optional 1 活動資料 Optional 多個自傳 Optional 1 活動資料型態 Required 1講者型態 Required 1 活動資料取得來源 Required 1
活動型式 Optional 1 主題 Optional 1場地資訊 Optional 多個 活動回饋 Optional 1場地型態 Required 1 評比 Optional 1地點 Required 多個 建議 Optional 1
-虛擬位址 Optional 1 語言 Optional 多個
8
貳、背景說明 -5
資料來源: Guha, R. V., Brickley, D., & Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. Available from: http://queue.acm.org/detail.cfm?id=2857276. Last access 2016/4/7.
• Markup Vocabulary
Before 1997:- XML- MCF
1997~2004- RDF- RDFS- OWL- RSS- vCard/hCard- IETF- FOAF
After 2011- Schema.org
9
貳、背景說明 -6
資料來源: schema.org. (2016). About Schema.org. Available from: https://schema.org/docs/faq.html#0. Last access: 2016/4/7.Guha, R. V., Brickley, D., & Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. Available from: http://queue.acm.org/detail.cfm?id=2857276. Last access 2016/4/7.
• Why schema.org?- 2011 created by all the major search engines: Google, Bing, Yandex, Yahoo!- Inspired by earlier work like Microformats, FOAF, OpenCyc, etc.- Came through collaborations- Applications:
2014 20150%
5%
10%
15%
20%
25%
30%
35%
22.00%
31.30%
schema.org markup
Sample: 10 billion pages from a combination of the Google index and Web Data Commons
Source: https://www.data.gov/developers/blog/support-schemaorg-datagov. Last access: 2016/4/7
10
參、研究方法• 政府機關網站資料Markup Vocabularies建立流程圖
11
參、研究方法 -歸納整理 1• 網站架構歸類:政府資料開放平臺、勞動部、原子能委員會、中央氣象局之盤點結果
本研究者歸類 4個網站共通性架構
文章 (Article)
新聞文章 最新消息、公布欄、新聞稿相關連結 外部連結、核能相關網站、好站介紹常見問答 常見問答、 FAQ
資料下載 表單下載、線上服務、資料申購出版品 政府資訊公開、出版品索取、出版品影音 懶人包、影音
其他任務與沿革、重要業務、 RSS、電子報訂閱、電子報、施政主軸、施政績效、施政目標、業務專區、源子能法規、政府資訊、勞動統計專網、資訊公開、氣候統計、網站使用統計、資料分類統計、雙語詞彙、交流討論、網站安全政策、隱私權保護政策、政府網站資料開放宣告
活動 (Event)
活動訊息 活動訊息人物介紹 正副首長介紹、首長介紹機關聯絡資訊 組織簡介、職掌及組織、組織架構民意信箱 我還想要、民意信箱、意見信箱、意見箱
12
參、研究方法 -歸納整理 2• 文章 (Article)內容模式 -1
GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源*Title 標題 name Thing Text
ShortTitle 短標 alternateName Thing Text
*FullTitle 完整標題 headline Thing>CreativeWork Text
*Description 描述 description Thing Text
ShortDescription 短描述 -- -- --
*DetailedDescription 詳細描述 disambiguatingDescription Thing Text
URL URL url Thing URL
ArticleType 文章類型 -- -- --
Dates 日期 -- -- --
*DatePosted 上架日期 dateCreated Thing>CreativeWork Date/DateTime
DateFirstPublished 第一次發布日期 datePublished Thing>CreativeWork Date
DateLastModified 最後修正日期 dateModified Thing>CreativeWork Date/DateTime
DateReleased 釋出日期 -- -- --
*SourceOrganization 資料來源單位 sourceOrganization Thing>CreativeWork Organization
Contributor 提供者 contributor Thing>CreativeWork Organization/Person
13
參、參、研究方法 -歸納整理3• 文章 (Article)內容模式 -2
GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源Author 作者 author Thing>CreativeWork Organization/Person
InLanguage 語言 inLanguage Thing>CreativeWork Language/Text
Audience 讀者 audience Thing>CreativeWork Audience
References 參考資料 -- -- --
*Topics 主題 -- -- --
*ArticleBody 文章主體 articleBody Thing>CreativeWork>Article Text
*ArticleSection 文章段落 articleSection Thing>CreativeWork>Article Text
*-SectionTitle -段落標題 -- -- --
*-SectionBody -段落主體 -- -- --
RelatedMultimedia 相關多媒體 -- -- --
Video 影片 video Thing>CreativeWork VideoObject
Audio 音訊 audio Thing>CreativeWork AudioObject
Image 影像 image Thing ImageObject/URL
AggregateRating 評分 aggregateRating Thing>CreativeWork AggregateRating
IsBasedOnURL 資料來源 URL isBasedOn Thing>CreativeWork URL
RelatedURLs 相關 URL relatedLink Thing>CreativeWork>WebPage URL
14
參、研究方法 -歸納整理 4• 活動 (Event)內容模式 -1
GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源*Title 標題 name Thing Text
ShortTitle 短標 alternateName Thing Text
*Description 描述 description Thing Text
DetailedDescription 詳細描述 disambiguatingDescription Thing Text
*EventType 活動類型 -- -- --
*StartDateTime 開始時間 startDate Thing>Event Date
*EndDateTime 結束時間 endDate Thing>Event Date
*AttendanceType 參與型態 -- -- --
*EventContact 活動聯絡方式 contactPoint Thing>Organization ContactPoint
EventURL 活動 URL url Thing URL
ContactEmail 聯絡 email email Thing>Organization Text
Sponsor 贊助單位 sponsor Thing>Event Organization/Person
15
參、研究方法 -歸納整理 5• 活動 (Event)內容模式 -2
GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源*Speaker 講者 performer Thing>Event Organization/Person
*Name 姓名 name Thing>Person Text
*Title 職稱 jobTitle Thing>Person Text
OrganizationAffiliation 所屬單位 affiliation Thing>Person Organization
Biography 自傳 -- -- --
*SpeakerType 講者型態 -- -- --
EventFormat 活動型式 -- -- --
*VenueInformation 場地資訊 location Thing>Event Place/PostalAddress/Text
*VenueType 場地型態 -- -- --
*Location 地點 -- -- --
-VirtualAddress -虛擬位址 -- -- --
URL URL url Thing URL
TeleconferenceNumber 電話會議號碼 telephone Thing>Organization Text
VideoconferenceInfo 視訊會議資訊 -- -- --
16
參、研究方法 -歸納整理 6• 活動 (Event)內容模式 -3
GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源-PostalAddress -實體位址 -- -- --
addressCountry 國家 -- -- --
*addressLocality 地址位置 -- -- --
*addressRegion 地區 -- -- --
*postalCode 郵遞區號 -- -- --*streetAddress 街名 -- -- --
GeoCoordinates 地理座標 geo Thing>Place GeoCoordinates/GeoShape
Registrationinformation 註冊資訊 -- -- --
*RegistrationType 註冊型態 -- -- --
*RegistrationCost 註冊費用 -- -- --
RegistrationURL 註冊 URL -- -- --
RegistrationNote 注意事項 -- -- --
17
參、研究方法 -歸納整理 7• 活動 (Event)內容模式 -4
GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源EventMaterials 活動資料 offers Thing>Event Offer
*EventMaterialsType 活動資料型態 -- -- --
*EventMaterialsArtifact 活動資料取得來源 -- -- --
Topics 主題 -- -- --
EventFeedback 活動回饋 -- -- --
Rating 評比 aggregateRating Thing>Event AggregateRating
EventComments 建議 comment Thing>CreativeWork Comment
InLanguage 語言 inLanguage Thing>Event Language/Text
18
參、研究方法 -實作檢測方式 -11. Google Structured Data Testing Tool(1)檢測標的
- 網頁內容結構化程度(支援 microdata / JSON-LD語法)- 找出有標記問題的語法
(2) 檢測方法a. 貼上網頁 URL或是 HTML source codeb.驗證後查看結果c. 根據錯誤報告修改錯誤標記
19
參、研究方法 -實作檢測方式 -22. SEO SiteCheckup(1)檢測標的
- 檢測結構化網業是否能表現在搜尋引擎優化上 (SEO)- 找出有標記問題的語法,提供錯誤報告
(2) 檢測方法a. 貼上網頁 URLb.測試後查看報告
網站 SEO總體表現
網站是否包含非通用類型 meta tag
20
參、研究方法 -實作檢測方式 -32. Import.io(1)檢測標的
- 結構化網頁是否利於機器直接抓取(2) 檢測方法
a. 輸入網址b.查看機器讀取結果,判斷結構化程度
原始網頁呈現 機器抓取結果
21
謝謝!敬請指導!