GeoLOD: Linked Open Data geografici in Emilia
-
Upload
opendataemiliaromagna -
Category
Documents
-
view
372 -
download
3
description
Transcript of GeoLOD: Linked Open Data geografici in Emilia
GeoLOD: Linked Open Data geografici in Regione Emilia‐Romagna Giovanni Ciardi
Agenda
Open Data
Linked Open Data
GetLOD: soluzione Open GeoData
GetLOD: LOD Life Cicle
GetLOD: caso applica9vo
Open Data
Open Data è una filosofia, una pra9ca secondo cui “Alcune 9pologie di da9 devono essere liberamente accessibili a tuB, senza restrizioni di copyright, breveB o altre forme di controllo che ne limi9no la riproduzione.” (fonte Wikipedia)
Open Data
Il dato pubblico è stato prodoKo con denaro pubblico: è, quindi, della colleBvità. Il dato deve essere res9tuito alla colleBvità.
Liberare i da9 e fare in modo che tuB possano u9lizzarli come ritengono opportuno.
Idee innova9ve Impulso alla crescita economica
Open Data
(*) Una Stella. È il livello base, cos9tuito da file non struKura9: ad esempio un’immagine in formato grezzo (forma9 come .gif, .jpg, .png), un documento in formato MicrosoU Word, un file in formato Adobe Pdf. Una sola stella indica la semplice disponibilità di una informazione e di un dato on line, in un formato qualsiasi, purché distribuito con licenza aperta. I da9 distribui9 in questo formato sono leggibili e stampabili dagli uten9, possono essere conserva9 localmente su un PC e sono semplici da pubblicare. TuKavia non sono un formato aperto in quanto non è possibile effeKuare su di essi alcuna elaborazione.
Open Data
(**) Due Stelle. Questo livello indica da9 struKura9 ma codifica9 con un formato proprietario. Ad esempio un documento in formato MicrosoU Excel. Due stelle indicano, oltre alle possibilità offerte dai da9 contraddis9n9 da una sola stella, la possibilità di effeKuare elaborazioni sui da9, a paKo di disporre del soUware necessario a ges9re un file codificato con un formato proprietario. I da9 caraKerizza9 dalle due stelle non sono un formato aperto in quanto per elaborarli è necessario un soUware proprietario, tuKavia di norma possono essere conver99 – essendo da9 struKura9 – in da9 aper9.
Open Data
(***) Tre Stelle. Questo livello indica da9 struKura9 e codifica9 in un formato non proprietario. Ad esempio il formato .csv (Comma Separated Values) al posto – ad esempio – del formato MicrosoU Excel u9lizzato nel caso precedente. Tre stelle indicano, oltre alle possibilità offerte dai da9 contraddis9n9 da due sole stelle, la possibilità di effeKuare elaborazioni sui da9 senza esser costreB ad u9lizzare soUware proprietario. Quello caraKerizzato dalle tre stelle è il formato più semplice di da9 aper9.
Open Data
(****) QuaKro Stelle. Questo livello indica da9 struKura9 e codifica9 in un formato non proprietario che sono dota9 di un URI che li rende indirizzabili sulla rete e quindi u9lizzabili direKamente online, aKraverso l’inclusione in una struKura basata sul modello RDF (Resource Descrip9on Framework) . QuaKro stelle indicano quindi il faKo che il singolo dato di un dataset, disponibile on line in un formato aperto (9picamente XML/RDF) può essere richiamato aKraverso un’URL (Uniform Resource Locator) specifico. Ciò consente di puntare al dato o ad un insieme di da9 da una applicazione o accedervi dall’interno di un programma che può poi elaborarlo in vari modi.
Open Data
(*****) Cinque Stelle. Questo livello indica quelli che vengono defini9 Linked Open Data (LOD). Quei da9 aper9, cioè, che – dal punto di vista del formato – oltre a rispondere alle caraKeris9che indicate al punto precedente (classificazione a quaKro stelle) presentano anche, nella struKura del dataset, collegamen9 ad altri dataset. In altri termini, grazie al ricorso al già citato modello di descrizione dei da9 RDF, è possibile collegare dinamicamente tra loro più dataset, incrociando così informazioni provenien9 da fon9 diverse, eventualmente ges9te da diverse Amministrazioni.
Linked Open Data
“I da9, se isola9, hanno poco valore; viceversa, il loro valore aumenta sensibilmente quando data set differen9, prodoB e pubblica9 in modo indipendente da diversi soggeB, possono essere incrocia9 liberamente da terze par9.” (fonte hKp://www.linkedopendata.it) Generare dataset in formato RDF (Linked Data) , contenen9 connessioni fra loro e con dataset esterni, accresce il valore del dato
Linked Open Data
L'integrazione a livello di da9
Applicazione sopra il modello conceKuale esplicito
Linked Open Data
Linked Open Data: Ontologie
azoto
alga
elemen
frutta
aldo
genera
petrolio
energia
elettrico
batterio
diga
enzima
produrre
crimini
governo
nemico
terroremangiare
difesa
campo
Linked Open Data: Ontologie
Hanno lo scopo di organizzare un dominio
Servono a delineare le strade che collegano gli oggeB del dominio, e consentono di sapere meglio come fare a muoversi tra ques9 oggeB
Superano i limi9 degli RDF, dove non è possibile, ad esempio, definire due classi come equivalen9, magari perché realizzate da autori diversi (che quindi possono avere u9lizzato diversi iden9ficatori per definire il medesimo conceKo).
Quando modelliamo una ontologia chiediamoci sempre: « Cosa vogliamo dire o fare dei nostri oggeB, come li chiamiamo in causa »
Spatial:NetworkDataModel
La rete seman;ca di Oracle 11g
Linked Open Data: infrastu?ura seman;ca
Jack rfd:type Male Cindy rfd:type Female Cathy hasFather Sammy Jack hasSister Cathy Tom hasMother Martha ....
soggetto predicato,/verbo oggetto
Il grafo semantico
Modellazione
SuperClasse Person
Male Female SottoClasse
Classi, sottoclassi, gerarchia ....
Regole
Person hasFather
Male Domain: subjects Range: objects
Proprieta’
FamilyDataJack rfd:type Male Cindy rfd:type Female Cathy hasFather Sammy Jack hasSister Cathy Tom hasMother Martha ....
Le triplette Jack rfd:type Male Cindy rfd:type Female Cathy hasFather Sammy Jack hasSister Cathy Tom hasMother Martha ....
Il motore seman;co: le inferenze FamilyData
Seleziona i maschi da Family Data Jack, Tom
Seleziona i maschi deducendoli col motore inferenziale Oracle Jack,TomJohn,Matt,Sammy
Dedurre conoscenza tramite percorsi
Dedurreilsessotramitela proprieta’ hasFather Person Has Father Male
Reasoning: nuove regole User Defined
FamilyData
Se X e’ padre di Y e Y e’ padre di Z Allora X e’ nonno di Z
... Seleziona i nipoti del nonno deducendoli dalla stessa regola Cindy, Tom, Jack e Cathy
Seleziona il nonno da Family Data tramite la regola del NONNO
John
GetLOD: soluzione Open GeoData
GetLOD: soluzione Open GeoData
GetLOD: Soluzione Open GeoData progeKata e sviluppata nell’ambito del progeKo di sviluppo evolu9vo dell’InfrastruKura Geografica della Regione Emilia‐Romagna. ObieBvo: Rendere disponibili come Open Data (con par9colare aKenzione per il formato RDF/XML e quindi come Linked Open Data) Da9 e Metada9 ges99 dall’infrastruKura di da9 territoriali della Regione Emilia‐Romagna.
GetLOD: soluzione Open GeoData
GetLOD: soluzione Open GeoData
Soluzione OPEN e riusabile che: Si integra alle InfrastruKure di Da9 Territoriali grazie agli standard defini9 dall’Open Geospa9al Consor9um (OGC) WFS e CS‐W. Consente di pubblicare i da9 geografici aper9 sia in formato RDF (Linked Open Data), sia in altri forma9 di interscambio non linkabili (Shapefile e GML).
GetLOD: soluzione Open GeoData
Consente di estrarre le triple RDF dai servizi OGC:WFS Consente di accedere al dato in modalità remota e standard Aggancia ai da9, i metada9 mediante chiamate ai servizi OGC:CS‐W Può popolare un Triple Store, CKAN(Comprehensive Knowledge Archive Network), Portale Da9 Open regionale
GetLOD: soluzione Open GeoData
GetLOD: soluzione Open GeoData
1. individuazione e selezione dataset
6. validazione
7. pubblicazione
2. bonifica
3. analisi
e modellazione
4. arricchimento
5. linking esterno
LOD Life Cycle
Fonte “Linee Guida per l’Interoperabilità Seman9ca aKraverso i Linked Open Data” (Agenzia per l'Italia Digitale)
GetLOD: soluzione che implementa l’intero LOD Life Cycle
GetLOD: soluzione Open GeoData
Passi del Proge?o: 1. Scelta dei da9 da pubblicare 2. Definizione di un’ontologia regionale sui Da9 3. Definizione di un’ontologia sui Metada9 (con la
collaborazione di DigitPA) 4. Estrazione dei da9 RDF 5. Estrazione dei da9 non RDF 6. Estrazione dei metada9 geografici in formato RDF e
XML 7. Integrazione con da9.emilia‐romagna.it
GetLOD: soluzione Open GeoData
Passi del Proge?o: 1. Scelta dei da9 da pubblicare
• Sono sta9 pubblica9 come Linked Open Data solo alcune classi di oggeB territoriali, quelle che individuano i principali oggeB territoriali di riferimento, ovvero: • Edifici • Numeri Civici • Limi9 Amministra9vi comunali • Toponimi stradali
GetLOD: soluzione Open GeoData
Passi del Proge?o: 2. Definizione di un’ontologia regionale sui Da9
• La definizione di una ontologia regionale che descriva il significato dei da9 da pubblicare è stata un’aBvità propedeu9ca alla vera e propria pubblicazione dei da9 RDF/XML.
• La modellazione conceKuale degli oggeB da pubblicare non è stata definita ex‐novo, ma è stata mutuata da quella u9lizzata nei Data Mart di consultazione del DB Topografico
• La definizione dell’ontologia ha riu9lizzato predica9 e conceB già defini9 in ontologie di uso corrente. Per i conceB geometrici è stata u9lizzata l’ontologia contenuta nelle specifiche standard GeoSPARQL, di recente adozione OGC.
GetLOD: soluzione Open GeoData
Passi del Proge?o: 3. Definizione di un’ontologia sui Metada9
• Definizione di una ontologia che descriva il significato dei metada9 ISO 19115
• I metada9 geografici sono aKualmente ricercabili e consultabili tramite l’interfaccia offerta dal GeoPortale. Essi sono poi scaricabili in formato XML secondo lo schema definito dallo standard ISO 19139. E’ possibile mappare lo schema in ques9one in una ontologia OWL e di conseguenza tradurre ciascuna scheda metada9 in un file RDF/XML basato su questa ontologia
GetLOD: soluzione Open GeoData
Passi del Proge?o: 4. Estrazione dei da9 RDF
• I da9, interessa9 dalla pubblicazione in Linked Open Data, sono sta9 estraB in formato RDF u9lizzando i servizi standard OGC‐WFS, messi a disposizione dalla InfrastruKura Da9 Territoriale, per l’accesso ai da9 geografici.
GetLOD: soluzione Open GeoData
Passi del Proge?o: 5. Estrazione dei da9 non RDF
• Servizi di estrazione basa9 sullo standard OGC‐WFS, per la produzione automa9ca di shapefile da conferire al sito da9.emilia‐romagna.it.
GetLOD: soluzione Open GeoData
Passi del Proge?o: 6. Estrazione dei metada9 geografici in formato RDF e XML
• Estrazione dei metada9 geografici in formato RDF e XML u9lizzando i servizi standard di catalogo OGC‐CSW
• I metada9 sono sta9 associa9 agli RDF (Linked Open Data) e agli shapefile dei da9.
GetLOD: soluzione Open GeoData
Passi del Proge?o: 7. Integrazione con da9.emilia‐romagna.it
• Il portale da9.emilia‐romagna.it funge da repository/indicizzatore di da9 e metada9 (anche per RDF).
• GetLOD conferisce i da9 in maniera automa9ca
GetLOD: caso applicativo
Edifici e terremo9
GetLOD: caso applicativo
• dal DBTR: estrazione WFS centro storico di Mirandola: 3181 edifici • da ISIDE (Ingv): estrazione CSV 69 scosse dal 19/05 al 28/06 nell’intorno di 20km
GetLOD: caso applicativo
Modellata un’ontologia per gli edifici che riusa ontologie diffuse e standard. Per i terremo9 u9lizzata ontologia SWEET (NASA)
Ontologia
GetLOD: caso applicativo
I 3.181 edifici e le 69 scosse sono diventa9 quasi 100.000 tripleKe …
Conversione RDF e caricamento in AllegroGraph
GetLOD: caso applicativo Il grafo RDF all’interno del TripleStore
GetLOD: caso applicativo
Il possibile interlink
Al momento il collegamento al catasto non è implementato con un interlink, perché le par9celle non sono pubblicate dall’AdT, ma con un nodo anonimo.
GetLOD: caso applicativo
La geometria WGS84 e GeoSPARQL
La geometria è quella del centroide, ed è replicata sia in W3C WGS84 che in OGC GeoSPARQL
GetLOD: caso applicativo
La geometria completa come WFS
La geometria completa non è contenuta nel triple store, ma è raggiungibile aKraverso un link che con9ene la richiesta WFS rela9va
GetLOD: caso applicativo
Interrogazioni possibili
TuKe analisi che si possono fare bene all’interno di strumen9 GIS desktop e web a disposizione di tuB!
Selezione edifici di 9pologia specifica più vicini di X km dagli epicentri con magnitudine maggiore di M Individuazione date sismi più vicini a edifici industriali… …
Le cose sarebbero ben diverse se esistessero come LOD anche: • da9 comunali adempimento obblighi L.R. 19/2008 (schede L0, L1 …) che si riferiscono agli URI degli edifici • anagrafe comunale degli immobili riferita ai medesimi URI • DB aBvità economiche (sempre riferite agli edifici) • anagrafe residen9 • terremo9 da INGV
GetLOD: conclusioni
Il vantaggio di avere un dato in formato rdf è quello di facilitare il “merging” di da9 anche eterogenei e di u9lizzare gli URI(Uniform Resource Iden9fier) come “pun9 di aggregazione” delle informazioni.
E’ di recente pubblicazione, inoltre, da parte di OGC della specifica riguardante “GeoSPARQL: A Geographic Query Language for RDF Data” che supporta la rappresentazione e l’interrogazione dei da9 geospaziali sul Seman9c Web.
In futuro si svilupperanno sempre più applicazioni in grado di u9lizzare ques9 da9 in modi e per scopi non preven9va9 prima.
GetLOD: conclusioni
Pubblicare da9 geografici in RDF è u9le solo se si punta alle 5 stelle ovvero se si creano interlink (o si da' la possibilità ad altri di crearli).
Estrema aKenzione nella definizione delle ontologie: non devono essere loro stesse delle isole, ma devono essere collegate e riu9lizzare altre ontologie.
Il compito più difficile non è pubblicare in RDF, ma intervenire sui processi di ges9one del dato affinché ques9 possano essere pubblica9 in RDF (iden9fica9vi persisten9, ciclo di vita chiaro, pubblicazione periodica garan9ta …)
Il ruolo della PA in questo deve essere centrale.