Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

21
Accesso e analisi di Open Data: come gestire l’anarchia dei formati Matteo Picozzi [email protected] home.dei.polimi.it/picozzi PhD Student Politecnico di Milano Dipartimento di Elettronica e Informazione Eugenio Minardi [email protected] Web Developer Wellnet S.r.l. Diego Banchero [email protected] PM / Analista Wellnet S.r.l. domenica 25 marzo 12

description

Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Transcript of Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Page 1: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Accesso e analisi di Open Data: come gestire l’anarchia dei formati

Matteo [email protected]

home.dei.polimi.it/picozziPhD Student

Politecnico di MilanoDipartimento di Elettronica e

Informazione

Eugenio [email protected]

Web DeveloperWellnet S.r.l.

Diego [email protected]

PM / AnalistaWellnet S.r.l.

domenica 25 marzo 12

Page 2: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

• Acquisizione Dati• Reasoning• Visualizzazioni

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }

2

Agenda

domenica 25 marzo 12

Page 3: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Open Government• Insieme di linee guida date dal

governo americano• definizione di Open Data:

– indipendente dalla piattaforma– disponibile al pubblico– riutilizzabile– elaborabile da dispositivi automatici

3domenica 25 marzo 12

Page 4: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }I dati aperti• Abbiamo i dati aperti, questi sono i formati più

comunemente a disposizione• Ci troviamo elenchi interminabili di numeri e

termini• sono disponibili ma NON necessariamente

fruibili dal pubblico• Sono difficili da correlare perché non strutturati

e non solo...

4

CSV

domenica 25 marzo 12

Page 5: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Come rendere fruibili i dati?• Esporre i dati in un formato più ricco:

– Necessita di maggior lavoro da parte di chi espone– Implica l’uso di piattaforme specifiche

• Arricchire il formato non strutturato– Prevede strumenti di annotazione, filtri e semantica– Richiede forte intervento manuale

5domenica 25 marzo 12

Page 6: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }• Selezione delle colonne di interesse• Annotazione con meta dati• Selezione del tipo (non solo primitivo)• Eventuali suggerimenti sulla

presentazione del dato• Esportazione dei dati in un formato

riusabile da elaboratori

6

Arricchire il formato tabellare

domenica 25 marzo 12

Page 7: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Il nostro strumento

7

Estratto della tabella

Selezione Colonne

Annotazione Colonne

domenica 25 marzo 12

Page 8: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Mashup per Open Data

8

Mashup Framework

Binding Controller

Composition Controller

Event Handler

Data Manager

Data Proxy

mQuery Dispatcher

mQuery Interpreter

Result Set Formatter

Sources registry

Reasoner

Client

SPARQL

Web UI

ComponentsUI View Controller

RDF

domenica 25 marzo 12

Page 10: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }L’importanza delle Visualizzazioni

10

Visualization of data makes it possible for researchers, analysts, engineers, and the

lay audience to obtain insight in these data in an efficient and effective way,

thanks to the unique capabilities of the human

visual system, which enables us to detect interesting features and patterns in

short time.(Jarke J. van Wijk, The Value of

Visualization, Visualization 2005)

domenica 25 marzo 12

Page 11: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Visualizzare Open Data• Gli Open Data sono dati “grezzi”• Perché siano veramente utilizzabili da un

essere umano è necessario:– mostrarli in un formato human-readable– fornire visualizzazioni che ne aiutino la

comprensione– poterli arricchire e confrontare con altre fonti– poterli aggregare

11domenica 25 marzo 12

Page 12: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Mashup e Open Data• Gli Open Data vengono messi a disposizione perché

altri utenti possano:– analizzarli– riusarli– creare valore a partire dalle informazioni contenute in essi

• I mashup sono un valido strumento per semplificare questo processo di integrazione di Open Data con sorgenti, servizi ed API pubbliche o private, proprietarie o di terze parti

12domenica 25 marzo 12

Page 13: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Mashup

• Sui tre layer applicativi (data, logic e presentation)• Applicazioni Web, recentemente anche mobile• Termine spesso abusato, i mashup che si possono

trovare in giro non esprimono al massimo le potenzialità del paradigma di composizione

13

I mashup sono applicazioni che combinano, integrano e sincronizzano dati, funzionalità e visualizzazioni di più sorgenti dati, servizi o Web API

def mashup =

domenica 25 marzo 12

Page 15: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Pro e controFacile da sviluppare per chi conosce le tecnologie giusteAlto riuso del codiceModulareFlessibileArricchisce i dati di una sorgente con dati di un’altra sorgente senza dover integrare le diverse sorgentiMigliora l’esperienza degli utenti

15

SituazionaleVerticalePoco investimento di tempo da parte degli sviluppatoriFunzionalità limitateSpesso non si adatta a diversi scenariUn utente generico non è in grado di sviluppare un proprio mashup

domenica 25 marzo 12

Page 16: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Mashup 2.0• Gli utenti sono protagonisti del Web 2.0

– Producono contenuti– Sono abituati ad usare strumenti lightweight per produrli

• Vedendo un mashup vorrebbero poterlo modificare ed adattare alle proprie esigenze ma non ne hanno le capacità

• Per questo sono nati diversi tool per la creazione facilitata di mashup (per esempio Yahoo! Pipes)

16domenica 25 marzo 12

Page 17: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

• Visualizzazioni– grafiche– tabellari– tree map– UI Component (per

es. Google Maps)• Possibilità di

aggiungere grafici e di sincronizzarli tra loro

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Strumenti per l’End User Development

17

DashMash

domenica 25 marzo 12

Page 18: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Strumenti per l’End User Development

• Composizione a livello di presentazione

• Crazione di mashup basata su linguaggio visuale

• Orientato agli utenti finali

18

PEUDOM

domenica 25 marzo 12

Page 19: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Conclusioni• Uno degli scopi per cui esistono gli Open Data è proprio quello di favorire la cultura della

partecipazione• Open Data hanno grandissime potenzialità

– tecnologiche– sociali (cooperazione)

• Limiti di Open Data– scarso numero di fonti– difficoltà nel reperimento– soprattutto in formati destrutturati– non utilizzabili per il calcolo automatico– senza visualizzazioni

• I destinatari di Open Data sono gli utenti finali– hanno diversi background e competenze– possono generare valore a partire da essi

• Necessità di strumenti che aiutino gli utenti finali ad utilizzare gli Open Data

19domenica 25 marzo 12

Page 20: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Work in Progress• Acquisizione dei dati da fonti eterogenee• Conciliazione ed omogeneizzazione dei dati• Ragionamento sui dati• Knowledge Discovery• Visualizzazioni complesse• Aggregazioni, Correlazioni e Mashup• Esposizione dei dati importati

20domenica 25 marzo 12

Page 21: Codemotion 2012 : Accesso e analisi di Open Data: come gestire l'anarchia dei formati

Diego Banchero, Eugenio Minardi, Matteo [email protected], [email protected], [email protected]

Wellnet S.r.l. e Politecnico di Milano - DEI

{ }Domande

21domenica 25 marzo 12