Post on 16-Jul-2015
Sonia Montegiove, Alfredo Parisi, Italo Vignoli
Strumenti open source per il giornalismo: come usare gli open data
Open Data, chi?
Open cosa?
“Un contenuto o un dato si definisce aperto se chiunque è libero di usarlo, riusarlo, ridistribuirlo – soggetto, al massimo, al requisito di attribuzione e/o condivisione allo stesso modo”
Open Knowledge Foundation
Open Data a tavola
Foto di Karen Morgan, Flickr
ovvero come rendere appetibiliingredienti che non lo sono
Ingredienti
Per l'impasto:
100 g di Open Data
400 g di altre Fonti di Informazione
1 Kg di Pazienza nella ricerca
LibreOffice e altri sw open source
Per la comprensione e il mash-up:
Passione q.b.Foto di The Hellos, Flickr
Dove trovare ingredienti freschi
Portale www.dati.gov.it
Portali Open Data delle PA
Sezione Trasparenza Siti della PA
Da motore di ricerca con parola magica open data
Data scraping
Foto di Young Sok Yun, Flickr
Se trovo dati .CSV
SEMPLICE!
Aprire il file con
LibreOffice e importare
il testo
E se trovo un .XLS?Un formato chiuso per esporre un dato aperto? Ossimoro?
E se trovo un .pdf?
1. Scarico Tabula
2. Lo installo
3. Apro Tabula.exe
4. Faccio upload del file.pdf
E se trovo un .pdf?
Aspetto che arrivino i dati in forma tabellare.
L'attesa dipende dalla complessità del file.
E se trovo una tabella html?
Questo non è il formato adatto a pubblicare
Il caro vecchio copia-incolla può aiutarci
Fonte: http://www.benisequestraticonfiscati.it/
Un LibreOffice in “cucina”
Foto di Young Sok Yun, Flickr
Decorare con i grafici
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
I 5 farmaci più venduti in Italia nell'ultimo semestre
da così...
...a così
Fonte: http://www.dati.salute.gov.it/
Decorare con i grafici
1. scaricare il dataset e aprirlo in Calc
2. selezionare i dati da rappresentare
3. Inserisci – Grafico
4. Seguire la creazione guidata
5. Rifinire modificando alcuni elementi
Decorare con i grafici (in modo guidato) Da Inserisci-Grafico...
1 2
3 4
Mettere in risalto alcuni dati
Fonte: http://itacan.ispo.toscana.it/italian/itacan.htm
Come fare? Formattazione condizionata
Da:
Formato
Formattazione condizionata
Condizione
Selezionare tra tante informazioni
Partiamo dal dataset
(da notare il solo formato .xls)
Fonte: http://www.dati.piemonte.it/catalogodati/dato/100670-.html
Selezionare tra tante informazioni
Da Dati
Filtro
Filtro standard
Ho così un elenco esatto delle scuole con connessione veloce
Foto di Geoff Llerena, Flickr
Ottenere somme, medie, conteggi per dato
Fonte: http:/dati.lombardia.it/
Ottenere somme, medie, conteggi per dato
Da Dati
Subtotali
Che aria tira?
1 2
3Fonte: http://www.arpa.umbria.it/open-data.aspx
E se i dati sono tanti
Da così...
...a così
La fortuna di avere le tabelle pivot
Da Dati
Tabella Pivot
Crea
Rappresentare Dati
Lista della spesa
Elaborazione dati: LibreOffice
Open Refine (ex Google Refine)
Grafici: Plotly
Datawrapper
Mappe: Mapbox
Open Refine
Software prodotto da Google Finalizzato al data cleaning Interfaccia intuitiva e semplice da usare Open Source, sorgente disponibile in Github
Refine offre una serie di trasformazioni preconfezionate (trasformazioni comuni)
Refine utilizza il linguaggio GREL (Google Refine Expression Language) per trasformazioni avanzate
Supporta diversi formati: TSV, CSV, *SV, JSON, XML, RDF
Open Refine Luoghi di interesse, Città di Firenze (Risorsa in CSV).
Open Refine 1. Importare il file CSV in Open Refine
Open Refine 2. Eliminare colonne duplicate (italiano/inglese)
Open Refine 3. Rinominare intestazione colonne
Open Refine 4. Trasformare celle utilizzando caratteri maiuscoli
Open Refine 5. Unire due colonne ed ottenere l'indirizzo completo
Open Refine 5. Unire due colonne ed ottenere l'indirizzo completo
Open Refine 5. Unire due colonne ed ottenere l'indirizzo completo
6. Esportare il dataset! Formati disponibili TSV, CSV, ODS, XLS.
Da Open Data a Grafici
Grafici veloci in pochi secondi Grafici interattivi
Creazione e modifica dei grafici in modalità collaborativa
Possibilità di condividere i grafici creati (Embed e Social)
Serve solamente un browser web
Collaboriamo!
Da Open Data a GraficiServizi educativi per la prima infanzia, Regione Umbria:si evidenziano i dati anagrafici, numero totale di bambini accolti al 15 dicembre di ogni anno suddivisi per categorie, informazioni sintetiche riguardanti i periodi di apertura, spazi e strutture presenti, meccanismi di graduazione.
Da Open Data a Grafici
Da Open Data a Grafici
Da Open Data a Grafici-Mappe
Grafici veloci in pochi secondi (in 4 passi) Mappe interattive (beta)
Open Source, sorgente disponibile in Github Serve solamente un browser web
Da Open Data a Grafici-Mappe
Da Open Data a Grafici-Mappe
Da Open Data a Mappe Mappe veloci in pochi secondi Personalizzare i punti e le mappe Utilizzare diversi template
Mapbox crea mappe interattive Mapbox crea oggetti embed che si possono importare in blog
Importa diversi formati: CSV, geojson, KML e gpx
Da Open Data a Mappe
Hotspot Wifi in Umbria (Risorsa in geojson):
Da Open Data a MappeHotspot Wifi in Umbria (risorsa in geojson):
Da Open Data a Mappe
Hotspot Wifi in Umbria (risorsa in geojson):
Creative Commons
Le licenze Creative Commons offrono […] diverse articolazioni dei diritti d'autore per […] creatori che desiderino condividere in maniera ampia le proprie opere secondo il modello "alcuni diritti riservati"
I vari moduli vengono combinati (volendo, in risposta a semplici domande), stabilendo:
Quali diritti l’autore voglia riservarsi
Quali diritti l’autore voglia condividere
Creative Commons6 combinazioni possibili:
Attribuzione - Non commerciale - Non opere derivate
Attribuzione - Non commerciale - Condividi allo stesso modo
Attribuzione - Non commerciale
Attribuzione - Non opere derivate
Attribuzione - Condividi allo stesso modo
Attribuzione
Creative Commons
1.0
2.02.5
3.0
4.0
Creative Commons 4.0
Internazionalizzazione: per favorire l'adozione globale delle licenze
Interoperabilità: tra le licenze Creative Commons e le altre licenze
Durata: anticipazione dei problemi legali e di adozione, per favorire la durata delle licenze
Governi e Istituzioni Pubbliche: gestione dei problemi di adozione delle licenze nelle aree dei dati, della scuola e della ricerca
Modelli di Adozione: compatibilità con le versioni precedenti alla 4.0
Considerevole Sforzo ComunicativoCommons Deed
Versione "comprensibile agli umani"
Traduzioni
Adattamento ai sistemi giuridici nazionali
Gestione dei Metadati
Filtro per licenza tramite Google, Yahoo, etc.
Add-on per Office, LibreOffice, Firefox, etc.
Siti web comprensibili e FAQ
http://www.creativecommons.org
http://www.creativecommons.it
Liberi Tutti: CC0
Rinuncia a tutti i diritti d'autore e connessi (inclusi quelli sulle banche di dati) su un'opera
allenta il più possibile i legami giuridici con quell'opera
Waiver of rigths: rinuncia a ogni diritto
in subordine, licenza gratuita e irrevocabile
in subordine, impegno a non esercitare i diritti rimasti in capo al detentore
Standard ?
Standard ?Standard: PDF, HTML, JPG
Non Standard: DOC, XLS, PPT, AI, MDF, SWF, WMF
Adozione degli Standard
1
1970 1980 1990 1995 2000 2005
Standard Proprietari
Standard Nazionali
Standard Globali
Innovazione Chiusa e Aperta
Chiusa verso Aperta
Bill Gates [1]
One thing we have got to change in our strategy - allowing Office documents to be rendered very well by other peoples browsers is one of the most destructive things we could do to the company. We have to stop putting any effort into this and make sure that Office documents very well depends on PROPRIETARY IE capabilities
Dobbiamo cambiare la nostra strategia: consentire che i documenti di Office vengano visualizzati bene da altri software è una delle cose peggiori che possiamo fare. Dobbiamo smetterla di fare sforzi in questa direzione, e assicurarci che i documenti di Office dipendano da funzionalità proprietarie di IE
Bill Gates [2]
3 million computers get sold every year in China, but people don't pay for the software. Someday they will, though. As long as they are going to steal it, we want them to steal ours. They'll get sort of addicted, and then we'll somehow figure out how to collect sometime in the next decade
Ogni anno, in Cina vengono venduti circa 3 milioni di PC, ma nessuno paga il software. Però, un giorno pagheranno. Fino a quando lo rubano, vogliamo che rubino il nostro perché diventino - in un certo senso - dipendenti. A quel punto, faremo in modo di raccogliere qualcosa, anche se sarà nel prossimo decennio
Formato Standard
Sviluppato da un Ente Neutrale
Consenso tra Software Vendor e Utenti Finali
Costruito come Standard Aperto
Nessun Componente Proprietario o Incapsulato
Implementazione Nativa Libera
Verifica del Formato Indipendente dal Vendor
Agnostico verso l'Utente
Apertura/Salvataggio senza Condizioni
Formato ApertoE' indipendente da un unico software (e vendor)
E' interoperabile, perché permette una condivisione trasparente dei dati tra più sistemi eterogenei
E' perenne, perché tutela il patrimonio di informazioninel tempo di fronte all'evoluzione della tecnologia
E' neutrale, perché non costringe l'utente a usare uno specifico software, ma lascia un'ampia scelta
Open ContentClosed Content
Open FormatClosed Format
Documento = ???
Documento = Contenitore
CONTENT.XML
Open Document Formatla scelta che permette di scegliere
ODF alla Base dell'Interoperabilità
SW
Contenuto
Vecchio StileContenuto strettamente legatoall'applicazione che lo genera
Controllo in mano a chi sviluppal'applicazione e non all'utente
SW SW SW
Contenuto
Nuovo StileContenuto rappresentato attraverso uno standard apertoche non viene controllato da un unico vendor, per cui più
applicazioni possono crearlo e modificarlo
Controllo in mano all'utente e non al software vendor
Interoperabilità
Formato Standard
Open Document Format
Componenti Standard e Multipiattaforma
Font Libere e Multipiattaforma
Elementi Grafici: JPEG e TIFF, PNG
Multimedia: MP3 e OGG, MP4 e H.256
Costruzione "Neutrale" del Documento
Nessun Elemento Proprietario
Processo di StandardizzazioneODF
Basato sul formato XML di OOo
12 dic 2002: sottoposto a OASIS
1 mag 2005: rilascio dello standard ODF da parte di OASIS
16 nov 2005: sottoposto a ISO/IEC JTC1 con le regole della Publicly Available Specification (PAS)
3 mag 2006: approvazione dello standard ISO/IEC IS 26300
720 pagine in 1239 giorni
OOXML
Basato sul formato XML di Office 2003
15 dic 2005: sottoposto a ECMA
31 dic 2006: standard ECMA approvato dalla Ecma General Assembly
31 gen 2007: sottoposto a ISO/IEC JTC1 con le regole della FastTrack
31 mar 2008: approvazione dello pseudo-standard ISO/IEC
7200 pagine in 838 giorni
Riuso degli Standard: un ConfrontoODF
Dublin Core
XLS:FO
SVG
MathML
XLink
SMIL
XForms
OOXML
Dublin Core
ODF e OOXML
Falso Standard Aperto
OOXMLMicrosoftOffice 2013
ODFLibreOffice4.3
Problemi con Altri Calendari
OOXML non prende in considerazione gli utenti di religione ebraica e musulmana, che utilizzano un altro calendario
Indipendentemente dalla configurazione locale, la funzione Networkdays() restituisce sempre sabato e domenica come weekend
Errore per Algeria, Bahrain, Bangladesh, Iraq, Israel, Jordan, Libya, Pakistan, Qatar, Sudan, Syria e United Arab Emirates
ODF gestisce il problema correttamente
Font Proprietari e Brevettati
Brevetti ClearType
Font Libere
Formati DisponibiliDocumento di Testo ODF (ODT)
Modello di Documento di Testo ODF (OTT)
Microsoft Word 2007/2010/2013 XML (DOCX)
Microsoft Word 97/2000/XP/2003 (DOC)
Modello di Documento DOC (DOT)
Rich Text Format (RTF)
Testo (TXT)
Testo – Scegli la Codifica (TXT)
Formati per l'Interoperabilità
Documento di Testo ODF (ODT) CONSIGLIATO
Microsoft Word 2007/2010/2013 XML (DOCX)
Microsoft Word 97/2000/XP/2003 (DOC) ACCETTATO
Rich Text Format (RTF) SCONSIGLIATO
Nessuna Interoperabilità
Non Standard: Circa 2000 AC
Falsa Interoperabilità
Non Standard: Circa 2000 DC
Vera Interoperabilità
Standard: Circa 2000 DC
#opendatachevorrei
Nell'open data che vorrei non ci sono formato chiusi né dati precotti
Grazie!
info@libreitalia.it @libreitaliasonia@libreitalia.it @suxsonicaalfredo@libreitalia.it @alfparisiitalo@libreitalia.it @italovignoli