Associazioni semantiche per il Computational Journalism

Relazione Finale del Progetto svolto per il corso di Intelligenza Artificiale

A.A. 2012/2013

Professoressa BandiniProfessor Palmonari

Associazioni semantiche per il Computational Journalism: l’importanza delle valutazioni di

esperti di dominio

Valeria Gennari [758677]Riccardo Pietra [720918]

2

INDICE

1 Descrizione del dominio..................................................................................................................4

1.1 Computational journalism.............................................................................................................4

1.2 Linked open data...........................................................................................................................6

1.3 Dbpedia .........................................................................................................................................6

1.4 Dbpedia spotlight..........................................................................................................................7

2 Descrizione del lavoro di tesi.........................................................................................................8

2.1 Introduzione – spiegazione generale...........................................................................................8

2.2 Estrazione della base documentale.............................................................................................8

2.3 Annotazione della base documentale.........................................................................................9

2.4 Estrazione del grafo massimale...................................................................................................9

2.5 Valutazione dei percorsi e selezione del grafo ridotto...............................................................9

3 Descrizione del nostro lavoro di valutazione...............................................................................11

3.1 Dataset e metriche di valutazione...............................................................................................11

3.2 Analisi dei risultati........................................................................................................................12

4 Conclusioni personali sul lavoro svolto........................................................................................17

4.1 Le nostre valutazioni a confronto e parametri utilizzati............................................................17

4.2 Valutazione generale dei risultati prodotti dall’algoritmo........................................................19

4.3 Possibili usi futuri del Computational journalism........................................................................21

4.4 Oltre il Computational journalism, possibili usi delle associazioni semantiche........................22

4.5 La visualizzazione grafica delle associazioni semantiche.........................................................27

Note e bibliografia ..........................................................................................................................32

3

INDICE DELLE FIGURE

Figura 1. Guida grafica al Data journalism..........................................................................................5

Figura 2. Tabella riassuntiva dell’articolo di sport............................................................................12

Figura 3. Tabella riassuntiva dell’articolo di tecnologia...................................................................12

Figura 4. Tabella riassuntiva dell’articolo di politica........................................................................12

Figura 5. Precisione +@K% Articolo sport........................................................................................13

Figura 6. Precisione -‐@K% Articolo sport.........................................................................................13

Figura 7. Precisione +@K% Articolo politica.....................................................................................14

Figura 8. Precisione -‐@k% Articolo politica......................................................................................14

Figura 9. Precisione +@K% Articolo tecnologia...............................................................................15

Figura 10. Precisione +@K% Articolo tecnologia.............................................................................15

Figura 11. Tabella dell’articolo Obama Campaign Endgame: grunt Work and Cold Math.................17

Figura 12. Tabella dell’articolo Romney is Upbeat, but Math is the Same........................................18

Figura 13. Tabella dell’articolo Efforts to Curb Social Spending Face Resistance..............................18

Figura 14. Infografica coi dati estratti dal portale Rimozione Macerie..........................................24

Figura 15: Risultati della ricerca “Bacon” su Google.......................................................................26

Figura 16: Ricerca successiva su Google -‐ Sommario delle informazioni sul personaggio d’interesse e ricerche correlate.......................................................................................................26

Figura 17: Alcune associazioni semantiche su Excel........................................................................28

Figura 18: Esempio di proprietà estratte, su Excel..........................................................................29

4

1 Descrizione del dominio

1.1 Computational Journalism o Data-‐driven Journalism

Data-‐driven journalism is a journalistic process based on analyzing and filtering large data sets for the purpose of creating a new story. [1]

Il Computational journalism consiste in un’attività giornalistica basata sull’analisi e sul filtraggio di grandi quantità di dati, liberamente disponibili online, per la creazione di una nuova storia giornalistica; prevede l’applicazione di software e tecnologie nelle attività riguardanti il giornalismo.

Il processo si divide in quattro fasi fondamentali:

• Ricerca, recupero dati dal web• Filtraggio dei dati recuperati e trasformazione delle informazioni in dati strutturati• Visualizzazione attraverso particolari tool grafici (interfaccia per il giornalista)• Pubblicazione di una nuova storia giornalistica, sulla base dei dati precedentemente

selezionati.

Per quanto riguarda le due fasi iniziali, esistono diverse tecniche per portarle a termine, metodologie legate alle scienze sociali e a quelle informatiche – tecniche statistiche, di correlazione, di visualizzazione mashup, di parsing e di co-‐creazione – che permettono il recupero di informazioni rilevanti secondo diverse metriche e giudizi.

La diffusione del Computational journalism permetterebbe un miglioramento delle qualità delle notizie giornalistiche e delle notizie digitali, un utilizzo più efficace dei dati pubblicamente disponibili sul web e una riduzione dei tempi di ricerca delle informazioni d’interesse.

Il Data-‐driven journalism (DDJ) è un approccio innovativo e come tale deve ancora percorrere molta strada per essere migliorato. [2] È importante sottolineare come esso non automatizzi ogni compito fondamentale del lavoro giornalistico e quindi non sostituisca i giornalisti che lavorano per una particolare testata. Esso, infatti, è incentrato sull’importanza del giornalista, ma consente di semplificare alcune attività, permettendo un risparmio di tempo e un aumento delle qualità di nuove storie giornalistiche prodotte.

5

Figura 1. Guida grafica al Data journalism

L’immagine è tratta dalla presentazione [3] del libro The Data Journalism Handbook [4] che nasce come progetto collettivo e open source al Mozfest 2011 di Londra. Co-‐creato da moltissimi personaggi influenti nel settore -‐ membri dell’Open knowledge Foundation, giornalisti del Guardian, della BBC, ricercatori ecc. -‐ il libro, che in Italia è stato presentato al

6

Festival del Giornalismo di Perugia, è una guida tascabile e alla portata di tutti per il Data journalism: fornisce consigli utili, strumenti e dritte su come iniziare, cosa fare, dove trovare i dati e come sfruttarli. La figura riassume brevemente gli attori principali, i loro ruoli e i passaggi cruciali per creare una storia giornalistica con i Linked Data.

1.2 Linked Open Data

Linked data describes a method of publishing structured data so that it can be interlinked and become more useful. [5]

Il termine Linked Open Data (LOD) si riferisce a un insieme di pratiche per la pubblicazione e il collegamento di dati strutturati sul web, che sono state adottate nel tempo da un numero crescente di fornitori di dati. Ciò ha portato alla nascita del Web of Data, uno spazio dati globale all’interno del web. La particolarità dell’approccio LOD sta nel formato con cui i dati sono descritti, ovvero il Resource Description Framework (RDF), che è caratterizzato da una codifica dei dati sotto forma di triple costituite da soggetto, predicato e oggetto. Il soggetto e l’oggetto possono essere descritti da Uniform Resource Identifier (URI), oppure l’oggetto può essere descritto da un letterale, il predicato risulta caratterizzato da un URI e permette di definire come sono relazionati tra loro soggetto e oggetto. Ciò permette di svolgere una relazione tra diverse entità appartenenti a diverse fonti dati, poiché ogni entità è descritta in termini simili e confrontabili (in accordo con determinati principi, conosciuti e condivisi). Per usare una metafora, è come se la stessa lingua fosse espressa diversamente. Ad esempio Ontology Web Language (OWL) -‐ e le sue molteplici versioni, molto differenti tra loro (OWL DL, OWL lite, OWL Full, OWL 2DL) -‐ è un linguaggio di markup per rappresentare esplicitamente significato e semantica di termini con vocabolari e relazioni tra gli stessi. È quindi in grado di fornire diversi gradi di espressività nella modellazione d’interesse. Grazie a linguaggi come questo chiunque può pubblicare vocabolari appositamente creati ed essi a loro volta possono essere collegati ad altri già esistenti.

1.3 Dbpedia

Dbpedia è un progetto che mira all’estrazione dei dati presenti in Wikipedia e alla conversione di questi in dati strutturati, in modo tale che le tecniche del Semantic Web possano essere impiegate sulla base di conoscenza strutturata.

Per raggiungere questo scopo, sono necessari i seguenti passi:

• Sviluppo di un framework per l’estrazione delle informazioni, conversione del contenuto di Wikipedia in RDF

• Il dataset RDF multi dominio che viene creato, rappresentante il contenuto informativo di Wikipedia, potrà essere utilizzato da diverse applicazioni del Semantic web

• Il dataset Dbpedia verrà interconnesso con altri dataset, realizzando una visione globale del Semantic web

• Una serie di interfacce e moduli d’accesso, renderanno i dati accessibili tramite servizi web.

7

Ognuna delle entità contenute nel dataset risulta identificata univocamente da un URI, il quale rappresenta l’indirizzo della risorsa. Esistono tre modi per poter accedere al dataset di Dbpedia:

• Linked Data • il protocollo SPARQL (SPARQL Protocol and RDF Query Language)• il download dei dump RDF.

Poiché le informazioni all’interno di Dbpedia sono in continuo aggiornamento (o almeno parte di esse), è stato realizzato Dbpedia Live, il quale ha il compito di eseguire una sincronizzazione di Dbpedia con Wikipedia.

1.4 Dbpedia Spotlight

Dbpedia spotlight è un progetto che mira a collegare documenti testuali con LOD. In questa direzione è stato realizzato Namer Entity Recognizer (NER), un sistema che permette di annotare automaticamente documenti testuali sulla base di URI presenti in Dbpedia.

Questo approccio si può dividere fondamentalmente in tre fasi:

• Individuazione delle frasi nel testo che potrebbero contenere delle entità presenti all’interno di Dbpedia

• Definizione di un mapping fra le entità contenute nelle frasi e i loro candidati selezionati, i quali permetteranno di disambiguare il loro significato

• Utilizzo del contesto delle frasi per la scelta dei migliori candidati, i quali verranno selezionati anche sulla base dei parametri definiti in precedenza e specificati inizialmente dall’utente.

Dbpedia Spotlight risulta molto flessibile in quanto permette di selezionare in base alle proprie esigenze i valori dei seguenti parametri:

• Importanza (numero di volte in cui l’entità è menzionata in Wikipedia)• Disambiguazione (basata sul contesto del documento testuale) • Annotazione (scelta dei tipi di termini grammaticali da selezionare)• Ambiguità contestuale • Confidenza.

Lo strumento si presenta attraverso una semplice interfaccia web all’interno della quale sarà possibile definire ogni singolo parametro per la ricerca di entità su uno o più documenti testuali.

8

2 Descrizione del lavoro di tesi

2.1 Introduzione – Spiegazione generale

La tesi del collega Polidoro -‐ cui siamo stati “affiancati” -‐ ha come scopo la realizzazione di un sistema software che, dato un insieme di documenti testuali (principalmente articoli giornalistici) sia in grado di associare un contesto fattuale agli stessi sulla base dei data LOD Cloud. Questo permetterà di associare dei dati fattuali, i quali costituiranno un approfondimento contestuale di un articolo. In altre parole, il software lanciato troverà, grazie ad un algoritmo, alcune entità presenti nell’articolo, entità cui sarà associato un URI sul dataset Dbpedia. Proprio grazie alle informazioni presenti su Dbpedia, riguardo a una particolare entità, saranno trovati dei collegamenti con altre entità, presenti nell’articolo, o anche solo presenti sul dataset. L’approccio realizzato è stato denominato Data Context Extraction for News Articles (DaCENA).

Quest’approccio si basa su un processo composto idealmente da quattro passi:

• Estrazione della base documentale• Annotazione della base documentale• Estrazione del grafo massimale• Valutazione dei percorsi e selezione del grafo ridotto

I documenti testuali usati sono stati tre articoli giornalistici presenti sul sito web del New York Times, i tre articoli trattano tre temi diversi: sport, politica e tecnologia.

2.2 Estrazione della base documentale

Per quanto riguarda l’estrazione della base documentale, cioè il recupero del corpo testuale dell’articolo, un problema è subito evidente: attorno all’articolo in sé, sulle pagine web di una testata giornalistica ospitante appunto un articolo, appare molto materiale testuale (articoli collegati, pubblicità, moduli di accesso, impostazioni…) e questo può causare problemi al processo automatico di estrazione della base documentale. Ovviamente un algoritmo non ha la capacità selettiva che può avere un utente umano nello scindere il corpo dell’articolo dalle altre annotazioni testuali presenti sulla pagina web. Per risolvere questo problema, il software si basa sul linguaggio HTML con cui è definita la formattazione grafica della pagina attraverso dei tag univoci. È quindi possibile notare come all’interno di ogni sorgente html, ogni parte testuale contenuta nelle pagine web possa essere identificata sulla base dell’apposito tag HTML in cui essa è contenuta.

Il processo di recupero automatizzato della parte testuale d’interesse all’interno della sorgente HTML viene denominato web scraping. Questa è una tecnica software che permette l’estrazione delle informazioni presenti all’interno delle pagine web. Fondamentalmente web scraping, simulando l’esplorazione di un utente all’interno di una pagina web, è in grado di recuperare le informazioni di interesse tramite una richiesta al relativo portale web attraverso il protocollo http. Questa tecnica si focalizza sulla trasformazione dei dati non strutturati presenti sul web, codificati attraverso il formato HTML, in dati strutturati, i quali possono essere memorizzati ed analizzati.

9

All’interno di questo primo passo relativo all’estrazione della base documentale, il web scraping è stato realizzato sulla base di un parser html, che permette l’estrazione e la pulizia del corpo testuale dell’articolo giornalistico.

2.3 Annotazione della base documentale

L’annotazione consiste nell’identificazione delle entità riportate all’interno del testo, le quali verranno individuate tramite le entità definite all’interno di Dbpedia. Per questo processo verrà utilizzato un sistema NER, ovvero Dbpedia Spotlight, il corpo dell’articolo estratto verrà inoltrato in input a Dbpedia Spotlight che lo analizzerà e provvederà ad annotarlo.

All’interno di questo processo, è stato deciso di chiedere allo strumento di fornire un output in formato XML (Extensible Market Language), che sia caratterizzato da un insieme di entità riconosciute nell’articolo associate al relativo URI dell’entità presente in Dbpedia.

2.4 Estrazione del grafo massimale

Il grafo massimale contiene tutti i percorsi emersi fra le entità recuperate dall’articolo. Per continuare il processo di estrazione del grafo massimale, è necessario identificare l’entità sorgente dell’articolo, in modo tale da poter ricercare associazioni semantiche tra l’entità sorgente (cioè quella definita come la più citata all’interno dell’articolo) e le restanti, riducendo la ricerca tra coppie di entità più rilevanti nei confronti dell’articolo.Per ogni coppia di entità (entità sorgente – entità arbitraria altra) saranno ricercate delle associazioni semantiche caratterizzate da: una singola proprietà, una sequenza di due proprietà con un’entità intermedia sconosciuta, una sequenza di tre proprietà con due entità intermedie sconosciute. È inoltre importante evidenziare come ognuna delle proprietà stanti fra una coppia di entità, possa essere entrante o uscente, rispetto alle entità stesse.Una volta completata la ricerca delle associazioni semantiche fra l’entità sorgente e le restanti, si avrà a disposizione il grafo massimale relativo all’articolo giornalistico analizzato.

2.5 Valutazione dei percorsi e selezione del grafo ridotto

L’insieme delle query inviate all’enpoint di Dbpedia Live, basato sulla ricerca di tutte le associazioni semantiche presenti tra coppie di entità definite, ha restituito un grafo massimale ampio, caratterizzato da un minimo di 650 ca fino a un massimo di 8500 ca associazioni semantiche per ogni articolo. Data la vastità delle associazioni semantiche in output, diventa necessario individuare quelle rilevanti tra coppie di entità sulla base di un ranking fornito all’utente.

La valutazione sarà basata su alcune metriche formali scelte, ovvero Rarity, Popularity e Context. Le prime due permettono di effettuare considerazioni numeriche sulle proprietà e sulle entità identificate all’interno delle associazioni semantiche, mentre l’ultima permette di prendere in considerazione le classi a cui appartengono le entità analizzate. Illustriamole un po’ più nel dettaglio.

10

• Rarity permette di considerare rilevanti quelle associazioni che contengono delle proprietà ontologiche che occorrono meno frequentemente all’interno di Dbpedia, poiché saranno considerate le più informative rispetto alle restanti caratterizzate da un’alta frequenza di utilizzo

• Popularity permette invece di considerare le entità presenti all’interno di ogni associazione semantica (anziché le proprietà ontologiche, come fa Rarity), privilegiando quelle associazioni semantiche che contengono entità più popolari all’interno di Dbpedia. La popolarità di un’entità, in Dbpedia, è definita come la somma del numero di proprietà entranti ed uscenti dalla stessa

• Context permette infine di considerare la semantica delle entità identificate all’interno delle associazioni semantiche recuperate in precedenza, privilegiando quelle contenenti delle entità correlate al contesto giornalistico. Ovvero, per ogni entità recuperata dovranno essere recuperate le classi alle quali essa appartiene all’interno di Dbpedia. Attraverso opportuni calcoli, otterremo ogni associazione semantica associata con la propria rilevanza nei confronti del contesto dell’articolo giornalistico.

Poiché le rilevanze ricavate sono caratterizzate da una diversa scala di valori, risulta necessario effettuare una normalizzazione degli stessi tra un valore minimo pari a 0 un valore massimo pari a 1. Attraverso le rilevanze ricavate e normalizzate sarà possibile procedere a una combinazione delle stesse tra loro sulla base del valore massimo e medio risultante tra le diverse coppie e tra tutte e tre le rilevanze delle rispettive metriche. Questo permetterà un’estrazione dei grafi ridotti caratterizzati dalle associazioni semantiche più rilevanti nei confronti di ogni metrica, di ogni combinazione e dell’approccio Random basato su estrazione casuale.

11

3 Descrizione del nostro lavoro di valutazione

3.1 Dataset e metriche di valutazione

I tre articoli da noi valutati trattano argomenti diversi, vediamoli ora più nel dettaglio. L’articolo riferito all’ambito sportivo dal titolo Can Del Piero Inspire Juventus to Glory: Old Lady Puts Hopes On One Young Star [6] descrive i trascorsi di Alessandro Del Piero con la maglie della Juventus. L’articolo politico Obama Campaign Endgame: grunt Work and Cold Math [7] tratta la campagna politica affrontata da Obama per le elezioni 2012. Infine, l’articolo riguardante la tecnologia dal titolo Apple profit Rises 24% on Sales of iPhone 5 [8] tratta i profitti di Apple riguardanti la vendita di iPhone 5.

Lo strumento, per ogni articolo selezionato, ha eseguito i passi già descritti, restituendo le rilevanze delle associazioni semantiche nei confronti delle metriche Rarity, Popularity, Context e delle loro rispettive combinazioni e un insieme di numeri generati casualmente, i quali saranno utilizzati per una selezione casuale secondo l’approccio Random. Questo rappresenta la valutazione delle associazioni semantiche ricavate, da parte della macchina.

La valutazione da parte nostra è invece avvenuta attraverso la costruzione di un Gold Standard e quindi mediante giudizi di rilevanza espressi sulle associazioni semantiche caratterizzanti il grafo massimale estratto per ogni articolo. È stato questo dunque il nostro ruolo. Avendo noi un background formativo adeguato, poiché provenienti da un corso di laurea triennale in Scienze della Comunicazione, il nostro compito è stato quello di valutare ogni associazione semantica presente in ognuno dei grafi massimali, output del lavoro dell’algoritmo, con un giudizio che andasse da 0 a 3, dove 0 significa che l’associazione semantica è stata valutata errata, 1 che è stata valutata poco interessante/significativa, fino a 3 che indica un percorso interessante, sia per le entità presenti sia per le proprietà che le relazionano. Il giudizio 0 è stato dato solo a quelle associazioni semantiche in cui l’entità estratta dall’articolo (cioè quella all’estrema destra della riga) fosse considerata sbagliata, non idonea cioè ad una relazione con l’entità principale estratta dall’articolo (ovvero la prima a sinistra nella riga che esprime l’associazione semantica). Per riuscire a valutare queste relazioni, è stato fatto un importante lavoro di ricerca di informazioni (sempre sul web) riguardanti le entità citate nelle numerosissime associazioni semantiche presenti nei tre grafi massimali. Una volta compiuta la valutazione è stato possibile ottenere i grafi massimali analizzati dal punto di vista della rilevanza delle associazioni semantiche contenute nei confronti degli articoli giornalistici.

A questo punto viene fatto un confronto fra le nostre valutazioni e quelle riportate dalla macchina secondo le metriche Rarity, Popularity, Context, le loro rispettive combinazioni e un insieme di numeri generati casualmente, i quali saranno utilizzati per una selezione casuale secondo l’approccio Random. Per le nostre valutazioni, sono state selezionate quelle valutate 3 (Precisione+@K%) e separatamente quelle valutate 2 e 3 (Precisione-‐@K%).

I due gruppi sono stati quindi associati ad ogni metrica (della valutazione da parte della macchina) e ad ogni combinazione delle metriche fra loro (a diverse percentuali sul totale delle associazioni semantiche ricavate).

12

3.2 Analisi dei risultati

Di seguito vengono presentate le tabelle relative alle nostre valutazioni dei tre articoli di Sport, Tecnologia e Politica:

Figura 2. Tabella riassuntiva dell’articolo di Sport

Figura 3. Tabella riassuntiva dell’articolo di Tecnologia

Figura 4. Tabella riassuntiva dell’articolo di Politica

13

La prima voce presente in tutte e tre le tabelle si riferisce al numero totale di associazioni semantiche trovate dall’algoritmo. Ogni associazione semantica è caratterizzata da un’entità iniziale (uguale per tutte), un’entità finale e una proprietà che le lega. Fra le due entità possono comparirne di nuove (entità intermedie), legate alla prima, all’ultima e fra di loro attraverso diverse proprietà. Se un’associazione è costituita da due entità e una proprietà che le relaziona, si dice che ha lunghezza 1, se invece ci sono tre entità e quindi due proprietà che le legano si dice che ha lunghezza 2. Il numero delle proprietà presenti nel percorso trovato (che sarà sempre inferiore di un’unità rispetto al numero delle entità coinvolte in quella associazione) conta come “lunghezza” dell’associazione semantica in questione.

Di seguito invece presentiamo i grafici relativi al confronto fra le nostre valutazioni e quelle derivate dalle metriche Rarity, Context, Random e le loro combinazioni. Le associazione valutate vengono prese a una certa percentuale sul loro totale. Fra queste si può vedere quale percentuale sia stata considerata rilevante dalla macchina, secondo la metrica considerata.

Figura 5. Precisione +@K% Articolo sport

Attraverso la figura 5 si evidenzia come la metrica Rarity risulti mediamente migliore rispetto alle restanti. Al 75% risulta migliore la metrica Popularity.

Figura 6. Precisione -‐@K% Articolo sport

14

Attraverso la figura 6 si evidenzia come la metrica Context e la combinazione sulla base del massimo tra le metriche Popularity e Context risultino mediamente migliori rispetto alle restanti. Fino al 25% la metrica Context supera le restanti, in modo differente al 50% e al 75%, rispettivamente, la combinazione sulla base del massimo tra Rarity, Context e Popularity e la combinazione sulla base della media tra Popularity e Context risultano migliori.

Figura 7. Precisione +@K% Articolo politica

In figura 7, si può notare che la metrica Rarity risulti mediamente migliore rispetto alle restanti. Al 25% risulta migliore la metrica Context.

Figura 8. Precisione -‐@k% Articolo politica

Dalla figura 8 si evince che la metrica Rarity risulta nettamente migliore rispetto alle altre.

15

Figura 9. Precisione +@K% Articolo tecnologia

La figura 9 invece evidenzia come la combinazione sulla base del massimo tra le metriche Rarity e Context risulti mediamente migliore rispetto alle restanti. Fino al 10%, la stessa risulta migliore rispetto alle restanti, differentemente al 25% risulta migliore la combinazione sulla base del massimo tra le metriche Popularity e Context ed infine al 50% e al 75% risultano migliori la metrica Popularity e la combinazione sulla base della media tra le metriche Popularity e Context.

Figura 10. Precisione +@K% Articolo tecnologia

Interpretando il grafico in figura 10, si deduce che la combinazione sulla base della media tra le metriche Popularity e Context risulti mediamente migliore rispetto alle restanti. La stessa è migliore anche al 5% ma al 10% e al 25% , rispettivamente, la metrica Context e Rarity risultano migliori rispetto alle restanti. Infine al 50% e al 75%, la metrica Popularity risulta la migliore insieme alla combinazione sulla base della media tra le metriche Popularity e Context.

È importante sottolineare che le nostre valutazioni sono tendenze di giudizio personale, che dipendono quindi dalla soggettività di chi valuta. L’analisi dei risultati dati dal confronto delle nostre valutazioni con quelle della macchina mostra come l’ambito di cui tratta l’articolo sia rilevante per la capacità di giudizio delle metriche: nell’ambito politico le combinazioni tra le metriche non riescono a raggiungere mediamente gli stessi risultati ottenuti dalla metrica Rarity (la più precisa), così come risulta anche dall’analisi riguardante l’articolo sportivo.

16

Per quanto riguarda l’articolo in ambito tecnologico, quello che esaminava le vendite e gli introiti dell’iPhone 5, risulta invece migliore la combinazione sulla base della media tra le metriche Popularity e Context.

17

4 Conclusioni personali sul lavoro svolto

4.1 Le nostre valutazioni a confronto

Gli argomenti e i giudizi trattati finora riguardavano il nostro ruolo di valutatori delle associazioni semantiche recuperate nei tre articoli analizzati nella tesi. Dagli incontri col Prof. Palmonari è però risultata interessante l’idea di andare oltre l’attività in collaborazione con il collega Polidoro. Abbiamo dunque deciso di proseguire il nostro lavoro di valutatori su altri due articoli, che avessero come tema la politica. Questa decisione è stata presa per cercare di valutare meglio l’algoritmo che ha prodotto i risultati (l’articolo di politica analizzato per la tesi di Alessio era quello con le valutazioni più basse), in un ambito, quello della politica, che ci sembrava quello più interessante e “caldo”. Abbiamo inoltre deciso che le valutazioni per i nuovi articoli sarebbero state doppie, a differenza della prima fase di lavoro in cui ogni articolo era stato valutato da uno solo di noi. Riccardo ha quindi analizzato il primo articolo di politica, valutato precedentemente da Valeria, siamo poi passati alle valutazioni di altri due articoli e li abbiamo in seguito messi a confronto per verificare l’uniformità dei giudizi dati singolarmente. Le valutazioni di una sola persona sono interessanti, e sono state utili per il lavoro di tesi di Polidoro, ma di certo non bastano in linea generale, possono insomma essere considerate un buon punto di partenza. Due persone – con giudizi, conoscenze, parametri di valutazione ovviamente diversi – offrirebbero un’analisi più varia. Abbiamo dunque proseguito il nostro progetto lavorando in quest’ottica: con valutazioni incrociate l’analisi delle associazioni porterà a risultati e riflessioni a riguardo di più ampio respiro.

Gli articoli che trattavano argomenti politici sono stati dunque tre: il primo, come abbiamo detto, è lo stesso utilizzato nella tesi (Obama Campaign Endgame: grunt Work and Cold Math, dal sito web del New York Times), gli altri due, sempre provenienti dal sito web del New York Times, titolavano: Romney is Upbeat, but Math is the Same [9]e Efforts to Curb Social Spending Face Resistance [10]. Il primo dei due si focalizzava sulla campagna elettorale di Romney e sui numeri delle previsioni, che davano la sfida aperta fino all’ultimo. Il secondo invece sui provvedimenti riguardo a Social Security e Medicare che il rieletto presidente Obama cercherà di apportare.

Come già detto, ognuno di noi ha valutato singolarmente le quasi 19000 associazioni semantiche estratte in totale dai tre articoli. Ecco delle tabelle che riassumono le differenze quantitative fra le due valutazioni.

Valeria Riccardo

1 2090 2638

2 1337 873

3 107 23

0 4 4

Figura 11. Tabella dell’articolo Obama Campaign Endgame: grunt Work and Cold Math

18

Valeria Riccardo

1 4630 4477

2 1223 1382

3 10 1

0 0 3

Figura 12. Tabella dell’articolo Romney is Upbeat, but Math is the Same

Valeria Riccardo

1 8419 8157

2 858 1090

3 69 99

0 0 0

Figura 13. Tabella dell’articolo Efforts to Curb Social Spending Face Resistance

Nessuna associazione semantica ricavata dall’articolo sopra citato è stata valutata 0.

Come si può osservare dai risultati riportati nelle tabelle di queste tre figure, le valutazioni sono state abbastanza simili ma non identiche. È chiaro che, data la grandissima mole di associazioni semantiche da valutare, non sempre abbiamo seguito lo stesso metro di giudizio.

Ma, in linea generale, si è cercato di seguire queste regole comuni che avevamo in precedenza tra di noi accordato:

• Valutare 0 solo quei percorsi di associazioni aventi l’entità finale in disaccordo con la prima (entità principale)

• Valutare 1 quei percorsi che risultano caratterizzati da entità e proprietà coerenti e logicamente connesse fra loro ma che non danno luogo a delle associazioni particolarmente interessanti

• Valutare 2 quei percorsi che, oltre a essere corretti da un punto di vista logico, danno luogo ad associazioni singolari in quanto alcune entità o proprietà coinvolte risultano (per rarità o importanza o popolarità) particolarmente interessanti,

• Infine, valutare 3 quei percorsi che, oltre a essere corretti da un punto di vista logico e a contenere entità e o proprietà interessanti, sono considerati particolarmente affini e quindi congruenti per contenuto all’articolo da cui l’entità principale è stata estrapolata.

Vediamo ora alcuni esempi tratti dall’articolo Efforts to Curb Social Spending Face Resistance per chiarire meglio i parametri di giudizio usati e per notare possibili differenze che potrebbero comunque scaturire tra le valutazioni di due diversi esperti di dominio.

19

Il percorso <dbp:Barack_Obama> dbProp:party > dbp:Democratic_party_(United_States)> può essere valutato 3 per la popolarità della notizia rappresentata dal percorso e per l’affinità con gli argomenti trattati nell’articolo. Lo stesso può anche essere valutato 2, in quanto esso è sì coerente con l’articolo e popolare, ma allo stesso tempo, rappresenta una notizia ormai conosciuta da tempo e quindi non rara, anzi banale. Già da questo esempio si può notare come, nonostante le regole generali osservate siano le stesse, i giudizi possono però differire a seconda di chi li esprime.

Il percorso <dbp:Barack_Obama> dbProp:president < <dbp:David_Jane> dbProp:party < <dbp:Democratic_Party_(United_States)> è stato valutato 1 perché esprime delle relazioni logiche, reali, ma non particolarmente interessanti né originali o popolari. Il percorso difficilmente potrà essere giudicato con un valore più alto.

Il percorso <dbp:Barack_Obama> dbProp:president < <dbp:John_Boehner> è stato valutato da entrambi 3 per l’importanza dell’entità citata (Boehner è presidente della camera dei deputati) e perché la stessa entità è citata nell’articolo da cui quella principale è estrapolata. Il percorso è dunque congruente con l’articolo giornalistico a cui è collegato e l’argomento importante.

Quasi mai è successo, analizzando e confrontando le nostre valutazioni, di trovare percorsi valutati 1 da un esperto di dominio e 3 dall’altro. È successo invece spesso di trovare percorsi valutati 2 o 3 a seconda di chi ha espresso il giudizio e, ancora più spesso, quelli valutati 1 e 2. Fra le associazioni recuperate dall’articolo Efforts to Curb Social Spending Face Resistance ne troviamo parecchie che collegano l’entità principale a uno dei propri mestieri, ovvero quello dell’avvocato. Uno di noi due ha deciso di valutare quelle associazioni con un 2 perché ha ritenuto che il fatto che Obama fosse, oltre che politico e autore di scritti, anche avvocato, abbastanza interessante e originale (non tutti d’altronde lo sanno), l’altro di noi due ha invece deciso di valutare questi stessi percorsi con un 1 perché non ha ritenuto che il collegamento <Obama> mestiere > <avvocato> fosse abbastanza originale da poter essere valutato diversamente.

Nel complesso, e data la grande quantità di dati da analizzare, riteniamo che i nostri giudizi siano stati abbastanza uniformi, o quantomeno facilmente confrontabili. Da un’analisi dettagliata risulta evidente che i due valutatori hanno seguito delle metriche basate su giudizi di popolarità, originalità e contestualizzazione dati alle entità e alle proprietà citate nei percorsi.

È possibile notare macrodifferenze come quella citata nel paragrafo precedente (Obama avvocato: interessante/banale) ma nel complesso c’è stato un buon livello di accordo nella valutazione dei percorsi, soprattutto quelli contenenti entità salienti (perché, ad esempio, citate nell’articolo relativo oppure per la loro popolarità).

4.2 Valutazione generale dei risultati prodotti dall’algoritmo

Come già scritto in precedenza, le associazioni semantiche estrapolate dai tre articoli di politica sono state quasi 19000 (per la precisione, 18749) mentre quelle estrapolate dai tre articoli su cui la tesi si è basata sono state 9114. Fra i cinque articoli citati, quello con meno associazioni semantiche recuperate è stato Apple profit Rises 24% on Sales of iPhone 5con 890 percorsi, il più ricco invece è stato Efforts to Curb Social Spending Face Resistance con ben 9346 percorsi.

20

Nel ruolo di esperti di dominio entrambi ci siamo resi conto che questi numeri sono troppo alti, soprattutto se si considera che i percorsi valutati con 1 sono la maggioranza per tutti gli articoli analizzati. Guardando le tabelle riportate precedentemente (sia quelle che riguardano i tre articoli valutati per il lavoro di tesi, sia quelle sul confronto delle valutazioni nei tre articoli politici) si può facilmente evincere quanto appena detto. Il fatto che molti dei percorsi siano stati valutati 1 significa che la maggior parte dei “cammini” ricavati dalle associazioni fra le entità sono stati valutati giusti ma poco interessanti, perché comuni e/o ripetitivi oppure perché totalmente privi di interesse.

Le associazioni con valore 1 quindi sono molte, ma valutarle 1 è riduttivo e in un certo senso fuorviante: sarebbe a nostro parere utile un ulteriore discriminazione sugli 1, poiché la differenza fra il giudizio comuni e/o ripetitivi e il giudizio totalmente privi di interesse è molta. Mentre le associazioni considerate comune/o ripetitivi [11] hanno ragione di essere comunque inserite fra quelle ricavabili dalle entità tratte dall’articolo; quelle considerate totalmente prive di interesse non hanno motivo di comparire fra i percorsi che un giornalista o un utente interessato a quell’argomento avrebbe piacere di trovare fra quelli relativi all’articolo (o semplicemente all’argomento) d’interesse. Sarebbero insomma, a nostro parere, un po’ una perdita di tempo, non un acquisizione di informazioni utili.

Prendendo ancora ad esempio l’articolo Efforts to Curb Social Spending Face Resistance, proponiamo uno dei percorsi valutati da entrambi 1 e giudicato – sempre da entrambi -‐ totalmente non interessante. A nostro parere esso dimostra che i percorsi di questo genere sarebbe meglio e senza dubbio più utile che non comparissero come output dell’analisi in Dbpedia delle entità estrapolate dall’articolo.

<dbp:Barack_Obama> dbProp:leader_name < dpb:United_States dbpProp:country < dbp:Missouri_Valley_Iowa dbProp:isPartOf > <dbp:Iowa>

L’informazione contenuta in questo percorso e riassumibile con “Obama è il leader degli Stati Uniti, in cui Missouri Valley è un paese, che fa parte dello stato Iowa” non è interessante, né originale, né collegata in maniera rilevante e congruente all’articolo da cui le entità sono state estrapolate.

Alla luce di queste osservazioni (in sintesi: i percorsi ricavati sono troppi, e fra questi molti sono stati valutati 1. Buona parte di queste associazioni valutate 1 può essere considerata totalmente priva di interesse per chiunque voglia cercare informazioni sull’argomento principale da cui tale associazione è stata estrapolata) siamo giunti alla conclusione che l’algoritmo ha usato delle metriche di selezione di collegamenti troppo “larghe”. In linea generale però, è giusto sottolineare che il sistema ha rilevato:

• Percorsi interessanti: la maggior parte di quelli da noi valutati 2 e 3 • Percorsi meno interessanti ma che comunque potrebbero essere utili: quelli valutati 1 in

quanto rappresentano informazioni risapute o non troppo significative (anche se su questo punto bisogna però sottolineare che dipende anche dagli utenti che usufruiscono di queste informazioni)

• Pochissimi percorsi giudicati con 0: questo significa che l’algoritmo non ha quasi mai fallito nel trovare un collegamento fra l’entità principale e quella finale del percorso, l’unica pecca è stata che troppo spesso quel collegamento rappresentava un’informazione davvero banale perché potesse essere presa in considerazione da un utente interessato a questi risultati.

21

4.3 Possibili usi futuri del Computational journalism

Nei primi paragrafi abbiamo descritto il Computational oDDJ, nello studiarlo ci siamo fatti un’idea dei possibili usi, e soprattutto dei possibili vantaggi che tale attività potrebbe portare a quella più ampia del giornalismo. La creazione di nuove storie giornalistiche o d’inchieste quantitative e qualitative da parte dei giornalisti, attraverso la ricerca di informazioni tramite tecniche computazionali, è l’obiettivo del Computational journalism. Ad esempio, un software può eseguire la scansione di differenti database e reti sociali, in modo tale da identificare e riportare informazioni che possono essere utilizzate in seguito dai giornalisti.

The Guardian ha realizzato un’indagine riguardante le spese dei membri del parlamento del Regno Unito. Tutte queste informazioni recuperate ed elaborate sono state rese disponibili nel web all’interno di fogli di calcolo, i quali sono stati analizzati dagli utenti della rete, identificando le voci più interessanti. Le informazioni e le analisi svolte dagli utenti hanno permesso alla testata in questione, di realizzare nuove storie giornalistiche, rendendo palese il problema. È importante evidenziare come l’indagine al momento non sia stata replicata da nessun’altra testata, poiché computazionalmente onerosa. Attraverso questa iniziativa, The Guardian è stato in grado di migliorare la propria reputazione nell’ambito del giornalismo investigativo e allo stesso tempo è riuscito a portare alla luce un problema molto critico [12].

Un altro esempio è costituito da James Hamilton [13] che, utilizzando il database della protezione ambientale americana riguardante le emissioni di sostanze chimiche da parte delle industrie, è stato in grado di individuare possibili imprecisioni nei dati forniti dalle diverse compagnie. Principalmente nella realizzazione di quest’analisi, egli utilizzò metodi statistici e matematici. In questo modo, Hamilton riuscì a scovare le violazioni della legge di Benford riguardante il limite delle emissioni tossiche.

Il lavoro di Hamilton deriva da una semplice osservazione da economia dei media: dato che produrre inchieste e reportage giornalistici è attività costosa, laboriosa (e spesso non pagata in proporzione dagli investitori pubblicitari) è preferibile usare tecnologie digitali in grado di affiancare il giornalista nel produrre inchieste approfondite. Il Computational Journalism, rispondendo agli incredibili cambiamenti che la rivoluzione digitale ha portato nell’ accessibilità dell’informazione -‐ se utilizzato nel modo migliore e supportato da strumenti efficaci e sempre meno onerosi -‐ è la miglior starda percorribile per avere sempre più qualità e affidabilità nell’informazione.

Ma non solo i giornalisti professionisti possono usufruire dei LOD e delle tecniche computazionali tipiche del Computational Journalism per informarsi e per costruire nuove storie giornalistiche. L’auspicio è che anche uno studente, un blogger, un politico o un imprenditore (e altre figure professionali e non) possano ritenere utile una ricerca di dati incrociata e ben sviluppata come quella cui porterebbe un uso ampio e diffuso del DDJ. La tendenza è ormai quella, lo dimostrano anche – nel loro piccolo – i sempre più numerosi comuni italiani che hanno realizzato il proprio portale regionale di Open Data [14] rendendo i dati un diritto fondamentale ed un bene comune.

Un esempio di strumento per tutti è stato realizzato da Google e denominato Living Stories. Esso permette di raccogliere tutte le versioni di un fatto di cronaca all’interno di un articolo, le quali possono essere consultate sulla base di una timeline. All’interno dell’articolo, costantemente aggiornato, vengono creati dei collegamenti a delle notizie correlate. In questo

22

modo l’utente senza nessun particolare sforzo può prendere visione delle informazioni d’interesse, recuperandole nel caso in cui dovesse creare una nuova storia giornalistica. Una ricerca del genere potrebbe richiedere tempo ma nessun tipo di tecnologia particolare se non quella di un device connesso a internet e – dato non trascurabile -‐ nessun tipo di costo (fatta eccezione per quello che garantisce la connessione stessa).

È importante sottolineare come il Computational journalism vada oltre una semplice editoria giornalistica online. Non si tratta di pubblicare articoli e notizie sul web (non solo, quantomeno) ma anche (e sopratutto) di indicizzare le entità presenti per poi poterle collegare ad altre entità presenti in altri articoli e fatti, i collegamenti saranno proposti secondo il grado di connessione che c’è fra le entità, fra gli articoli e fra gli argomenti trattati, in un dato momento storico.

Un aspetto importante è, a nostro avviso, l’aggiornamento dei sistemi che permettono queste ricerche computazionali. È evidente che, trattandosi di notizie contemporanee e data la velocità dell’informazione oggi, ci deve essere un aggiornamento continuo degli articoli, delle entità e delle proprietà, così come delle “qualità” intrinseche ad ogni entità o ad ogni proprietà; può succedere infatti che collegamenti ritenuti molto rilevanti in un dato momento, possano non risultare più tali in un altro. È necessario in altre parole tenere costantemente il passo, cosa non facile e su cui c’è probabilmente ancora molto da lavorare. È un approccio innovativo e in quanto tale deve ancora percorrere molta strada per poter essere migliorato.

4.4 Oltre il Computational journalism, possibili usi delle associazioni semantiche

Come abbiamo detto, sono giornalisti i primi utilizzatori del Computational journalism, ma non solo. Gli studenti e il campo della ricerca universitaria potrebbero trarre grandi benefici da un uso di queste tecniche computazionali, incentrate però non solo sui fatti e le notizie dal mondo, ma anche sugli articoli scientifici pubblicati dalle riviste di tutto il mondo. Una mappatura di tali elementi, con estrazione di entità, proprietà e creazione di un grafo massimale, potrebbe aiutare i ricercatori nelle loro indagini. È evidente come uno sforzo del genere sia impegnativo, ma comunque possibile se basato su una cooperazione e collaborazione a livello mondiale, ormai possibile grazie alla diffusione di internet, del cloud che ospita tutte le piattaforme utili al DDJ e che permette una ricerca collettiva di notizie e collegamenti da tutto il mondo.

Citando Tim Berners-‐Lee e i suoi comandamenti del web semantico: “Se ben strutturato, il web semantico favorisce l’evoluzione della conoscenza umana. Il processo di creazione della conoscenza è caratterizzato da un’eterna tensione tra l’efficacia produttiva di ristretti gruppi di persone che agiscono in modo indipendente e la loro necessità di integrarsi con una comunità più ampia. I gruppi di dimensioni limitate lavorano rapidamente ed efficacemente, ma allo stesso tempo danno vita a delle sottoculture che male interagiscono con il pubblico esterno. Coordinare un gruppo ampio, tuttavia, richiede tempo e un immane sforzo comunicativo. (…) Se fino ad ora il mondo ha funzionato in disequilibrio tra questi estremi, il web semantico consente a diverse sottoculture di entrare in contatto tra loro e scambiarsi informazioni in modo semplice e immediato. Il web semantico può essere visto come una sorta di linguaggio logico internazionale a disposizione di tutte le sotto strutture.”[15]

È riflettendo su queste parole, su quanti siano i gruppi ristretti ai quali i LOD gioverebbero e quanto sia importante l’interazione di cui parla Tim Berners-‐Lee, che abbiamo pensato a usi dei LOD che andassero oltre gli scopi classici del Computational journalism, che prevedano in altre

23

parole l’uso dei LOD in contesti che non siano esclusivamente quelli del web. Gran parte delle difficoltà che emergono nello sviluppo del Web 3.0 è dovuta alla grande quantità di dati da identificare e strutturare. Un utilizzo dei LOD in un ambiente più ridotto e specifico di quello del web potrebbe portare a grandi vantaggi e l’organizzazione dovrebbe essere logicamente meno onerosa. Un contesto che sembra adattarsi bene a quanto detto finora è quello delle Big Enterprises, [16] le grandi aziende, che spesso hanno una struttura articolata e una mole significativa di stakeholders, il che si traduce ovviamente in una grande quantità di dati diversi da catalogare. Ci siamo quindi chiesti, come sarebbe possibile integrare l’approccio e la tecnologia LOD con un ambiente aziendale? Quali vantaggi porterebbe quest’operazione?

Per rispondere alla prima domanda abbiamo individuato una serie di passi da compiere per raggiungere quella che è stata definita dai pionieri di questa nuova prospettiva Enterprise Linked Opend Data (ELOD). [17] Presentiamoli:

• Raccolta e definizione della topologia dei dati, ovvero quali aree aziendali prendere in considerazione e come organizzare i relativi dati in cataloghi

• Specificare i formati: dai più classici (e meno utili) .pdf, .xls , .csv/tsv, fino ad arrivare ai più evoluti e sicuramente più efficaci .xml, rdf/owl

• Prelievo dei dati dalle fonti individuate nei formati scelti• Preparazione di una piattaforma centrale di servizi per l’amministrazione dei dati, la loro

classificazione, fusione, indagine e pubblicazione• Descrizione del ciclo di vita dei dati aperti.• Definizione delle politiche di sicurezza e permessi d’accesso ai dati aperti• Infine pubblicazione conclusiva dei dati in LOD, ovvero sfruttando tecnologie

semantiche come RDF, OWL, URI, SPARQL, per ottenere dati con una semantica esplicita e per renderli interconnessi fra di loro e rintracciabili tramite un URL univoco.

Vediamo ora alcuni vantaggi particolari di cui potrà usufruire un’azienda che intraprende questo percorso:

• I dati perderebbero quella carica di “potere intrinseco” che hanno ad oggi e che spesso alimenta controversie sul controllo dei vari domini di competenza all’interno di un azienda

• Non si avvertirebbe più la necessità di commissionare le pratiche di valutazione informativa ad aziende esterne

• Si faciliterebbe lo sviluppo di nuove applicazione data-‐consumer e di data-‐intergation• Si otterrebbe una gestione trasparente del patrimonio informativo dell’azienda• Si ottimizzerebbero i processi di comunicazione e condivisione dell’informazione fra le

diverse aree aziendali.

Ovviamente ci sarebbero alcune criticità nel passaggio dalla gestione attuale dei dati di un’azienda a quello ELOD. Per esempio la sensibilizzazione del cliente nei confronti di tale gestione, la difficoltà iniziale di censire i dati, ma anche l’opera di convincimento dei propri dipendenti dell’utilità e bontà dell’operazione a fronte di una facile reticenza a condividere i propri dati e la necessità imprescindibile di definire delle politiche di sicurezza precise sull’accesso ai dati. Riteniamo comunque che valga la pena per un’azienda – specie se di grandi dimensioni -‐ percorrere tale strada. Realizzerebbe, infatti, un vero e proprio processo di censimento, amministrazione, riuso di tutti quei dati che di solito vengono gelosamente custoditi o nascosti impedendo così corrette pratiche di Enterprise Information Management EIM e Knowledge management (KM).

24

Queste riflessioni si potrebbero applicare – con le dovute differenze – a moltissimi contesti, basti pensare alle scuole, alla pubblica amministrazione, alla politica… Sono nati e stanno nascendo moltissimi progetti a riguardo, anche nel nostro Paese. Sul sito della Open Knowledege Fondation Italia è possibile farsi un’idea dello stato attuale dei lavori. [18]

Figura 14: Infografica coi dati estratti dal portale Rimozione Macerie

25

Sul sito dell’agenzia di prodotti multimediali Mister wolf – web&multimedia [19] abbiamo trovato un interessante lavoro, riassunto in Figura 14, che dimostra quanto l’utilizzo dei LOD in contesti specifici sia utile.

Spieghiamo ora in breve il motivo per cui il progetto di quest’agenzia rappresenta a nostro parere un esempio virtuoso, da applicare in moltissimi altri campi e contesti. Il progetta mira a raccogliere i dati inerenti al lavoro di messa in sicurezza degli edifici e di rimozione delle macerie, soprattutto all’Aquila, che procede ancora oggi. Si stima che fino a ora siano state rimosse quasi 426000 tonnellate di macerie dai lavori per gli edifici pubblici e circa 273000 per quelli privati. Il sito del Commissariato per la Ricostruzione tiene traccia dei lavori e delle operazioni svolte con una serie di Open data liberamente consultabili dalla cittadinanza. Sulla base di queste informazioni, l’agenzia Mister wolf ha realizzato l’infrografica di Figura 14, per illustrare il lavoro svolto fino ad oggi per rimuovere le macerie. L’infografica offre uno sguardo d’insieme sullo stato della rimozione e smaltimento delle macerie nell’area del cratere interessato dal sisma che ha colpito l’Abruzzo nel 2009. I dati si riferiscono alle macerie rimosse, provenienti dai cantieri e destinate ai punti di conferimento ad opera delle aziende al Febbraio 2013. Sono poi disponibili le percentuali dei cantieri che producono macerie suddivisi per provincia e i relativi punti di conferimento dove le macerie vengono destinate attraverso le aziende incaricate del trasporto.

Molti quotidiani online hanno parlato di questo progetto e delle informazioni ricavate da esso, i dati raccolti e analizzati hanno risparmiato molto lavoro a chi se ne occupa e ne usufruisce; iniziative come queste devono essere seguite e replicate in ambiti simili ma non solo, devono vedere la collaborazione di aziende e agenzie di questo tipo al fine di creare progetti sempre più trasversali e utili a chiunque.

Un altro campo da noi indagato in cui l’approccio LOD può aiutare a migliorare le prestazioni è quello dei motori di ricerca, e in particolare, potrebbero essere di enorme aiuto alla problematica delle ricerche correlate e suggerite all’utente da parte di un software che “lavorerà” per conto di un sito o anche del browser. Come ben sappiamo spesso accanto all’esito di una ricerca da noi indagata, compaiono suggerimenti e consigli riguardo prodotti/informazioni simili. Ad esempio, se cerchiamo su Google un’entità (persone, luoghi, cose) a fondo del sommario di informazioni enciclopediche sull’entità che stiamo cercando, compaiono altre entità che vanno sotto l’etichetta di “ricerche correlate”.

26

Figura 15: Risultati della ricerca “Bacon” su Google

La figura 15 mostra cosa accade se da loggati in Google cerchiamo “Bacon”: avremo i classici risultati nella colonna di sinistra e accanto, in una nuova colonna, ci verrà chiesto di specificare se intendiamo il filosofo, il pittore o l’attore.

Figura 16: Ricerca successiva su Google -‐ Sommario delle informazioni sul personaggio d’interesse e ricerche correlate

27

Come mostra la figura 16, supponendo che il personaggio che interessa a noi sia Francis Bacon – Pittore, appariranno una serie di informazioni su quest’ultimo, alcune sue opere, ed altri artisti correlati (cercati da altri). Ciò avviene grazie al Knowledge Graph, che unisce ricerca semantica ad analisi statistiche e algoritmi. Il progetto, ancora in evoluzione, migliora quindi la ricerca, grazie alla mappatura di 3.5 miliardi di fatti ossia informazioni sulle relazioni tra 500 milioni di entità.

Questa tendenza è riscontrabile anche in molti siti di quotidiani, che suggeriscono articoli simili per tema a quello che si sta leggendo. Ciò accade tramite link agli articoli visualizzabili sulla stessa schermata dell’articolo letto e facilita l’utente nella comprensione globale di quello che è il tema trattato. Siti di e-‐commerce suggeriscono prodotti simili a quelli acquistati. YouTube rende sempre più raffinate le ricerche correlate e i video consigliati in conformità a quelli già visti.

È dunque chiaro che al momento i motori di ricerca di questo tipo utilizzano già tecniche piuttosto avanzate, basate in parte su un sistema di tag (e di catalogazione secondo queste etichette) e in parte basate su algoritmi che cercano collegamenti semantici fra l’entità visualizzata ed altre nuove, ipoteticamente correlate. Per questo riteniamo che un uso dell’approccio Data Context Extraction for News Articles (DaCENA), possa essere utile per migliorare la tendenza generale verso risultati restituiti non solo sulla base di reti di link di pagine web, ma sempre più su reti di conoscenza.

A nostro avviso è importante che il software lavori non solo sulle entità, ma anche sulle proprietà. Inoltre, che lavori usando il filtro delle metriche Rarity, Popularity e Context di cui abbiamo parlato nel secondo capitolo. Se ad esempio un’entità risulta importante secondo la metrica Rarity, il software dovrà cercare entità correlate ad essa in maniera forte (considerando cioè la lunghezza del percorso e l’importanza delle proprietà che legano le entità, secondo la metrica in questione) che siano anch’esse particolarmente rilevanti secondo la metrica Rarity.

Abbiamo già spiegato il significato delle metriche citate, per quanto riguarda la metrica del Context però, riteniamo che in un’operazione come quella sopra descritta, il software dovrebbe considerare tale metrica come riferita al contesto temporale. Così se la ricerca indagata dall’utente, da come esito un’entità rilevante per il contesto temporale il software troverà altre entità che, oltre ad essere legate in maniera rilevante alla prima, siano anch’essere ritenute importanti dato il preciso momento storico.

Un’integrazione dei metodi usati oggi con l’approccio DaCENA è quanto proponiamo. È evidente che un lavoro di questo tipo preveda un numero considerevole di teorici del web semantico, di tecnici informatici e non ultimi di esperti di dominio che lavorino insieme e collaborino per la creazione di un software che permetta ad un algoritmo di indagare le entità del database, a partire da un’entità primaria, al fine di raggiungere gli scopi sopra illustrati. Una sfida impegnativa che però può essere senz’altro essere accettata, dati i risultati finora raggiunti e la portata innovativa di questi approcci.

4.5 La visualizzazione grafica delle associazioni semantiche

Un altro punto critico riguardante le associazioni semantiche -‐ e il loro possibile utilizzo -‐ è quello che tocca la resa grafica dei collegamenti tra entità. Ci siamo chiesti come rendere le

28

informazioni estrapolate dagli articoli tramite l’approccio DaCENA fruibili da giornalisti – e non solo – nel modo più idoneo ed efficace possibile. Non è un quesito di poco conto, se si considera quanto tuttora non sia facile persuadere l’opinione pubblica della potenza delle tecniche utilizzate per il DDJ e quanti ancora non ritengano questo nuovo approccio utile o perlomeno diverso da una semplice stampa digitale delle notizie. Adattarsi – anche dal punto di vista dell’usabilità – alle esigenze degli utenti, consentendo un resoconto dinamico (e facile da utilizzare) delle informazioni d’interesse, è quindi a nostro parere una priorità in grado di avvicinare sempre più persone a queste tecniche innovative.

Come abbiamo notato in seguito alle valutazioni delle più di 20000 associazioni semantiche estrapolate dagli articoli, la grande mole informazioni ricavate seguendo l’approccio DaCENA può causare un problema al giornalista che cerca spunti o fatti per una nuova storia giornalistica. Oltre alla quantità, un ostacolo che potrebbe frapporsi fra il giornalista e la comprensione reale di quello che le associazioni semantiche significano, è quello di usabilità da parte dell’utente. Quanto egli sia quindi in grado di visualizzare queste associazioni semantiche.

Il layout grafico restituito dalla macchina, l’interfaccia software – utente è un punto cruciale per il buon funzionamento di qualsiasi programma. Anche per i percorsi estratti e da noi valutati bisogna tenerne conto, considerando la loro potenziale utilità e al tempo stesso la complessità dello strumento per chi non è addetto ai lavori.

Figura 17: Alcune associazioni semantiche su Excel

Durante la fase di valutazione delle associazioni, queste ci sono state proposte su un foglio Excel, come mostra la figura 17, un percorso per riga, e righe di differenti lunghezze in accordo col numero delle proprietà e delle entità presenti. Questo non ci è sembrato il miglior modo per presentare i risultati del software, anche se, per una quantità ridotta di percorsi potrebbe essere più facile da consultare. Al di là della quantità di associazioni, rimane comunque il problema di un interfaccia in grado di soddisfare gli utenti in modo intuitivo ed ergonomico. Nel caso poi degli usi delle associazioni semantiche in contesti diversi dal DDJ, sorge un altro punto interrogativo: quando è necessario presentare gli interi percorsi e quando solo gli esiti (ad esempio, prima e ultima entità collegate, senza visualizzazione del percorso, in modo simile alle entity summary di Google nella figura 16)?

In questo ultimo modulo cercheremo di rispondere ai dubbi e agli interrogativi che ci siamo posti nelle righe precedenti.

29

Riguardo al primo punto, quello di una buona interfaccia grafica, abbiamo pensato ad una soluzione che potrebbe adattarsi alle ricerche di un giornalista, il quale con l’aiuto di un software e di un database potrà cercare nuovi collegamenti che possano dare vita a una storia giornalistica. Il giornalista lancerebbe un software sulla macchina e farebbe “leggere” a questo uno o più testi (che potranno essere articoli ma non solo, anche un veloce racconto steso per l’occasione). Il software restituirebbe al giornalista un output simile al primo dei due fogli che noi abbiamo trovato sul file Excel, ovvero un documento che mostri le entità e le proprietà estratte dal testo secondo l’approccio DaCENA e/o recuperate dal database per essere collegate con le prime.

Figura 18: Esempio di entità e proprietà estratte, su Excel

Come mostra la figura 18, nel primo dei fogli di Excel su cui abbiamo lavorato era presente la lista dei concetti riconosciuti da DBpedia Spotlight. A questa pagina si potrebbe ispirare l’output per il giornalista, che una volta ricevuti i dati potrebbe selezionare alcune delle entità e delle proprietà e tralasciarne altre. Anche qui, ricordiamo, serve un’interfaccia grafica che permetta all’utente di dare questi ordini al software. A questo scopo, l’inserimento di filtri che cerchino proprietà ed entità rilevanti secondo una determinata metrica potrebbero essere d’aiuto all’utente. A quel punto il software restituirebbe all’utente un grafo massimale relativo al testo,

30

ma in accordo con le entità selezionate dall’utente stesso. Il grafo massimale, che a quel punto sarà di dimensioni ridotte, non dovrà però essere un documento simile al foglio Excel su cui abbiamo lavorato, quello in Figura 16. Potranno essere un grafico, una figura, un’infografica simile a quelle analizzate in precedenza, qualcosa di efficace insomma che mostri le entità e i collegamenti fra queste. Il giornalista, selezionando tramite l’interfaccia un’entità, una proprietà o un intero percorso, accederà ad ulteriori notizie collegate a quella associazione semantica, e quest’ultime potranno essere link ad ulteriori articoli giornalistici (che aiutino per esempio a spiegare il collegamento) o a dati presenti in database esterni e magari più specifici rispetto al campo d’interesse in questione.Le nostre sono solo idee e ipotesi, non avendo effettivamente costruito un software di questo tipo non siamo in grado di preventivare costi e sforzi di un approccio del genere. Di certo i costi, specie quelli iniziali, saranno considerevoli in termini di risorse e applicativi. Per la realizzazione saranno indispensabili informatici, esperti di web semantico, ma anche grafici, ergonomisti e altre figure professionali che possano collaborare per il raggiungimento di un’interfaccia idonea.

Analizziamo ora il secondo punto. Se per un giornalista uno degli aspetti interessanti è costituito proprio dal percorso nel suo completo, incluse le proprietà che legano le entità e il motivo di questi collegamenti, per altri utenti l’informazione interessante potrebbe essere solo l’esito finale, ovvero l’entità correlata alla prima, eludendo quindi i passaggi che spiegano il percorso nella sua interezza. Questo è l’approccio che sembra aver adottato Google con il Knowledge Graph di cui abbiamo parlato in precedenza, lo dimostrano gli entity summary che affiancano l’esito della ricerca di un’entità tramite il motore di ricerca di Google (Figura 15).

Ma siamo davvero sicuri che questo sia valido per tutti gli utenti che eseguono una ricerca senza usare un software particolare, come potrebbe fare un addetto ai lavori? Noi pensiamo che questi entity summary offerti da Google (o una loro versione analoga offerta dal proprietario di un database e di un software che lo sappia esplorare) possano essere migliorati. Ad esempio, rendendoli in grado di mostrare, su richiesta dell’utente, l’intero cammino che ha portato a una particolare entità partendo da un’altra. Oppure che l’utente possa scegliere il grado che lega entità proposte a quella originale. Se di base l’entity summary propone le entità con grado 1, cioè le più vicine all’entità primaria, in altre parole quella che l’utente sta cercando, sarebbe un passaggio in più e sicuramente innovativo se egli potesse specificare il numero del grado che colleghi le entità estratte e collegate a quella primaria. Si deve, infatti, tener conto del fatto che all’aumentare del numero di grado, le entità e i collegamenti trovati saranno facilmente meno rilevanti per popolarità ma più rilevanti per rarità.

Un'altra caratteristica per migliorare la ricerca potrebbe essere quella che permetta all’utente di selezionare le proprietà da usare per trovare i collegamenti. Così, se ad esempio un utente vuole fare una ricerca riguardo i parenti del presidente Obama, potrebbe cercare l’entità Obama e poi, tramite un interazione con l’entity summary ordinargli di mostrare in primo piano le entità collegata alla prima con grado X e alla proprietà “is a relative of”. Oppure, ancora, l’utente potrebbe selezionare una metrica che filtri le entità estratte in base all’importanza, secondo gli standard della metrica stessa. È da notare che in tutti questi casi, le proprietà e i collegamenti completi che legano le entità, sono sempre in qualche modo nascosti all’utente ma visibili su richiesta, e sono in grado in ogni caso di interagire con l’utente, che ne può usufruire per filtrare i risultati finali in qualsiasi momento.

L’idea base che lega queste nostre proposte è quella di utilizzare pienamente e nel modo più efficace le associazioni semantiche che si possono estrarre attraverso l’approccio DaCENA, di mostrarne quindi non solo l’esito (ovvero l’entità finale) ma anche di utilizzarne ogni sua parte

31

(proprietà, grado, metriche filtranti) per poter affinare la ricerca a dare un risultato sempre più preciso e che rispecchi totalmente quello che si stava cercando. Il tutto con un’interfaccia idonea che semplifichi al massimo il dialogo utente-‐software.

32

NOTE E BIBLIOGRAFIA

[1] Lorenz Mirko: Data driven journalism: What is there to learn? (2010) Edited conference documentation, based on presentations of participants, 24 August 2010, Amsterdam, The Netherlands.

[2] Un interessante video su come sta cambiando il giornalismo coi Linked Data http://datajournalism.stanford.edu/

[3] Christian Bizer, Tom Heath, Tim Berners-‐Lee: Linked Data -‐ The Story So Far. Int. J. Semantic Web Inf. Syst. 5(3): 1-‐22 (2009)

[4] http://prezi.com/zbdph3ydcece/data-‐journalism-‐handbook/

[5] Jonathan Gray, Liliana Bounegru e Lucy Chambers: The data journalism handbook. Creative Commons Attribution-‐ShareAlike license. (2011)

[6] Rob Hughes: Can Del Piero Inspire Juventus to Glory? Old Lady Puts Hopes On One Young Star. New York Times Online (12/09/2001) http://www.nytimes.com/2001/09/12/sports/12iht-‐soccer_ed3__5.html

[7] Jim Rutenber: Obama Campaign Endgame: Grunt Work and Cold Math. New York Times Online (25/10/2012) http://www.nytimes.com/2012/10/26/us/politics/for-‐obama-‐aides-‐endgame-‐takes-‐grunt-‐work-‐and-‐math.html

[8] Nick Wingfield: Apple Profit Rises 24% on Sales of iPhone 5. New York Times Online (25/10/2012) http://www.nytimes.com/2012/10/26/technology/apple-‐profits-‐rise-‐24-‐on-‐iphone-‐5-‐sales.html

[9] Jeff Zeleney, Ashley Parker: Romney Is Upbeat, but Math Is the Same. New York Times Online (24/10/2012) http://www.nytimes.com/2012/10/25/us/politics/romney-‐campaign-‐fights-‐for-‐electoral-‐votes.html

[10] Robert Pear: Efforts to Curb Social Spending Face Resistance. New York Times Online (26/11/2012) http://www.nytimes.com/2012/11/27/us/politics/politics-‐in-‐play-‐over-‐safety-‐net-‐in-‐deficit-‐talks.html

[11] Un altro esempio, oltre a quelli già citati, è presente nell’articolo sulla campagna politica di Obama, Obama Campaign Endgame, grunt Work and Cold Math: qui, in moltissime associazioni, l’entità Obama è collegata a suoi parenti e informazioni su questi ultimi (moglie, figlie, genitori, ma anche moltissimi cugini, parenti acquisiti ecc.). Sono informazioni corrette, e sicuramente a qualcuno saranno anche utili, ma in linea di massima le abbiamo valutate comuni e ripetitivi ai fini di un articolo che non si occupa della vita privata di Obama, bensì di quella pubblica.

[12] Una breve presentazione su come lavorano col Data Journalism e con i Data Visualisation al The Guardian http://prezi.com/ppc6r-‐srwbdt/simon-‐rogers-‐data-‐journalism-‐presentation/

[13] James Hamilton direttore del DeWitt Wallace Center for Media and Democracy presso la Duke University

http://datajournalism.stanford.edu/




http://prezi.com/zbdph3ydcece/data-journalism-handbook/

http://prezi.com/zbdph3ydcece/data-journalism-handbook/

http://www.nytimes.com/2001/09/12/sports/12iht-soccer_ed3__5.html




http://www.nytimes.com/2012/10/26/us/politics/for-obama-aides-endgame-takes-grunt-work-and-math.html




http://www.nytimes.com/2012/10/26/technology/apple-profits-rise-24-on-iphone-5-sales.html




http://www.nytimes.com/2012/10/25/us/politics/romney-campaign-fights-for-electoral-votes.html




http://www.nytimes.com/2012/11/27/us/politics/politics-in-play-over-safety-net-in-deficit-talks.html




http://prezi.com/ppc6r-srwbdt/simon-rogers-data-journalism-presentation/

http://prezi.com/ppc6r-srwbdt/simon-rogers-data-journalism-presentation/

http://fds.duke.edu/db/aas/PublicPolicy/jayth

http://fds.duke.edu/db/aas/PublicPolicy/jayth

http://www.pubpol.duke.edu/centers/dewitt/

http://www.pubpol.duke.edu/centers/dewitt/

33

[14] Il sito del Piemonte al momento è la più riuscita e strutturata esperienza nazionale sul tema degli open data http://www.dati.piemonte.it/

[15] Tim Berners-‐Lee, James Hendler, Ora Lassila: The Semantic Web. Scientific American (2001)

[16] Ci riferiamo in particolare a tutte le attività che gestiscono problematiche note con il nome di Enterprise Information Management (EIM) http://www.opentext.com/2/global/enterprise-‐information-‐management.htm

[17] http://gruppoimola.wordpress.com/

[18] http://it.okfn.org/category/linked-‐open-‐data/

[19] http://www.mister-‐wolf.it/it/clienti-‐lavori/lavori-‐realizzati/133-‐infografica-‐con-‐i-‐dati-‐sulla-‐rimozione-‐macerie-‐estratti-‐dal-‐portale-‐rimozione-‐macerie.html

http://www.dati.piemonte.it/

http://www.dati.piemonte.it/

http://www.opentext.com/2/global/enterprise-information-management.htm




http://gruppoimola.wordpress.com/

http://gruppoimola.wordpress.com/

http://it.okfn.org/category/linked-open-data/

http://it.okfn.org/category/linked-open-data/

http://www.mister-wolf.it/it/clienti-lavori/lavori-realizzati/133-infografica-con-i-dati-sulla-rimozione-macerie-estratti-dal-portale-rimozione-macerie.html




Associazioni semantiche per il Computational Journalism

Technology

Transcript of Associazioni semantiche per il Computational Journalism