Post on 07-Jul-2015
description
Analisi contestuale di testi destrutturati
e template di pagine web
Relatore Candidato
Valter Crescenzi Marco Cherubini matricola 273991
Anno accademico 2009/2010
Università degli studi di Roma TreFacoltà di IngegneriaCorso di Laurea Magistrale in Ingegneria Informatica
SommarioIntroduzione
Il Problema e le motivazioni
Analisi contestuale site-dependent
Analisi contestuale di testi destrutturati e template di pagine web
Scalabilità dell’algoritmo
Risultati sperimentali
Conclusioni e Sviluppi futuri
Marco Cherubini - 24 Febbraio 2011
Introduzione Sul Web è possibile trovare numerose informazioni sui differenti ambiti di interesse
Presenza di queste informazioni o in testi organizzati secondo una struttura ben definita o in testi liberi
Forte presenza della ridondanza di queste informazioni
Marco Cherubini - 24 Febbraio 2011
Il problema e le motivazioni
Analizzare e catalogare queste informazioni per i differenti domini di interesse
Raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita
Marco Cherubini - 24 Febbraio 2011
Input – Template pagine web
Marco Cherubini - 24 Febbraio 2011
Input – Testi destrutturati
Marco Cherubini - 24 Febbraio 2011
Output – Risultato ottenuto
Raccolta dei dati sui domini di interesse partendo dai template delle pagine web
Numero sempre maggiore di dati dei domini di interesse interrogando successivamente i testi destrutturati
Marco Cherubini - 24 Febbraio 2011
Analisi contestuale site-dependent
Strumenti dell’Apache UIMA Framework utilizzati:
Dictionary Annotator Julie Lab Lingpipe Gazetter Open Calais
Input OutputUIMA
Senza utilizzare UIMA: Text Analyzer
Marco Cherubini - 24 Febbraio 2011
Analisi contestuale dei testi destrutturati e template pagine web
Input – Template di pagine web
Analisi dei template di pagine web
Input - Testi destrutturati
Output Finale – Collezione dei termini di dominio
Analisi dei testi destrutturati
System
Marco Cherubini - 24 Febbraio 2011
Definizione template di pagine web
Esempio di
Invariante
Esempio di
InvarianteMarco Cherubini - 24 Febbraio 2011
Analisi contestuale di template di pagine web1. Calcolo Percorsi XPATH assoluti
1. Matrice delle Occorrenze
1. Euristica posizionale
1. Ridondanza invarianti
1. Ridondanza termini valore degli invarianti
Marco Cherubini - 24 Febbraio 2011
Analisi contestuale di testi destrutturati
1. Stemming Annotator
1. Text Runner
1. KnowItAll
1. Calcolo del Pointwise mutual Information (PMI)
1. Ridondanza nei testi destrutturatiMarco Cherubini - 24 Febbraio 2011
Scalabilità dell’algoritmo
Euristica posizionale: meno risultati ottenuti nell’analisi del dominio delle azioni finanzarie in quanto gli invarianti non sono sempre in posizione iniziale.
Ridondanza degli invarianti: si applica la ridondanza anche ai template provenienti dallo stesso sito di appartenenza.
Ridondanza dei valori degli invarianti: aggiunta del dizionario Wordnet.
Marco Cherubini - 24 Febbraio 2011
Risultati sperimentali Tutti gli esperimenti sono stati condotti, per ogni dominio di provenienza, su una scala di circa 1000-1500 di testi destrutturati e di circa 100-150 di template di pagine web
Marco Cherubini - 24 Febbraio 2011
ConclusioniNecessità di automatizzare la creazione dei dizionari utilizzati da UIMA il quale è uno strumento assai funzionale per l’analisi dei testi e ne rende molto più agevoli lo studio.
Tramite l’analisi dei template delle pagine web risoluzione dell’automatizzazione della creazione dei dizionari utilizzati da UIMA.
Tramite l’analisi dei testi destrutturati raccolta di un numero sempre maggiore di risultati attendibili e non ricavabili dall’analisi dei template Marco Cherubini - 24 Febbraio 2011
Sviluppi futuri
Vedere la risposta degli algoritmi ad altri differenti domini
Parallelizzare dove possibile gli algoritmi per rendere veloce l’esecuzione in presenza di un grande numero di input
Dare una misura oggettiva alla Recall nel caso dell’Analisi dei testi destrutturati
Marco Cherubini - 24 Febbraio 2011
Grazieper
l’attenzione