Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Automatic Text Processing Ing....

Click here to load reader

download Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Automatic Text Processing Ing. Leonardo Rigutini Dipartimento di Ingegneria dellInformazione

of 31

  • date post

    01-May-2015
  • Category

    Documents

  • view

    217
  • download

    0

Embed Size (px)

Transcript of Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Automatic Text Processing Ing....

  • Slide 1
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Automatic Text Processing Ing. Leonardo Rigutini Dipartimento di Ingegneria dellInformazione Universit di Siena Via Roma 53 53100 SIENA ITALY rigutini@dii.unisi.it
  • Slide 2
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Outlines Lera dellinformazione Information Retrieval I documenti di testo Rappresentazione del testo: Vettori di feature Rappresentazione Bag-OF-Word Importanza di un termine Misura di similarit Normalizzazione del testo: Tokenization Conversion to lower case Lemming Stop-Word
  • Slide 3
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione L era dell informazione Documento inteso come contenitore di informazione di qualunque tipo Varie forme di informazione: Testo, Radio, Televisione, INTERNET Vari tipi di documenti: Testo, Audio, Immagini e Video, Tutti Incredibile il numero di documenti esistenti oggi: Nel 2000 si stima la dimensione del web in pi di 1 BILIONE di pagine I motori di ricerca classici (Google, AltaVista, Yahoo) indicizzano centinaia di milioni di documenti Gli archivi delle aziende raggiungono milioni di documenti Moltissime anche le pubblicazioni memorizzate nei database dei search-engine specializzati (citeseer, cora, IEEE, ecc) Newsgroup, forum, le e-mail Archivi fotografici Ecc..
  • Slide 4
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Information Retrieval Necessit di organizzare questa informazione Aziende: documenti relativi allazienda, regolamento interno, bollettini interni, comunicazioni varie, workflow, ecc.. Enti pubblici: Regolamenti, modulistica, notizie, bandi ecc.. WEB: Qualunque informazione Altro Necessit di studiare tecniche per un recupero intelligente dellinformazione: IR (Information Retrieval)
  • Slide 5
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Information Retrieval Disciplina che studia tecniche per il recupero dellinformazione Es. Motori di ricerca Scopo: Recupero dei documenti giusti durante la ricerca da parte dellutente Misure per l IR: RECALL: PRECISION: n relevant items retrieved n relevant items in collection n relevant items retrieved total n items retrieved
  • Slide 6
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Information Retrieval Misurare la similarit tra due o pi documenti in modo da restituire allutente i documenti pi significativi: Trovare una rappresentazione adeguata dei documenti Definire una metrica (distanza) per tale rappresentazione La macchina determina la similarit tra la query e tutti i documenti nel database, restituendo i documenti con punteggio pi elevato.
  • Slide 7
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Documenti di testo La maggioranza di documenti presenti sulla rete sono documenti di testo La maggioranza delle tecniche di classificazione e di recupero dellinformazione sono relative al testo La maggioranza delle ricerche effettuate sul web riguarda documenti di testo Le ultime due affermazioni sono strettamente correlate: Ad oggi pochi sono i motori per immagini che funzionano, quasi nessuno per i video o audio, ci spiega perch lutente si muove su documenti di testo Inoltre molte ricerche multimediali si risolvono in ricerche testuali in appositi campi un video viene etichettato con un insieme di keyword e la sua ricerca avviene per tali parole
  • Slide 8
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Text-IR Text Information Retrival raccoglie: Text Retrieval: Data una query, recuperare i documenti pi attinenti Text Segmentation: Dato un documento, suddividerlo in sub-topic Text Classification: Determinare la classe del documento tra un insieme di classi prestabilito Document Clustering: Dato un database documentale, determinare linsieme delle classi e gli abbinamenti classe-doumento
  • Slide 9
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Rappresentazione del testo Documento di testo: Sequenza (flusso) di parole contenente uno o pi topic (argomenti, concetti ecc..) Feature: Parole Punteggiatura Stile del testo (Grassetto, Corsivo, ecc) Struttura del testo (Titolo, paragarafo, nota ecc) Bi-grammi o tri-grammi
  • Slide 10
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Vettori - 1 Un punto in uno spazio pu essere rappresentato come un insieme di valori, ognuno dei quali si riferisce ad una dimensione dello spazio stesso Es. 2-D : P = ( x 1, x 2 ) 3-D : P = ( x 1, x 2, x 3 ) Formalmente: Un vettore una n-pla di valori dove n la dimensione dello spazio P = ( x 1, x 2, , x n ) x1x1 x2x2 x3x3 P (x 1,x 2,x 3 ) x1x1 x2x2 P (x 1,x 2 )
  • Slide 11
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Vettori - 2 Rappresentazione alternativa di un vettore in R 2 : Modulo: misura del vettore Angolo: angolo che il vettore forma con le ascisse N.B. sempre due dimensioni (cambia la base) Operazioni: Modulo: Per calcolare il modulo si utilizza il teorema di pitagora: E si indica con Prodotto scalare Il prodotto scalare tra A e B si indica con o AB x1x1 x2x2 P (x 1,x 2 )
  • Slide 12
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Vettore differenza Dati due punti (vettori) possibile calcolare il vettore differenza: Quanto vale A-B ? A-B= C (a 1 -b 1, a 2 -b 2 ) a1a1 a2a2 A (a 1,a 2 ) b1b1 b2b2 B (b 1,b 2 ) a 2 -b 2 C (a 1 -b 1, a 2 -b 2 ) a1-b1
  • Slide 13
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Distanza - 1 Possiamo definire due tipi di distanze: Distanza euclidea : modulo del vettore differenza Distanza del coseno: Angolo formato dai due vettori: Se due vettori hanno pendenze vicine allora langolo che essi formano piccolo ed il coseno tende ad 1 a1a1 a2a2 A (a 1,a 2 ) b1b1 b2b2 B (b 1,b 2 )
  • Slide 14
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Distanza - 2 La seconda formula 0 quando = 90 In tale situazione infatti il prodotto scalare 0 Ed i due vettori si dicono ortogonali Infatti: = 0b 1 + a 2 0 = 0 a2a2 A (0,a 2 ) b1b1 B (b 1,0) =90
  • Slide 15
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Vector Space Model Un documento visto come un punto (vettore) nello spazio delle parole del dizionario (feature): D i = ( w i,1, w i,2, w i,3, , w i,n ) Ogni termine w i,k il peso della parola k nel documento i: 1. 2. 3.tf.tdf: 4.altri Tale rappresentazione detta comunemente Bag-of-Word
  • Slide 16
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Es. BOW (Bag-of-Word) Supponiamo di avere due documenti: D 1 = ingredienti pizza: farina, acqua, lievito, olio D 2 = descrizione computer: CPU, RAM, Hard disk Il dizionario lunione dei due insiemi: T = {ingredienti,pizza,farina,acqua,lievito,olio,descrizione,computer,CPU,RAM,Hard Disk} n=11 dimensione dello spazio La rappresentazione BOW dei due documenti: D 1 = (1,1,1,1,1,1,0,0,0,0,0) D 2 = (0,0,0,0,0,0,1,1,1,1,1) Se un utente esegue una query Q= ingredienti pizza essa viene rappresentata come: Q = (1,1,0,0,0,0,0,0,0,0,0)
  • Slide 17
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Grado di similarit Il calcolo della similitudine tra due documenti diventa il calcolo della distanza tra due vettori: Sim(D i, D j ) = d (D i, D j ) Normalmente si utilizza la distanza del coseno: Sim(D i, D j ) = cos (D i, D j ) =
  • Slide 18
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Es. (reprise) Nell esempio precedente avevamo: D 1 = (1,1,1,1,1,1,0,0,0,0,0) D 2 = (0,0,0,0,0,0,1,1,1,1,1) Q = (1,1,0,0,0,0,0,0,0,0,0) Calcolando sim( ) avremo : Sim (D 1, D 2 ) = 0 Sim (Q, D 1 ) = 0.37 Sim (Q, D 2 ) = 0 Ed il sistema restituisce il documento D 1
  • Slide 19
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Soglia di similarit Nella realt: Databases con milioni di documenti Dizionario formato da migliaia di parole (vettori di ~10.000 componenti) Conseguenze: Molti confronti con un valore di similarit prossimo a zero ma non zero Soluzione: Soglia di similarit
  • Slide 20
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Bag-Of-Word Limiti: Rappresentazione cruda del testo (non viene analizzata la semantica) Parole uguali che assumono nel documento significati differenti sono trattate come la stessa parola Presenza di elevato rumore (vedremo pi avanti) Vantaggi: Semplice e veloce Relativamente bassa complessit computazionale Buoni risultati (60 % 70 % in classificazione) Studiata da 15 anni
  • Slide 21
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Rumore Con rumore si intende qualunque cosa che disturba il buon comportamento del sistema In questo caso: Parole poco informative sul topic del documento (articoli, congiunzioni, avverbi) Parole diverse con significati simili (sinonimi) Parole uguali con significati diversi (es. ncora e ancra) Verbi coniugati (vado e andare) Per limitare alcuni di questi problemi sono stati studiati metodi di pre-processing
  • Slide 22
  • Rigutini Leonardo Dipartimento di Ingegneria dellInformazione Normalizzazione del testo Consiste in quattro step di cui due opzionali: 1.Tokenization 2.Conversion to lowercase 3.Lemming 4.Stop-word Tali operazioni tentano di ridurre il rumore introdotto dalla rappresentazione bag-of-word del documento
  • Slide 23
  • Rigutini Leonardo D