Presentacion taltac2

15
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Gener Laboratorio M.A.D.I.T. Dipartimento di Psicologia Gener U N I V E R S I T À degli Studi di P A D O V A-Cors U N I V E R S I T À degli Studi di P A D O V A-Cors T.A. T.A. L.T L.T .A.C. .A.C. 2 del corso : sviluppare competenze di gestione di Taltac 2 attraverso M •Trattamento automatico •Lessicale •Testuale •Contenuto •Corpus Unità di testo = PAROLE Unità di contesto = frammenti/documenti Ricerca di parole chiave,misure di speci Struttura del testo, DNA del testo

Transcript of Presentacion taltac2

Page 1: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.T.A.L.TL.T.A.C..A.C.22

Obiettivo del corso: sviluppare competenze di gestione di Taltac2 attraverso M.A.D.I.T.

•Trattamento automatico

•Lessicale

•Testuale

•Contenuto

•Corpus

Unità di testo = PAROLE

Unità di contesto = frammenti/documenti

Ricerca di parole chiave,misure di specificità

Struttura del testo, DNA del testo

Page 2: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.T.A.LL.T.A.C..T.A.C.22

Analisi lessicale:

1. Misure lessico-metriche

2. Analisi dei segmenti ripetuti

3. Tagging (grammaticale e semantico)

4. Confronti lessicali

5. Analisi delle specificità

6. Linguaggio peculiare (parole rilevanti, TFIDF)

Page 3: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

Analisi testuale:

1. Analisi delle concordanze

2. Estrazione informazioni con query

Page 4: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

Quale tipologia di testo analizza lo strumento?

Risposte a DOMANDE APERTE/TESTI INTERI:

• Testi da blog

• Testi di focus group

• Articoli di giornale

• Opere di un autore

VARIABILI CATEGORIALI

Page 5: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

Da cosa è composto IL CORPUS?

= INSIEME DI FRAMMENTI

Insieme di risposte a domanda aperta 1 frammento = 1 risposta

Intero libro/manuale

o

1 frammento = 1 capitolo

Page 6: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

1 Corpus = più frammentisezione

sezione

sezione

Es. corpus = raccolta di articoli = abstract, testo articolo, titolo, rif. bibliografico

Page 7: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

Come costruire il corpus affinché Taltac2 lo legga?

LE REGOLE DELLA SINTASSI

ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo) con 2 VARIABILI (testata e mese di pubblicazione)

****ARTICOLO1*TESTATA=repubblica*MESE=gennaio++++ occhielloSjdfsjfoijwfpw sjodjsaodjapid aidhosjdoiljdap osjdosdjopsa sojdojdo++++ titoloksjhlihdL AJHsaj AsjlkJSò ++++ testo

Page 8: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

LE REGOLE DELLA SINTASSI

ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo) con 2 VARIABILI (testata e mese di pubblicazione)

****ARTICOLO1*TESTATA=repubblica*MESE=gennaio

*NOMEVAR=NOME MODALITA’ RIGHE DI IDENTIFICAZIONE FRAMMENTO

Indica che inizia una variabile

No segni di interpunzione né spazi

Qualsiasi carattere ma non *

Page 9: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

1. Se un frammento non presenta 1 modalità?

*NOMEVAR=nullo

****ARTICOLO1*TESTATA=repubblica*MESE=nullo

2. Quante variabili sono ammesse? Al massimo 99

3. Lo strumento ammette che:

1 o più frammenti non contenga 1 o più sezioni

Tutti i frammenti non abbiano VAR associate

Tutti i frammenti non presentino sezioni

Page 10: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

In quale formato redarre il corpus?

Scrivere il testo in Word, salvarne una versione = .doc

In quale formato salvare il corpus?

Salvare il testo in testo delimitato da tabulazione = .txt

Dove salvare i documenti?

Page 11: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

In quali ambienti vengono salvati i file prodotti dallo strumento?

CARTELLA DI LAVORO = CARTELLA DI SESSIONE

file di testo .txtFile di risultato

Primo step: Inserimento corpus in Taltac e costruzione del vocabolario

Page 12: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.L.T.A.L.TT.A.C..A.C.22

Prima esercitazione: costruzione del corpus oggetto dell’analisi

Obiettivo: costruire il file di testo rispetto alle seguenti indicazioni

Il file di testo è composto da: 3 FRAMMENTI DI 2 VARIABILI SUDDIVISI IN 2 SEZIONI

LA DOMANDA: Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere una situazione in cui NON è stato pienamente soddisfatto?

Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere una situazione in cui è stato pienamente soddisfatto?

I RISPONDENTI: PSICOLOGI NEO LAUREATIVARIABILI: data = mese di dicembre (I,II,III,IV settimana)

luogo = it. Centro, sud, nord, e estero SEZIONE: dom 1 e dom 2

Page 13: Presentacion taltac2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A.T.A.L.TL.T.A..A.CC..22

LESSICO: il significato del termine è stabilito dai parlanti, è negoziato nell’interazione (il significato è quello del dizionario).

CONCETTO: si stabilisce che il significato del termine ha una modalità d’uso entro un particolare campo di applicazione in cui il termine vale per tutti allo stesso modo.COSTRUTTO: il significato del termine è stabilito all’interno di una determinata teoria in uno specifico testo.

Come usare lo strumento secondo riferimenti scientifici?

Lessico, testuale, del contenuto e del corpus

Page 14: Presentacion taltac2

L’INDICE IS DI MORRONE, l’incidenza delle occorrenze del segmento rispetto alle occorrenze delle forme semplici che lo compongono” (Bolasco, 1999).

La formula per il calcolo dell’indice di Morrone è la seguente:

L fsegmIS = [ ∑ ---------- ] * P

i=1 ffgi

“per ciascuna delle L forme grafiche componenti il segmento, si considera il rapporto fsegm (occorrenze del segmento) su ffg (occorrenze della forma grafica componente),

moltiplicando poi la somma di tutti questi quozienti per il numero P di parole piene presenti nel segmento. Tale indice è sempre positivo, si annulla quando il segmento è

composto solo da parole vuote, ed ha il suo massimo valore uguale a L2.” (Bolasco, 1999).

L’INDICE IS RELATIVO, ottenuto rapportando l’indice al suo massimo valore ottenuto, collocandosi su un continuum di valori che va da 0 a 1.

Laddove per “parole piene” si intende “parole chiave per l’analisi in corso”, mentre per “parole vuote” si intende “parole che non esprimono aspetti rilevanti rispetto all’analisi o parole strumentali alla

costruzione sintatticamente corretta delle proposizioni” (Tuzzi, 2003).[

Page 15: Presentacion taltac2

Pretrattamento:

• normalizzazione

• eliminazione forme/taglio di soglia

• correzione errori ortografici e grammaticali

• disambiguazione: es famiglia, es. analisi dei segmenti, es. utilizzo delle maiuscole (attenzione conflitto con normalizzazione), analisi dei segmenti

• categorizzazione