L’ANALISI AUTOMATICA E SEMI-AUTOMATICA DEI DATI · PDF file...

Click here to load reader

  • date post

    22-Feb-2020
  • Category

    Documents

  • view

    4
  • download

    0

Embed Size (px)

Transcript of L’ANALISI AUTOMATICA E SEMI-AUTOMATICA DEI DATI · PDF file...

  • LLeedd oonn LLiinnee SSttuuddii ee RRiicceerrcchhee ——————————————————————

    Luca Giuliano Gevisa La Rocca

    LL’’AANNAALLIISSII AAUUTTOOMMAATTIICCAA EE SSEEMMII--AAUUTTOOMMAATTIICCAA DDEEII DDAATTII TTEESSTTUUAALLII

    SOFTWARE E ISTRUZIONI PER L’USO

  • ISBN 978-88-7916-382-8 Copyright 2008 Via Cervignano 4 - 20137 Milano Catalogo: www.lededizioni.com - E-mail: led@lededizioni.com I diritti di traduzione, di memorizzazione elettronica e pubblicazione con qualsiasi mezzo analogico o digitale (comprese le copie fotostatiche e l’inserimento in banche dati) sono riservati per tutti i paesi. _________________________________________________________________________ Le fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di ciascun volume o fascicolo di periodico dietro pagamento alla SIAE del compenso previsto dall’art. 68, commi 4 e 5, della legge 22 aprile 1941 n. 633. Le riproduzioni effettuate per finalità di carattere professionale, economico o commerciale o comunque per uso diverso da quello personale possono essere effettuate a seguito di specifica autorizzazione rilasciata da: AIDRO, Corso di Porta Romana n. 108 - 20122 Milano E-mail segreteria@aidro.org – sito web www.aidro.org __________________________________________________________________________________________

    In copertina: R. van Marle, Iconographie de l’art profane au Moyen-age et à la Renaissance II. Allégories et symboles. Nijhoff, Den Haag, 1932

    Stampa: Digital Print Service

  • Luca Giuliano e Gevisa La Rocca – L’analisi automatica e semi-automatica dei dati testuali http:// www.ledonline.it/ledonline/analisi-automatica-dati-testuali.html

    5

    INDICE 1. INTRODUZIONE ALL’ANALISI DEI DATI TESTUALI 7 1.1. Informazioni e dati (p. 9). – 1.2. Testo, significato e interpretazione

    (p. 19). – 1.3 Classificazione dei testi e formazione del corpus (p. 23). - Approfondimenti tematici (p. 27). – Riferimenti bibliografici (p. 29).

    2. TESTI ON LINE: LUOGHI E PROCEDURE 31 2.1. I luoghi della Rete (p. 32). – 2.2. I blog (p. 36). – 2.3. Il download e

    la sua etica (p. 40). – 2.4. Documento-testo, selezione e pre-trattamento (p. 44). – 2.5. Il corpus utilizzato negli esempi: “Bullismo” (p. 48). - Ap- profondimenti tematici (p. 49). – Riferimenti bibliografici (p. 51).

    3. LA GROUNDED THEORY 53 3.1. Le origini della Grounded Theory (p. 53). – 3.2. La costruzione delle teo-

    rie (p. 57). – 3.3. Il processo di codifica e di concettualizzazione (p. 61). – Approfondimenti tematici (p. 66). – Riferimenti bibliografici (p. 67).

    4. LAVORARE CON ATLAS.TI5 69 4.1. La barra degli strumenti (p. 69). – 4.2. La preparazione dei documenti

    (p. 71). – 4.3. Creazione di una unità ermeneutica (p. 72). – 4.4. Codificare un testo (p. 79). – 4.5. Le famiglie e le super famiglie di codici (p. 85). – 4.6. Le query (p. 88). – 4.7. I network – Rappresentazioni di relazioni (p. 93).

    5. LAVORARE CON NVIVO7 – ORGANIZZARE E CODIFICARE IL TESTO 97 5.1. Creare un progetto di lavoro (p. 97). – 5.2. L’organizzazione dei dati: i

    casi e gli attributi (p. 102). – 5.3. La barra degli strumenti (p. 105). – 5.4. La formattazione del testo (p. 107). – 5.5. La creazione di nodi di codici (p. 108). – 5.6. Ri-organizzare codici e nodi (p. 118). – 5.7. I rapporti di lavoro (p. 124). – 5.8. Creare elementi di lavoro aggiuntivi (p. 125).

  • Indice

    Luca Giuliano e Gevisa La Rocca – L’analisi automatica e semi-automatica dei dati testuali http:// www.ledonline.it/ledonline/analisi-automatica-dati-testuali.html

    6

    6. LAVORARE CON NVIVO7 – INTERROGARE E RAPPRESENTARE IL TESTO

    129

    6.1. Le query (p. 129). – 6.2. I modelli (p. 141). 6.3. Le relazioni (p. 145).

    7. L’ANALISI QUANTITATIVA DEL LESSICO 149 7.1. I pionieri della linguistica quantitativa (p. 150). – 7.2. La costruzione dei

    lessici di frequenza (p. 153). – 7.3. La scuola francese della statistica testuale (p. 154). – 7.4. Estrazione dell’informazione e tecnologie di Text Mining (p. 155). – 7.5. Gli elementi costitutivi del testo: le parole (p. 156). – Approfon- dimenti tematici (p. 161). – Riferimenti bibliografici (p. 162).

    8. LAVORARE CON LEXICO3 165 8.1. Preparazione del corpus (p. 166). – 8.2. Le chiavi di partizione del

    corpus (p. 168). – 8.3. La barra degli strumenti (p. 170). – 8.4. Fram- mentazione del corpus e formazione del vocabolario (p. 172). – 8.5. A- nalisi delle partizioni del corpus (p. 174). – 8.6. Grafico di distribuzione per la partizione (p. 176). – 8.7. Analisi di specificità (p. 177). – 8.8. Raggruppamenti di forme grafiche (p. 180). – 8.9. Concordanze (p. 182). – 8.10. Cartografia dei paragrafi (p. 185). – 8.11. Altre funzioni e salva- taggio del rapporto. (p. 186). – Riferimenti bibliografici (p. 187).

    9. LAVORARE CON TALTAC2: IL TRATTAMENTO DEL TESTO 189 9.1. La barra degli strumenti (p. 189). – 9.2. Preparazione del corpus (p.

    191). – 9.3. Creazione di una sessione di lavoro (p. 193) – 9.4. Fase di pre-trattamento: normalizzazione (p. 196). – 9.5. Analisi del vocabolario (p. 200). – 9.6. Il riconoscimento delle forme grammaticali (p. 209). – 9.7. La lemmatizzazione (p. 211). – Riferimenti bibliografici (p. 213).

    10. LAVORARE CON TALTAC2: L’ANALISI LESSICALE 215 10.1. Text Data Mining ed esplorazione delle tabelle (p. 215). – 10.2. E-

    strazione dei segmenti ripetuti e lessicalizzazione (p. 219). – 10.3. Estra- zione delle forme specifiche (p. 223). – 10.4. Estrazione delle forme pe- culiari (p. 227). – 10.5. Confronto con un dizionario tematico: aggettivi positivi e negativi (p. 231). – Riferimenti bibliografici (p. 234).

    11. LAVORARE CON TALTAC2: L’ANALISI DEL CONTENUTO 237 11.1. Il recupero di informazione: le concordanze (p. 238). – 11.2.

    L’estrazione di informazione per parole chiave (p. 239). – 11.3. Catego- rizzazione del corpus da regole (p. 241). – 11.4. Esportazione di tabelle e ricostruzione del corpus (p. 243). – Esempi di ricerca (p. 246).

    Il progetto del volume è equamente condiviso dai due autori. I capitoli 1, 7, 8, 9, 10, 11 sono stati scritti da Luca Giuliano; i capitoli 2, 3, 4, 5 e 6 sono stati scritti da Gevisa La Rocca.

  • Luca Giuliano e Gevisa La Rocca – L’analisi automatica e semi-automatica dei dati testuali http:// www.ledonline.it/ledonline/analisi-automatica-dati-testuali.html

    7

    1. INTRODUZIONE ALL’ANALISI DEI DATI TESTUALI Una della qualità fondamentali per un ricercatore o un professionista della comunicazione è quella di saper gestire le informazioni contenute nei testi per estrarne il contenuto e interpretarle. Sintetizzare la rassegna stampa su un ar- gomento, leggere in modo sistematico una documentazione scientifica, esami- nare dei rapporti di ricerca, riassumere i risultati di una documentazione, ana- lizzare la trascrizione di un’intervista o di una discussione di gruppo, clas- sificare le risposte a una domanda aperta in un questionario o le e-mail dei clienti di un’agenzia di servizi sono attività che, per portare a risultati convin- centi, devono essere eseguite con procedure rigorose, pubbliche, controllabili e, entro certi limiti, replicabili.

    Oggi una buona parte di questi testi sono disponibili in formato digitale. Questo ne facilita la memorizzazione, la visualizzazione e la stessa estrazione di informazioni e dati per mezzo di software appositamente sviluppati a questo scopo. L’informatica ha trasformato radicalmente non solo il nostro modo di scrivere e leggere i testi, ma anche di interpretarli rendendo molto più sfumato il confine tra “parole che contano” e “conteggio delle parole”.

    Privilegiare le parole rispetto ai numeri, significa assumere il punto di vi- sta classico dell’ermeneutica, una pratica che nasce in Grecia (e che qualcuno vorrebbe collegare a Ermes, il messaggero degli Dèi dell’Olimpo) e poi si svi- luppa in riferimento agli scritti aventi autorità, per esempio le Sacre Scritture. È stato Wilhelm Dilthey (1833-1911), il fondatore dello storicismo tedesco, soprattutto con La costruzione del mondo storico nelle scienze dello spirito (1910), a e- sporre la necessità di una scienza dell’essere umano nella sua interezza, il cui vissuto si esprime in un mondo di significati e valori che possono essere com- presi solo con una filosofia ermeneutica che sia in grado di stabilire un rappor-

  • Capitolo 1

    Luca Giuliano e Gevisa La Rocca – L’analisi automatica e semi-automatica dei dati testuali http:// www.ledonline.it/ledonline/analisi-automatica-dati-testuali.html

    8

    to intenso e vitale tra il ricercatore e il suo oggetto. “Comprendere”, diversa- mente da “spiegare”, vuol dire per Dilthey risalire dalla espressione dello spiri- to alla sua interiorità. Questo è l’obiettivo specifico delle scienze che si oc- cupano della realtà dell’uomo. Pertanto l’attività umana, soprattutto in senso storico, secondo questa prospettiva è un “testo”, una narrazione che deve es- sere interp