Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e...

28
Arricchimento semantico di edizioni digitali in TEI Riconoscimento e disambiguazione di menzioni di autori in testi di critica letteraria Francesca Frontini Istituto di Linguistica Computazionale “A. Zampolli” CNR - Pisa ILC Spring Seminar - 25 giugno 2015

Transcript of Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e...

Page 1: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Arricchimento semantico di edizioni digitali in TEI

Riconoscimento e disambiguazione di menzioni di autori in testi di critica letteraria

Francesca Frontini Istituto di Linguistica Computazionale “A. Zampolli”

CNR - Pisa

ILC Spring Seminar - 25 giugno 2015

Page 2: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Soggiorno al LABEX OBVIL

…….

Page 3: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based
Page 4: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Pubblicazioni

Page 5: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Strumenti

Strumenti per la pubblicazione

Strumenti per la ricerca

Page 6: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

I miei progetti:

- analisi stilistica computazionale…. (un’altra volta) - riconoscimento e annotazione entità nominate

Page 7: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Principali requisiti:

• Adattamento al dominio

• saggistica e critica francese del 19° secolo

• testi abbastanza eterogenei

• TEI - compatibile:

• TEI in input e output

• problematico

Page 8: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Cosa e comeCosa sono le entità nominate:

• persone

• luoghi

• titoli

• …

Come si annotano:

• riconoscimento (NER)

• classificazione (NERC)

• disambiguazione / linking (NED/ NEL)

Page 9: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

La pipeline di annotazione

TEI NERC

NELTEI-ner

TEI-nelcontrollo manuale

controllomanuale

Page 10: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

NERC• UNERD, sistema non supervisionato per il riconoscimento

e la classificazione di entità nominate (Mosallam et al 2014)

• domain adaptation dei dizionari basato sui linked data (BnF)

• confronto UNERD con STANFORD NLP e Apache OPENNLP

• scarsa portabilità dei modelli appresi da un autore all’altro; utilità di strumenti non supervisionati.

• http://obvil-dev.paris-sorbonne.fr/unerd/unerd-tei/

Page 11: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

C’est alors que Vigny, bien plus encore que Lamartine, laisse tomber de sa poésie toute cette continuité, ..... Alfred de Vigny mettait son amour-propre de poète à rester à l’avant-garde

NEL

http://live.dbpedia.org/page/Alfred_de_Vigny

Importanza del linking per creare edizioni arricchite

Page 12: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

TEI - referenze

TEI document

Header

Body <persName ref= “REF” key=“Vigny, Alfred de (1797-1863)”>

State of the LOD cloud (excerpt, 2014): http://lod-cloud.net/

Page 13: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Prima del NEL.... c'est ainsi que les curieuses expériences de <persName>H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement ....

... prédire par exemple l'état de la faune de la <placeName>Grande-Bretagne</placeName> en 1868 …

[Bergson - L’evolution créatrice]

Page 14: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Dopo il NEL.... c'est ainsi que les curieuses expériences de <persName ref="http://data.bnf.fr/ark:/12148/cb123248712#foaf:Person http://dbpedia.org/resource/Hugo_de_Vries http://www.idref.fr/035763655">H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement ....

... prédire par exemple l'état de la faune de la <placeName ref=”http://fr.dbpedia.org/page/Royaume-Uni”>Grande-Bretagne</placeName> en 1868 …

[Bergson - L’evolution créatrice]

Page 15: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based
Page 16: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

“Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.”

REDEN: graph-based NEL

Romanticismo

Poeta

Victor Hugo

Alfred de Vigny

Joseph Pierre de Vigny

Alix de Lamartine

Alphonse de Lamartine

Benno Vigny

Persona

Page 17: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

REDEN: fasi• costruzione dell’indice da basi di conoscenza

strutturata online (LOD)

• individuazione dei candidati per ogni menzione

• recupero dei dati rilevanti e costruzione del grafo

• calcolo della centralità e scelta dei referenti

Page 18: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

REDEN: indice

BnF

sameAs IDREF

DBPEDIA uri1_ref uri2_ref uri3_ref …

uri1_idref uri2_idref uri3_idref …

uri1_dbpedia uri2_dbpedia uri3_dbpedia …

sameAs

French DBPEDIA

sameAs uri1_frdbpedia uri2_frdbpedia uri3_frdbpedia …

forma superficiale, URI: Vigny > {vigny1_dbpedia, vigny1_bnf}, {vigny2_bnf}Alfred de Vigny > {vigny1_dbpedia, vigny1_bnf}

Page 19: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

REDEN: candidati e fonti“Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.”

Candidates (Victor Hugo) = [victor_hugo_bnf,victor_hugo_dbpedia}

Candidates (Lamartine) = [alix_de_lamartine-bnf, alix_de_lamartine_dbpedia] [alphonse_de_lamartine_bdf, alphonse_de_lamartine_dbpedia],[elise_de_lamartine_bnf] …

Candidates (Vigny) = [joseph_pierre_de_vigny_bnf, joseph_pierre_de_vigny_dbpedia],[benno_bigny_bnf][alfred_de_vigny_bnf,alfred_de_vigny_dbpedia],…

Page 20: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

REDEN: grafo• Dato un contesto (es. paragrafo)

• Per ogni candidato

• Accedo a tutti gli URI disponibili e Recupero tutte l’informazione strutturata:

• è un poeta, è influenzato da, è vissuto da .. a ….,

• Costruisco del grafo con le informazioni per tutti i candidati di tutte le menzioni del contesto

• fusione, eliminazione di nodi inutili

Page 21: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

REDEN : centralità

Per ogni set di candidati (colore) : • calcolare la centralità rispetto al grafo • scegliere il candidato più centrale

(Degree Centrality, Freeman 1977)

Page 22: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

REDEN: valutazioneAnnotazione manuale di menzioni di autori da:

“Réflexions sur la littérature” di Albert Thibaudet, 1936. (Scrittori, poeti,…)

Indice da LOD BnF + French DBpedia

Authors’ mentions Found Correct None Precision Coverage

Thibaudet 1027 1004 878 23 0.87 0.85

Page 23: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

REDEN: altri lavori• grafi pesati: scoprire se vi sono relazioni più

importanti (ex: influencedBy)

• è difficile prevedere quali siano le relazioni più importanti (argomento e dominio sono importanti)

• gestione della distanza spaziale e temporale nel grafo

• l’influenza di un autore su un altro si estende spesso a di là dello spazio e del tempo (William vs Nicholas Shakespeare)

Page 24: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

REDEN parametri• classe (person, location, …)

• basi di conoscenza (generiche, dominio specifiche)

• contesto di disambiguazione (paragrafo, frase, testo intero)

• pesi per determinate relazioni

• filtri spaziali, temporali

Page 25: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Conclusioni REDEN• REDEN innova rispetto allo stato dell’arte (DBpedia

Spotlight, Daimler et al 2013) :

• supporta TEI

• permette di usare RDF nativamente e online (= sempre aggiornato);

• usa diverse fonti

• usa un algoritmo a grafo (non necessita di informazione testuale)

Page 26: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Bibliografia REDEN• Identificazione del miglior algoritmo di centralità

Frontini, F., Brando, C., Ganascia, J.G.: Semantic web based named entity linking for digital humanities and heritage texts. In: Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference. pp. 77–88 (2015), http://ceur-ws.org/Vol-1364/

• Descrizione dell’algoritmo di fusione

Brando, C., Frontini, F., Ganascia, J.G.: Disambiguation of named entities in cultural heritage texts using linked data sets (accepted). In: Proceedings of the First International Workshop on Semantic Web for Cultural Heritage in Conjunction with 19th East-European Conference on Advances in Databases and Information Systems (2015)

• Confronto con DBSL

Frontini, F., Brando, C., Ganascia, J.G.: Domain-adapted named-entity linker using Linked Data. In: Proceedings of the Workshop on NLP Applications: Completing the Puzzle (WNACP 2015), Passau, Germany, June 17-19, 2015

Disponibile: https://github.com/cvbrandoe/REDEN

Page 27: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Piste di collaborazione ILC OBVIL

• Buone pratiche di pubblicazione TEI (TEI book)

• Tecnologie NERC e NEL ibride (unsupervised + supervised)

• Testare su altre lingue (italiano)

• Testare su altri domini (narrativa, ….)

• Altro…. ?

Page 28: Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Merci pour votre attention!