Sinergie t t l i t i hi i tra tecnologia, storia e archivi:
l'esperienza del progetto p p gPRiSMHA i t t prima puntata
A GAnna Goy(Dipartimento di Informatica, Università di Torino)
aprile 2019Anna Goy 1
La ricerca scientificaQuando si fa ricerca scientifica (applicata) in informatica) il contributo scientifico si caratterizza per tre dimensioni principali:
Licence: CC0
• l'approccio (le tecniche, le tecnologie, le metodologie,...)il d i i i i i li t• il dominio in cui viene applicato
• l'obiettivo, il fine che si vuole raggiungereEs. InfoVis applicata a dati biomedici per evidenziare correlazioni interessanti, Machine Learning applicata a dati per il marketing per Learning applicata a dati per il marketing per aumentarne l'efficacia, ecc.
aprile 2019 2Anna Goy
Il Cultural Heritage - I proviamo a focalizzarci su un dominio: il
Cultural Heritage e a immaginare quali Licence: CC0
tecniche, tecnologie, metodologie informatiche possono essere
tili a q ali scopiutili a quali scopi...Dice Wikipedia: Il patrimonio culturale [Cultural Heritage] è l'insieme di beni, che per particolare rilievo storico culturale ed estetico sono di interesse storico culturale ed estetico sono di interesse pubblico e costituiscono la ricchezza di un luogo e della relativa popolazioneluogo e della relativa popolazioneFanno parte del Patrimonio Culturale beni di natura molto eterogeneanatura molto eterogenea...
aprile 2019 3Anna Goy
Il Cultural Heritage - IISempre Wikipedia diche che, secondo la legge Bottai (l.1089/1939), sono beni culturali: • monumenti (mobili e immobili) che hanno un
riconosciuto pregio artistico o rilevanza storicadifi i di i i t l ti ti t i• edifici di riconosciuto valore artistico o storico
• beni archeologicicentri storici (insiemi urbanistico ed edilizi che • centri storici (insiemi urbanistico ed edilizi che hanno conservato le proprie caratteristiche nel tempo)p )
• beni librari e biblioteche• beni archivistici (i documenti, ma anche le
istruzioni pubbliche destinate alla loro conservazione )musei e beni mobili in essi custoditi• musei e beni mobili in essi custoditi
aprile 2019 4Anna Goy
Archivi Storici - IFocalizziamo l'attenzione sugli archivi storici...Dice sempre Wikipedia:
Un archivio diventa storico dopo
© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS
pquarant'anni di deposito di documenti, durante i quali vanno gradualmente ad
ffi i i fi é i i iaffievolirsi fino a pressoché estinguersi gli interessi di natura pratica, contabile, amministrativa e giuridica degli atti in esso amministrativa e giuridica degli atti in esso contenuti; d'altro canto dopo trent'anni si considera ormai maturato un interesse di tipo pculturale e storico, per questo l'archivio viene messo a disposizione di terze persone mosse d fi i di t di da fini di studio.
aprile 2019 5Anna Goy
Archivi Storici - IIGli archivi storici sono una miniera di informazioni, storie, personaggi, racconti di eventi, ... ma spesso sono quasi inaccessibili
aprile 2019 6Anna Goy
Archivi Storici - IIIQuanti di voi hanno mai visitato un archivio storico??Sarebbe bello che gli archivi storici diventassero una storici diventassero una fonte accessibile, fruibilee utile:• accessibile non solo agli studiosi, ma al
pubblico• fruibile e comunicabile• viva e attrattiva (per es. per il turismo)• coinvolgente per le nuove generazioni
Per questo occorrePer questo occorre...
aprile 2019 7Anna Goy
Archivi Storici e ICT - I
disponibilità di risorse digitalizzate disponibilità di metadati ricchi di informazioni disponibilità di metadati ricchi di informazioni integrazione tra metadati usati in diversi archivi integrazione con altre risorse (es. Linked Open
Data DBpedia, WikiData, ecc.) strumenti di accesso (interfacce utente)
efficaci e usabili (strumenti online, app mobile, I t t f Thi )Internet of Things, ecc.)
Quali tecnologie?Quali tecnologie?
aprile 2019 8Anna Goy
Archivi Storici e ICT - II1. Open API e Web Services (es. REST)
integrazione di archivi eterogenei costruzione di strumenti di accesso costruzione di strumenti di accesso
2. Tecnologie semantiche (Semantic Web/AI) integrazione di archivi eterogeneig g arricchimento dei metadati integrazione con Linked Open Data
3 T l i di NLP/AI ( I f ti E t ti ) 3. Tecnologie di NLP/AI (es. Information Extraction) arricchimento dei metadati
4 Machine Learning/AI (es Image Recognition) 4. Machine Learning/AI (es. Image Recognition) arricchimento dei metadati
5 Crowdsourcing (user-generated content)5. Crowdsourcing (user-generated content) arricchimento dei metadati
6. Information Visualization e HCI6. Information Visualization e HCI costruzione di strumenti di accesso
aprile 2019 9Anna Goy
La collaborazione Unito e Ist. Gramsci Progetto Harlock'900 (2016-2019)
Dip. di Informatica (Unito) + Ist. A. Gramsci (To)
obiettivo = testare l'uso di tecnologie ti h di HCI i l semantiche e di HCI su un piccolo
insieme di risorse© Toei Animation
Matsumoto, Takeshi, Yoichi, Yoshiaki
Progetto PRiSMHA (2017-2020)Dip. di Informatica e Dip. di Studi Storici (Unito)
+ Ist A Gramsci/Polo del '900 (To)+ Ist. A. Gramsci/Polo del '900 (To)
bi tti t t l' di d ll obiettivo = testare l'uso di un modello di crowdsourcing, di tecnologie semantiche e di HCI su un nuovo insieme di risorsedi HCI su un nuovo insieme di risorse
aprile 2019 10Anna Goy
Il Polo del '900What: Cultural CenterWhere: 8.000 mq c/o Quartieri Militari
© Polo del '900
juvarriani in TorinoWho: 19 cultural institutions (members)R i Pi t C di T i C i di Regione Piemonte, Comune di Torino, Compagnia di S. Paolo (founders)Online: www polodel900 itOnline: www.polodel900.itLibrary: 300.000 volumesArchives: 900 archival fonds, 130.000 pictures, 21.000 pposters, 53.000 AV, ...Archives online (9centRo platform):
l d l900 it/9 twww.polodel900.it/9centro
Eventi, concorsi, mostre, ...
aprile 2019 11Anna Goy © Polo del '900
L'Istituto piemontese A G iA. GramsciWhere: at Polo del '900Online: www.gramscitorino.itLibrary: 60.000 volumes
h t f j l d + a huge amount of journals and newspapersArchives: 220 fonds, 33.000 pictures, 4.000 posters, 1 000 AV flags banners e objects1.000 AV, flags, banners e objects(= 25% of the total of Polo del '900 archives)Pictures Archive online: www.gramscitorino.it/archiviofotografico.html
aprile 2019 12Anna Goy
© Polo del '900
Harlock'900 - IStrumenti di accesso
offrire agli utenti la possibilità di i i d i d li navigare tra i documenti degli
archivi storici in modo + efficace rispetto ai classici cataloghirispetto ai classici cataloghi
possibilità di scoprire ed esplorare p p pconnessioni tra luoghi, eventi, persone, organizzazioni e le risorse che li " t "
© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS
"raccontano"
applicazione web che permette di esplorare storie personali e fatti storici avvenuti in Piemonte tra il 1943 e il 1945 e di scoprire le risorse 1943 e il 1945 e di scoprire le risorse d'archivio che ne parlano
aprile 2019 13Anna Goy© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS
Harlock'900 - II
aprile 2019 14Anna Goy
PRiSMHA - IPRiSMHA = Providing Rich Semantic Metadata for
Historical Archivesl i i hTecnologie semantiche
Semantic layer = metadati semantici che d i il t t d ll idescrivono il contenuto delle risorse
Strumenti:O t l i t i li
OWL◦ Ontologie computazionali:
conoscenza di dominio del sistema ◦ RDF triplestore: Abcdef
RDF
◦ RDF triplestore: base di conoscenza di (meta)dati che descrivono il contenuto delle risorse descrivono il contenuto delle risorse d'archivio nei termini definiti dall'ontologia
Vi ricordate il talk di Diego Magro g g(Gufi, scintille ed altre cose strane...)?
aprile 2019 15Anna Goy
Gufi, scintille ed altre cose strane... - I
aprile 2019 16Anna Goy
Gufi, scintille ed altre cose strane... - II
aprile 2019 17Anna Goy
Gufi, scintille ed altre cose strane... – III
aprile 2019 18Anna Goy
Gufi, scintille ed altre cose strane... - IV
aprile 2019 19Anna Goy
Gufi, scintille ed altre cose strane... - V
aprile 2019 20Anna Goy
PRiSMHA - IIL'ontologia: HERO (Historical Event Representation Ontology)rappresenta la conoscenza del sistema il rappresenta la conoscenza del sistema, il vocabolario concettuale per descrivere il contenuto dei descrivere il contenuto dei documenti d'archivio
aprile 2019 21Anna Goy
PRiSMHA - IIIIl triplestore (RDF):
<https://w3id.org/prismha/resource/event/15,http://www w3 org/1999/02/22 rdf syntax ns#typehttp://www.w3.org/1999/02/22-rdf-syntax-ns#type, https://w3id.org/hero/HERO-EVENT#PoliceCharge><https://w3id.org/prismha/resource/event/15, http://www.w3.org/2000/01/rdf-schema#label, 'studenti aggrediti dai carabinieri'><https://w3id.org/prismha/resource/event/15, https://w3id.org/hero/HERO-EVENT#hasAgent, https://w3id.org/prismha/resource/object/24>p // g/p / / j /<https://w3id.org/prismha/resource/object/24, http://www.w3.org/1999/02/22-rdf-syntax-ns#type, https://w3id.org/hero/HERO-ROCS#Organization><https://w3id org/prismha/resource/event/15<https://w3id.org/prismha/resource/event/15, https://w3id.org/hero/HERO-EVENT#hasPatient, https://w3id.org/prismha/resource/object/07><https://w3id.org/prismha/resource/object/07,
// / / /http://www.w3.org/1999/02/22-rdf-syntax-ns#type, https://w3id.org/hero/HERO-ROCS#Set><https://w3id.org/prismha/resource/object/07, https://w3id.org/hero/HERO-ROCS#hasDescribingConcept,p // g/ / g p ,https://w3id.org/hero/HERO-ROLE-INDIVIDUALS-900#student>...
aprile 2019 22Anna Goy
PRiSMHA - IIIIl 20 Novembre, ... gli studenti ... sono stati aggrediti dai carabinieri armati di catene
152301_18.9_Bonet.pdf
isAbout
ConfrontationalAction Organization
isAbout IsAIsA
Day PoliceCharge LawEnforce-mentAgency
studentih Ti h A t
instance-ofinstance-of
mentAgency
studenti aggrediti dai carabinieri
Carabinieri20.11.68hasTime hasAgent
PhysicalObjecthasPatient
instance-ofinstance-of
Set RolePhysicalObject
aprile 2019 23Anna Goy
hasDescribingConcept
studenti studentecatene
PRiSMHA - IVCome si fa a costruire metadati semantici (rappresentazione RDF d l t t d ll i )? del contenuto delle risorse)? Chi "spiega" al sistema di cosa parlano i documenti?
Licence: CC0
documenti?
1. Information Extraction uso di strumenti di NLP per estrarre automaticamente informazioni dai testi ( quando i testi sono disponibili!)(... quando i testi sono disponibili!)
2. Crowdsourcing (user-generated content)piattaforma web per la costruzione collaborativa dei metadati semantici (risorse digitalizzate!)digitalizzate!)
aprile 2019 24Anna Goy
PRiSMHA - VSinergia tra Information Extraction e Crowdsourcing
estraz. autom.
metadati che descrivonoil contenuto delle risorsed'archivio (RDF triplestore)
© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS
Licence: CC0 ( p )Licence: CC0
ricercatoristudenti
appassionati
Licence: CC0
appassionati
piattaformacollaborativa
aprile 2019 25Anna Goy
PRiSMHA: Information Extraction Named Entity Recognition: riconoscimento auto-
matico di rif. a persone, organizzazioni, luoghi, datel i i d ll'8 tt b '43 iIl pomeriggio dell'8 settembre '43 ero in tram,
diretta a San Mauro, dove c'erano Renata e altri amici. A un certo punto, in corso Casale, si vide
b t i b d i lt iun assembramento verso i bar da cui alta risuonava una voce dalla radio. Scesi e udii il proclama del maresciallo Badoglio che annunciava l'armistizio.
Event mining: riconoscimento automatico di espressioni che denotano eventi (e partecipanti)p ( p p )Gli effettivi del generale Schlemmer [...] Durante il cammino effettuano le ultime stragi: a Grugliasco massacrano 66 persone garibaldini eGrugliasco massacrano 66 persone, garibaldini e civili; a Nichelino uccidono 13 garibaldini della Brigata Pisacane. Tenteranno di proseguire verso il Vercellese; bloccati però anche lì dai partigiani,
aprile 2019 26Anna Goy
Vercellese; bloccati però anche lì dai partigiani, finiranno per arrendersi il 3 maggio nelle mani degli Alleati.
PRiSMHA: Crowdsourcing - ISarra S. La nuova frontiera per la condivisione della conoscenza: uno studio sui sistemi di crowdsourcing per le risorse culturali. Tesi di laurea Magistrale, Università di Torino, aa 2016/2017
Modello di crowdsourcing in settori culturali: diverso da quello usato in settori commerciali1. com: benefici economici vs cult:
partecipazione volontaria 2 f ll i di ti t lt ità iù 2. com: folla indistinta vs cult: comunità più
ristretta, ("appassionati")Cl ifi d i d lli di d i Classificaz. dei modelli di crowdsourcing Dunn S. & Hedges M. Crowd-sourcing Scoping Study(crowds.cerch.kcl.ac.uk/wp-content/uploads/2012/12/Crowdsourcing-
t d iti df)connected-communities.pdf)Dunn S. & Hedges M. Commencted Communities(www.ahrc.ac.uk/documents/project-reports-and-reviews/connected-communities/crowd-sourcing-in-the-humanities/)/ g /)in base a diversi aspetti:
aprile 2019 27Anna Goy
PRiSMHA: Crowdsourcing - II Asset type: tipo di risorsa/oggetto/dato Process type: tipo di processo (dipende – anche –Process type: tipo di processo (dipende anche
dal tipo di risorsa) [*] Task type: tipo di attività svolta dal partecipante Task type: tipo di attività svolta dal partecipante
sulle risorse (dipende – anche – dal tipo di risorsa)
Output type: tipo di risultato prodotto (può Output type: tipo di risultato prodotto (può essere tangibile o immateriale – es. consapevolezza e conoscenza)
[*] Tipi di processi (Dunn & Hedges): Tagging collaborativo (gereralm. testo libero) Tagging collaborativo (gereralm. testo libero)
corpus di risorse ricercabili attraverso parole chiave Trascrizione Correzione o modifica di un contenuto (es. OCR)
aprile 2019 28Anna Goy
PRiSMHA: Crowdsourcing - III Collegamento (connessione tra risorse) Registrazione (patrimonio culturale immateriale
conservaz in forma tangibile; es raccolta dei ricordi conservaz. in forma tangibile; es. raccolta dei ricordi di una comunità, x es. parole in disuso)
Commento, critica e raccolta di preferenze Commento, critica e raccolta di preferenze Categorizzazione (classificazione = assegnazione di
risorse a categorie predefinite) Catalogazione (creazione di metadati strutturati e
descrittivi, secondo determinati standard) Contestualizzazione (arricchimento di una risorsa
associandole altri contenuti attinenti)Georeferenziazione (ubicazione di info geografiche) Georeferenziazione (ubicazione di info geografiche)
Mappatura (creazione di una rappresentazione spaziale, geografica o concettuale/mentale)spa a e, geog a ca o co ce ua e/ e a e)
Traduzione aprile 2019 29Anna Goy
PRiSMHA: Crowdsourcing - IVZ iZooniverse (www.zooniverse.org) 1,6 milioni di iscritti e 72 progetti attivi
progetti di ogni tipo soprattutto scientifici ( progetti di ogni tipo, soprattutto scientifici (es. classificaz. documenti storici, immagini di galassie, animali)
per partecipare non è necessaria alcuna per partecipare non è necessaria alcuna specializzazione o competenza specifica conoscenza "popolare"
aprile 2019 30Anna Goy
PRiSMHA: Crowdsourcing - VPyBossa (pybossa.com) framework per il crowdsourcing, basato sul
C d fti ( d f i )server Crowdcrafting (crowdcrafting.org) usato in più di duemila progetti, ha raccolto più
di due milioni di contributi (es: trascrizione di di due milioni di contributi (es: trascrizione di documenti scritti a mano; trascrizione di video e audio; analisi di immagini, video e suoni; geo-tagging; identificaz. di tti f i di oggetti, facce, suoni; arricchimento di dati)
il team di sviluppo sta il team di sviluppo sta testando l’integraz. di strumenti di AI per supportare il lavoro (es. identificaz. di immagini, riconoscim. immagini, riconoscim. facciale, traduzione)
aprile 2019 31Anna Goy
PRiSMHA: Crowdsourcing - VIP ditPundit (thepund.it) applicazione web (Pundit Annotator client) +
Pundit Server) per l'annotazione di pagine html Pundit Server) per l annotazione di pagine html (gestita dall'azienda Net7)
permette di creare annotazioni "semantiche" p(triple RDF) relazioni tra elementi della risorsa (pagina html) e Linked Open Data
usa lo standard Web Annotation del W3C
aprile 2019 32Anna Goy
PRiSMHA: Crowdsourcing - VIII PRiSMHA bbi tt t i l t t In PRiSMHA abbiamo progettato e implementato un prototipo (v1) di piattaforma di crowdsourcing:
la UI consente agli utenti di "annotare" documenti ◦ la UI consente agli utenti di annotare documenti d'archivio con rappresentazioni semantiche del loro contenuto
◦ il processo è "guidato" dall'ontologia HERO, che fornisce il vocabolario concettuale
Tecnologie:Spring, MySQL, Jackson Libraries Jackson Libraries, OWL Api, Konclude, Apache JENA, Log4J, Gradle, Bootstrap, JQuery, p, Q y,D3, PDFObject
aprile 2019 33Anna Goy
PRiSMHA - VIA cosa serve tutto questo?!?
Supponiamo di dovrer fare una ricerca sul '68 e di d ti i i li h li di ti i cercare documenti originali che parlino di eventi in
cui polizia, carabinieri, ... hanno usato la violenza contro degli studentigCosa cerchereste con un motore di ricerca?
il motore troverebbe i ... il motore troverebbe i documenti che contengonoquelle parole chiaveq p
Molti documenti non verrebbero trovati!Per es. dove si parla di poliziotti e carabinieri che hanno p poccupato l'università con i carri armati, di un "nostro compagno" morto; di carabinieri che, armati di catene, hanno aggredito degli studenti; di "mantenimento dell'ordine hanno aggredito degli studenti; di mantenimento dell ordine pubblico a colpi ci catenelle" contro degli studenti, ...
aprile 2019 34Anna Goy
PRiSMHA - VIIassociata ad ogni documento PRiSMHA ha una PRiSMHA ha una rappresentazione semantica dei semantica dei contenuti fatta in termini concettuali
© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS
© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS
se la ricerca vieneespressa in termini di
© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS
espressa in termini di concetti (e non di keyword) questi y ) qdocumenti verranno trovati !!
aprile 2019 35Anna Goy UI by Linda Carretta
PRiSMHA - VIIISupponiamo ora di essere un progettista/ programmatore e di voler realizzare un'app che proponga itinerari basati ai racconti contenuti proponga itinerari basati ai racconti contenuti nei documenti d'archivioDove potreste trovare i dati?ple rappresentazioni semantiche associate ai documenti sono basate sugli standard del Semantic Web (RDF, Linked Data) potete collegare la vostra app al triplestore RDF (attraverso uno SPARQL endpoint) e utilizzare direttamente quei dati!
Licence: CC0
aprile 2019 36Anna Goy
Venerdì...
venerdì 12 aprile 201915:00-17:305 00 7 30Polo del '900via del Carmine 14, Torino
Sinergie tra tecnologia, storia e archivi: l'esperienza del progetto PRiSMHA seconda puntatain collaborazione con Fondaz. Ist. piemontese A. Gramsci/Polo del '900nell'ambito del festival Archivissimawww.archivissima.itLe fonti d'archivio come strumenti per la didatticawww archivissima it/dettaglio programma/1152www.archivissima.it/dettaglio-programma/1152
aprile 2019 37Anna Goy
The end (o no?)La strada è ancora lunga, ci sono un sacco di cose d fda fare... Stiamo preparando un test su alcuni aspetti
della UI "concettuale" (guidata dall'ontologia), che si svolgeranno probabilmente a maggio eprobabilmente a maggio ecerchiamo volontari!!
Su molti aspetti si possono costruire delle tesi interessanti...
Se siete interessati, contattatemi!!([email protected])
Rif. progetto PRiSMHA: di.unito.it/prismhaaprile 2019 38Anna Goy
Top Related