DE Conferentie 2007 - Hennie Brugman
-
Upload
digitaal-erfgoedconferentie -
Category
Entertainment & Humor
-
view
418 -
download
2
description
Transcript of DE Conferentie 2007 - Hennie Brugman
Trefwoorden en context de semantische annotatie
H e t p r o j e c t CHOICE b i j Beeld en Geluid
`
Véronique Malaisé
Hennie Brugman
Luit Gazendam
Lora Aroyo
Guus Schreiber
Mettina Veenstra
Annemieke de Jong
Johan Oomen
Introductie
Introductie C.H.O.I.C.E.
• Context: CATCH programma
• CHarting the uncharted infOrmation landscape
employIng ContExt information
• Samenwerking VU, MPI, TI en Beeld en Geluid
• Research gebieden:
Automatische metadata suggestie
Semantisch zoeken en browsen
Werkproces van de av-documentalist
• Ontsluiting (digitale) radio- en televisieprogramma’s Publieke Omroep
• Geïntegreerd catalogussysteem IMMIX : metadata specificatie, workflowclient en metadata-editor
• Beschrijvingsregels per genre/programmaformat
• Viewing/afluisteren alleen bij bepaalde programmasoorten
• Gebruik contextbronnen (websites, recensies, kijk-luisteronderzoeken, presentatieteksten, logboeken)
CHOICE’s belangrijkste doel is om automatisch afgeleide thesaurustermen te suggereren voor specifieke metadata velden. Deze suggesties worden ontleend aan contextuele tekstbronnen die zijn
verbonden met radio of televisie-programma’s
Catalogus beschrijving
Metadata model
Beschrijvingsregels
Thesaurus
Audiovisueel document
Context documenten
documentalistnatural
language processing
thesaurus velden
1. Converteren en verrijken van de GTAAGemeenschappelijke Thesaurus Audiovisuele Archieven
2. Het annoteren van contextdocumentenTekst-segmenten linken aan GTAA concepten
3. Selecteren van contextdocumenten Die welke zijn verbonden aan een bepaald TV programma
4. Rangschikken van de annotatiewaarden Meest relevante bovenaan de lijst
5. Presenteren Termen uit de lijst aan de documentalist
De ‘annotatiepijplijn’
Conversie en verrijking GTAA
Conversie en uitbreiding GTAA
• Facet-thesaurus Onderwerp, Genre, Persoonsnaam, Naam, Maker,
Locatie • Broader Term/Narrower Term, Related Term, use/use
for, scope note• Omzetting naar SKOS/OWL• Toegevoegd - synoniemen - enkelvoudsvormen - engelse vertalingen • Automatisch links aangebracht tussen termen van
verschillende facetten
Annoteren van context-documenten
Verlenging missie?
Voorbeelden context documenten
Afghanistan missie
Titel
Samenvatting
Genre
Onderwerp
Persoonsnamen
Namen
Locaties
Makers
Sprekers
Ontlenen metadata aan context-documenten
Missie Afghanistan uiterst onzeker. Steeds meer partijen beginnen te twijfelen aan de voorgenomen missie van 1100 Nederlandse soldaten naar Afghanistan. Morgen komen er twee hoge functionarissen van het Pentagon en het State Department naar Den Haag voor overleg met Nederlandse topambtenaren. Vrijdag hakt het kabinet zo goed als zeker de knoop door. Het lijkt een ware worsteling te worden.
Missie Afghanistan uiterst onzeker Steeds meer partijen beginnen te twijfelen aan de voorgenomen missie van 1100 Nederlandse soldaten naar Afghanistan. Morgen komen er twee hoge functionarissen van het Pentagon en het State Department naar Den Haag voor overleg met Nederlandse topambtenaren. Vrijdag hakt het kabinet zo goed als zeker de knoop door. Het lijkt een ware worsteling te worden.
GTAA-concept:missie GTAA-concept:militairen
GTAA-altlabel:soldaten
GTAA-altlabel:kabinetten
GTAA-concept:regeringen
Semantische annotatie
Resultaten (detecteren mogelijke GTAA-trefwoorden)
locaties N genres makers
Afghanistan 7
Europa 1
Trefwoorden (voorlopig) N
missies 5
militairen 4
kabinetten 4
overeenkomsten 2
stemmen 1
schrijven 1
premiers 1
ministers 1
ministerraad 1
meren 1
krijgsgevangenen 1
kranten 1
kampen 1
gevangenissen 1
democratisering 1
christenen 1
ambtenaren 1
soldaten 1
personen N
Balkenende 1
namen N
CDA 2
VVD 1
Taliban 1
NAVO 1
Pentagon 1
CIA 1
Europa 1
Het trefwoord missies in de GTAA
missies1D01.03 (levensbeschouwing - christendom)RT evangelisatieRT KatholicismeRT missionarissenRT ontwikkelingshulpRT zendingSN rooms-katholiek
Rankschikken van annotatie-waarden
gevangenissen (1)
ministers (1)
ambtenaren (1)
kampen (1)stemmen (1)
democratisering (1)
premier (1)
ministerraad (1) kabinet (4)
soldaten (1)
militairen (4) ministers-president (1)
regeringen (5)
krijgsgevangenen (1)
gevangenissen (1)
ministers (1)ministers-
president (1)
regeringen (5)ambtenaren (1)
militairen (5)
krijgsgevangenen (1)
kampen (1)stemmen (1)
democratisering (1)
gevangenen
gevangenkampen
verkiezingen
overheidsdiensten
ministeries
beroepen
dienstverlenende beroepen
staatshoofden
kabinets-formaties
geordende trefwoorden rang
regeringen 1
militairen 1
krijgsgevangenen 3
ministers 3
ministers-president 3
gevangenissen 4
ambtenaren 4
kampen 5
stemmen 5
democratisering 5
missie 6
akkoorden 7
christenen 8
meren 9
kranten 9
schrijven 9
trefwoorden N
documentalisten vredestroepen 6
militaire operaties 5
krijgsmacht 3
regeringsbeleid 2
militairen 2
Catalogus beheer vredestroepen
militaire operaties
Presenteren aan documentalist
De CHOICE Documentalist support omgeving
Doelen– Het bieden van een gebruikersomgeving waarbinnen het trefwoord
suggestie-systeem past– Prototype voor een Beeld en Geluid context document database– Geintegreerde zoek- en browse omgeving voor metadata,
teksten, semantische annotaties en AV
Status– Eerste versie van benodigde (web) repositories en services klaar– User interface design ontworpen in overleg met Beeld en Geluid – Demonstratie-applicatie klaar– Eerste versie tbv documentalisten: januari 2008– Documentalist support systeem op de Beeld en Geluid ‘roadmap’
voor 2008
Metadata recommendation tool
Search for
Afghanistan
Search results: Annotations:
1 2
Immix title1
Immix title2
Immix title3
Immix results
AT14nov06-text
AT14nov06-website
Context document 3
Context results
Primary language Archiving date
Creation dateDocument type
Context document metadata
Text
11/14/2006
09/23/2006
Dutch
Context documents
Immix metadata
Recommendations
Add context document…
Show all
Show all
Edit
Options…
Show graph…
Show annotations… militairen
regeringen
krijgsgevangenen
ministers-presidenten
ministers
ambtenaren
gevangenissen
democratisering
kampen
stemmen
missie
akkoorden
Advanced search…
Subject
Genre
Person
Person
Maker
Maker
Name
Location+
+
+
+
+
+
Semantisch browsen en zoeken
MANUEEL
• Interpretatie • Beschrijvingsregels
centrale onderwerp(en) van het programma
• Weinig trefwoorden, zo specifiek mogelijk
AUTOMATISCH• Termen die voorkomen in
het contextdocument of in andere beschrijvingen
• Ranking meerdere, mogelijke onderwerpen
• Lange lijst trefwoorden
Wat is het meest geschikt voor het thematisch browsen door de catalogus en door contextdocumenten?
Wat voegen semantische annotaties toe?
Soortgelijke documenten
MANUEEL• De hoeveelheid trefwoorden
per iMMiX beschrijving: 2 tot 26 (onderwerpen, locaties, persoonsnamen, organisaties)
• Precieze, maar weinig overlappende trefwoorden
• Moeilijk om op grond daarvan ‘soortgelijke’ beschrijvingen te bepalen
AUTOMATISCH• Hoeveelheid trefwoorden per
beschrijving loopt uiteen van 2 tot 242
• Veel meer overlappende trefwoorden (vaak 50 of meer per document)
• Geeft betere maat voor ‘soortgelijkheid’ tussen documenten– 25 weinig precieze
overlappende trefwoorden zijn toch goede maat voor overeenkomsten tussen documenten
Waar gaat het naartoe?
Uitdagingen Beeld en Geluid • Digitalisering av-productieproces
• Project Beelden voor de Toekomst
• Toename te beschrijven digitale programma’s (30.000 uur radio, 10.000 televisie/jr)
• Behoeften gebruikersgroepen
• Op termijn 80% automatische annotatie 20 % handmatig
Verwachtingen mbt CHOICE
• Goede aansluiting: innovatie dicht op het daadwerkelijke proces
• Ontwerp, implementatie en gebruikstesten van een semi-geautomatiseerde annotatietool
• Koppelen GTAA-termen aan andere thesauri (semantisch web)
• Hergebruik van services en componenten door andere CATCH projecten en erfgoedinstellingen
Ondersteuning catalogiseerproces & verbetering zoekmogelijkheden
Trefwoorden en context de semantische annotatie
H e t p r o j e c t CHOICE b i j Beeld en Geluid
`
Véronique Malaisé
Hennie Brugman
Luit Gazendam
Lora Aroyo
Guus Schreiber
Mettina Veenstra
Annemieke de Jong
Johan Oomen