SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn...
Transcript of SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn...
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
SEMANTISCHE ANALYSE VAN TEKST
MARIEKE VAN ERP
Taalvariatie maakt teksten interessant en laat zien hoe mensen zich door de tijd heen uitdrukten. Maar taalvariatie maakt taalinterpretatie ook moeilijk. Om in de KB kranten alle artikelen over ‘branden’ te krijgen, moet je waarschijnlijk ook op ‘vuur’ zoeken, en misschien ook wel op alle spellingvariaties en verouderde synoniemen. Aan de andere kant kan hetzelfde woord ook meerdere betekenissen hebben zoals ‘paard’ (gaat het over het dier, het turnstel of het schaakstuk?). Door middel van taaltechnologie kunnen we de computer ‘leren’ om te gaan met taalvariatie.
Taaltechnologie
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Waarom semantische analyse?
101Taaltechnologie
Taaltechnologie is het onderzoeksveld dat zich bezighoudt met het interpreteren van taal door computers. In het veld werken informatici en taalkundigen samen om software te ontwikkelen die in tekst woordsoorten kan herkennen, de grammaticale structuur van een tekst kan analyseren, namen kan herkennen, en teksten kan vertalen. Recent is daar ook de samenwerking met Semantic Web onderzoekers bij gekomen om achtergrondkennis bij het proces te betrekken.
Toepassingen: - Zoekmachines - SIRI/Alexa/Cortana - Spellingcorrectie - Autocomplete - Business analytics
Informatica Linguistiek
Semantic Web
Adder
Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen niet voor alle diersoorten exemplaren verzameld zijn op ieder punt in de tijd, maar krantenberichten maken vaak melding van voorkomens van bepaalde dieren.
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Als je alleen op trefwoord ‘adder’ zoekt krijg je ook artkelen terug met melding ‘addertje onder het gras’ en ‘adderringslang’ (uit de taxonomische familie Natricidae en niet Viperidae waar de adders onder vallen)
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Beroepen
‘Computer’ betekende vroeger iemand d ie berekeningen uitvoerde, nu verwijst het naar machine. Schrijvers, auteurs en dichters vallen in eenzelfde b e r o e p s g r o e p , e v e n a l s docenten, leraren en leraressen.
Gebouwen
G e b o u w e n e n a d r e s s e n veranderen regelmatig van naam. De Singel in Amsterdam, h e e f t b v k o r t s t o n d i g Koningsgracht geheten in de 17e eeuw. Gebouwen worden soms genoemd bij hun naam, soms bi j hun adres. Om informatie te vinden zul je ook op de verschillende referenties moeten kunnen zoeken.
VoorbeeldenAdder
Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen niet voor alle diersoorten exemplaren verzameld zijn op ieder punt in de tijd, maar krantenberichten kunnen wel m e l d i n g m a k e n v a n voorkomens van bepaalde dieren.
Semantic AnalysisDe taalanalyse tool die in CLARIAH WP3 ontwikkeld wordt zal bestaan uit generieke en domeinspecifieke m o d u l e s d i e verantwoordelijk zijn voor verschi l lende a s p e c t e n v a n tekstinterpretatie.
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Topic Detection
Entity/Concept Detection
Entity/Concept Typing
Entity/Concept Linking
Domain Vocabularies
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
01
BEDANKT VOOR UW AANDACHT www.clariah.nl