20120829 Presentatie over Semantic Search

Post on 17-Jan-2015

160 views 1 download

description

 

Transcript of 20120829 Presentatie over Semantic Search

Semantic Search Technology

‘De belofte van het semantisch web (web 3.0)’

Hannah Verhoeff

Semantiek achterhalen van woorden en daar de advertentie op afstemmen.

“Is de jager op dreef?” zei de student diergeneeskunde“Is De Jager op dreef?” zei de parlementair journalist

Syntax versus semantiek

Entiteiten vaststellen in een document en meegeven in de html: mensen (‘edward norton’), gebeurtenissen, bedrijven, landen, sport, eten (‘nasi’) etc.

Ontologie is opgebouwd uit entiteiten (annotaties). De tekst: “Mark Rutte is Minister Of The Netherlands” zou je kunnen vervangen door het volgende stukje RDF/XML:<rdf:Description rdf: about=#Mark Rutte”><isMinisterOf rdf:resource=”#The Netherlands “/></rdf:Description>

Bepaal de interpretatie van data door te begrijpen wat de bedoeling is van de zoeker en de contextuele betekenis van de termen door het web (associatief slim).

Semantiek achterhalen:

Annotaties in de vorm van RDF en Microformats – vanuit de documenten

Automatisch herkennen van entiteiten – vanuit de zoeker

Binnen de organisatie is een ontologie het best bruikbaar voor specifieke domeinen.

Mogelijk te combineren met externe linked open data

Beperkte schaalbaarheid:

Afhankelijk van mensenwerk – inconsistente interpretatie

Arbeidsintensief

Afhankelijk van de bronsystemen

Explosieve groei van informatie – de komst van ‘Big Data’

Het wordt lastiger om informatie te beheren en structuur/ betekenis te achterhalen in de diversiteit en heterogeniteit van bronnen;

Zoeken en vinden is een probleem, maar daarbovenop de gemiste kansen door onontgonnen informatie.

[T]here are known knowns; there are things we know that we know.

There are known unknowns; that is to say there are things that, we now know we don't know.

But there are also unknown unknowns – there are things we do not know, we don't know.

—United States Secretary of Defense, Donald Rumsfeld

Database Search

Semantic Search

Enterprise Search

• Sentence Boundary Detector

• Parser• Namefinder• Pattern Recognizer• PostTagger• Role Designation• Associative network• Tag cloud• Topic Extraction

Digitale (web)teksten geautomatiseerd samenvatten, interpreteren en anonimiseren.

• Herleiden van de betekenis van entiteiten uit de context van een pagina;

• Natuurlijk taal applicaties (NLP)

In grote hoeveelheden data zonder dat hier mensenwerk bij komt kijken. Alleen mensenwerk bij toevoegen content en ontwikkelen techniek.

Open Calais van Reuters is een platform dat pagina’s via een API naar semantische pagina’s verrijkt. Hierbij put Reuters uit haar database van personen, plaatsen en locaties. http://viewer.opencalais.com/

PlatypusWiki is een pakket waarmee semantische wiki’s gemaakt kunnen worden. Semantic wiki is een upgrade van de ‘Wikipedia’ Mediawiki software om semantische pagina’s te bouwen.

… een kijkje achter de schermen

Bedreiging voor SEO, ondanks succes dankzij Semanic contextualization

Superieur business intelligence – analyse gestructureerde/ ongestructureerde content

Holding promises of Semantic Search

Zoek op een persoon en vind zijn/ haar geboorteplaats, -datum, broers en zussen, etc.

Geen links maar antwoorden!

Human resource

Semantic Search in te zetten binnen de organisatie

Cognito Technology

Sinequa

Sophia Search Attivio

…‘De belofte van het semantisch web (web 3.0)’