Wij zullen vinden - ook in 2023

74
wij zullen vinden ook in 2023 Eric Sieverts @sieverts Informatiemaatschappij 202 UB Utrecht HvA-MIC GO Opleidingen 2 oktober 2013

Transcript of Wij zullen vinden - ook in 2023

Page 1: Wij zullen vinden - ook in 2023

wij zullen vindenook in 2023

Eric Sieverts@sieverts

Informatiemaatschappij 2023

UB Utrecht HvA-MICGO Opleidingen

2 oktober 2013

Page 2: Wij zullen vinden - ook in 2023

zoekmachines zijn er al bijna 20 jaar

webcrawlerin 1993 de eerste die ook tekst uit de pagina zelf indexeerde

2

Page 3: Wij zullen vinden - ook in 2023

zoekmachines zijn er al bijna 20 jaar

lycosin 1994 de eerste "echte", met bijna 1,5 miljoen pagina's

3

Page 4: Wij zullen vinden - ook in 2023

altavistain 1996 de nieuwste grootste, met ruim 30 miljoen pagina's

zoekmachines zijn er al bijna 20 jaar

4

Page 5: Wij zullen vinden - ook in 2023

Informatiemaatschappij 2023

Google vierde vorige maandzijn 15de verjaardag

5

Page 6: Wij zullen vinden - ook in 2023

Informatiemaatschappij 2023

1974

online informatie zoeken kunnen we zelfs al meer dan 40 jaar

6

Page 7: Wij zullen vinden - ook in 2023

• als we zo ver terug kunnen kijken, lijkt het een makkie als we vandaag niet meer dan 10 jaar vooruit hoeven te kijken

• of misschien toch niet ....

Informatiemaatschappij 20237

Page 8: Wij zullen vinden - ook in 2023

agenda• groei van de informatieproductie

– wetenschap– web – data

• evolutie van het zoeken – semantische zoektechnieken

Informatiemaatschappij 20238

Page 9: Wij zullen vinden - ook in 2023

1. de wetenschap

groei van te vinden informatie

Page 10: Wij zullen vinden - ook in 2023

overhead sheetca. 1985bronnen:• Derek de Solla Price• Gale Directory• Ulrich's• ...

10

Page 11: Wij zullen vinden - ook in 2023

10

100

1000

10000

100000

1000000

10000000

100000000

1720

1740

1760

1780

1800

1820

1840

1860

1880

1900

1920

1940

1960

1980

2000

2020

schatting jaarlijks aantalwetenschappelijke publicatiesaantal tijdschriften

al 260 jaar verdubbeltjaarlijks aantal wetenschappelijkeartikelen elke 14 jaaren aantal tijdschriftenook zo ongeveer

11 Informatiemaatschappij 2023

Page 12: Wij zullen vinden - ook in 2023

10

100

1000

10000

100000

1000000

10000000

100000000

1720

1740

1760

1780

1800

1820

1840

1860

1880

1900

1920

1940

1960

1980

2000

2020

schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)

10

100

1000

10000

100000

1000000

10000000

100000000

1720

1740

1760

1780

1800

1820

1840

1860

1880

1900

1920

1940

1960

1980

2000

2020

schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)

na (exponentiële) groei met factor 100.000neiging tot verzadiging?

NRC 12 maart 201112 Informatiemaatschappij 2023

Page 13: Wij zullen vinden - ook in 2023

10

100

1000

10000

100000

1000000

10000000

100000000

1720

1740

1760

1780

1800

1820

1840

1860

1880

1900

1920

1940

1960

1980

2000

2020

schatting jaarlijks aantalwetenschappelijke publicaties(Eric Sieverts, 1981-1994)

jaarlijks aantalwetenschappelijke publicaties(NRC-Handelsblad, maart 2011)

exponentiële groei blijkt na 280 jaar toch nog niet afgevlaktwetenschappers raken niet op?• meer in china en india• nog meer "publish or perish" • …. ?

13

Page 14: Wij zullen vinden - ook in 2023

publish or perish

©14

Page 15: Wij zullen vinden - ook in 2023

extrapolatie naar 2023

30 miljoen wetenschappelijke artikelen per jaar– database Scopus bevat 100 miljoen artikelen– Web of Science bevat 90 miljoen artikelen– Pubmed bevat 50 miljoen artikelen

maar blijven het (alleen) klassieke artikelen?

Informatiemaatschappij 202315

Page 16: Wij zullen vinden - ook in 2023

"what next" voor wetenschappelijk publiceren ?• ook blogs• ook tweets• ook "data"• klassieke artikelen ontleed / opgesplitst tot "nanopublicaties":

afzonderlijke beweringen die beschreven worden als RDF-tripels (zelfde techniek als voor "linked open data")

DNA variant NG_000007.3:g.70628G>A (Subject) has a frequency (Predicate) of 0.25% (Object). The assertion holds for the Sardinian population Provenance includes authors of the article (Giardine et. al.),the date when the nanopublication was created, et cetera.

voorbeeld

nog meer "items"

16

Page 17: Wij zullen vinden - ook in 2023

Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011) doi:10.1038/ng0411-281

17 Informatiemaatschappij 2023

Page 18: Wij zullen vinden - ook in 2023

trend: fragmentering van informatie

zullen we dan nog naar artikelen zoeken of naar die losse feiten of fragmenten?

Informatiemaatschappij 202318

Page 19: Wij zullen vinden - ook in 2023

2. het web

groei van te vinden informatie

Page 20: Wij zullen vinden - ook in 2023

Informatiemaatschappij 2023

Dutch Home Pagenajaar 1993

Dutch Home Pagezomer 1994

Page 21: Wij zullen vinden - ook in 2023

gegevens aanvankelijk uit:

1998

hoeveel doorzoeken webzoekmachines?

20011995

Informatiemaatschappij 202321

Page 22: Wij zullen vinden - ook in 2023

1

10

100

1000

10000

100000

1000000

1992

1994

1996

1998

2000

2002

2004

2006

2008

2010

aantal miljoenenwebpagina's in grootstezoekmachine(verschillende bronnen)

15 jaar langverdubbelde elk jaar het aantal webpagina's in de grootste zoekmachine

content in betaalde online bronnen

milj

oene

n w

ebpa

gina

's?

hoeveel doorzoekenwebzoekmachines?

zie: Eric Sieverts. Van Lycos tot Google.in: NRC 9 februari 2013, special "Slimmer zoeken op internet" http://sieverts.pbworks.com/f/NRC_Lycos_Google.pdf

Informatiemaatschappij 202322

Page 23: Wij zullen vinden - ook in 2023

extrapolatie naar 2023

4 biljard webpagina's in Google? (4.000.000.000.000.000)

maar blijft Google alles indexeren en blijven het webpagina's?

Informatiemaatschappij 202323

Page 24: Wij zullen vinden - ook in 2023

but presently:• do we want to

find any page?• does Google

want to index any page?

• what is a web page anyhow?

september 2012: Google knew about the existence of30 trillion URL's 30,000,000,000,000

various estimates:presently about500,000,000,000 indexed pages

24 Informatiemaatschappij 2023

Page 25: Wij zullen vinden - ook in 2023

25

Page 26: Wij zullen vinden - ook in 2023

linked open data• met linked open data komen losse feiten en gegevens

gestandaardiseerd op internet beschikbaar• in de linked open data cloud zijn al duizenden datasets

met vele biljoenen RDF-tripels toegankelijk• Google's Knowledge Graph bevat al miljarden gegevens

Informatiemaatschappij 202326

Page 27: Wij zullen vinden - ook in 2023

Informatiemaatschappij 2023

trend: fragmentering van informatie

zullen we dan naar webpagina's zoeken of naar losse feiten en fragmenten?

27

Page 28: Wij zullen vinden - ook in 2023

informatie of data?informatieinflatie

2000 Hall & Varian onderzoek:

gezamenlijk produceerden we dat jaar 1,5 exabyte (miljard gigabyte) informatie en dat verdubbelt elk jaar(maar: is dat informatie of zijn het data?)

2011 uit een "infographic":in 2010 produceerden we gezamenlijk 2 zettabytes : 2 x 1021 bytes (2000 miljard gigabyte) en dat verdubbelt elk jaar[d.w.z. ruim 300 GB per persoon]

Informatiemaatschappij 202328

Page 29: Wij zullen vinden - ook in 2023

informatie of data?informatieinflatie

elk jaar verdubbelt aantal bytes dat we produceren is dat groei of inflatie?

• TXT documentje met mijn tekst: 50 kBvideoregistratie van mijn lezing: 500 MBdezelfde informatie(!?) maar 10.000 x zoveel data

• berichten op het web worden 100-voudig gerepliceerd, herblogd en geretweet

• van alles maken we ongecoördineerd back-ups

• ...

Informatiemaatschappij 202329

Page 30: Wij zullen vinden - ook in 2023

30 Informatiemaatschappij 2023

YouTube groeit met 72 uur per minuut

Page 31: Wij zullen vinden - ook in 2023

datavloedgolf

2011 - per minuut 72 uur video geüpload naar YouTube

- 1 biljoen YouTube filmpjes bekeken

2012 - Internet Archive: 10 PetaByte (1016)

2013 - 4000 foto's per seconde > Facebook- 250 miljard foto's op Facebook

- 540 miljard tweets in Topsy zoekmachine 2014 - Beeld & Geluid: 15 PetaByte

Informatiemaatschappij 202331

Page 32: Wij zullen vinden - ook in 2023

Informatiemaatschappij 2023

5 MB harde schijf in 1956

2 TB in 2013

prijs van opslagmedia:

in 1956: $ 7000 / MB / jaar lease

in 2013: $10 / TB (= $ 0,00001 / MB)

dataopslag

Page 33: Wij zullen vinden - ook in 2023

1051 atomen

2110: ~1051 bits

2023: ~1026 bits (10 yottabyte)

2010: ~1022 bits

2000: ~1019 bits (1 exabyte)

onze jaarlijkse data productie

??

exponentiële groei blijftvoortduren ?

Informatiemaatschappij 202333

"grenzen aan de groei"

• minder produceren?

• niet alles (willen) bewaren?

Page 34: Wij zullen vinden - ook in 2023

vinden van die informatieop het web: voorkeur slingert tussen

zoekmachine en ontsluiting

Page 35: Wij zullen vinden - ook in 2023

yahoo! directory

yahoo! directoryopen directorystartpagina's

lycosaltavista

google

web-2.0tagging/folksonomies

1990

2013

zoeken ontsluiten

semantisch zoeken

semantisch webcontent curation35

Page 36: Wij zullen vinden - ook in 2023

semantisch web

semantisch zoeken

36 Informatiemaatschappij 2023

Page 37: Wij zullen vinden - ook in 2023

37 Informatiemaatschappij 2023

"The goal is that pages matching the meaning do better, rather than pages matching just a few words."

Page 38: Wij zullen vinden - ook in 2023

38

Page 39: Wij zullen vinden - ook in 2023

1. Semantic Search = Answer Engines

2. Semantic Search = Machine Readable

3. Semantic Search = Enhanced SERP Displays & Lift

4. Semantic Search = Validation Of Web Pages

5. Semantic Search = Social Network Adoption

6. Semantic Search = Google+ Authorship Rich Snippet

7. Semantic Search = Internal Structured Data

8. Semantic Search = The Future Of Search

9. Semantic Search = Schema.org Ontology

10. Semantic Search = Understanding User Intent

39 Informatiemaatschappij 2023

Page 40: Wij zullen vinden - ook in 2023

semantisch zoeken

globaal 3 soorten toepassingen

1. inschatten van de intentie van de zoekerbijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”

>> adres van pizzeria in de buurt

2. bepalen van betekenis van woorden/tekst in documenten

vooraf bij indexeren of achteraf in zoekresultaat

3. automatisch aanpassen van zoekactiesbijv.: zoekwoorden toevoegen / vervangen,

(ook) in andere systemen zoeken

40 Informatiemaatschappij 2023

Page 41: Wij zullen vinden - ook in 2023

1. intentie van de zoeker

intentie of context van vraag kan worden bepaald:• uit lokatie van de zoeker

– globaal: op basis van ip-adres van gebruikerprecies: op basis van bekende gps- of gsm-gegevens (mobiel)

• door analyse van gestelde vraag– naam van persoon, bedrijf, product, gebeurtenis, … >> feiten– naam van gewoon persoon >> facebook / linked-in gegevens – iets geavanceerder: vaste combinaties van woorden– geavanceerd: natuurlijke taal techniek / statistiek op eerdere vragen

• op basis van eerder zoekgedrag van de zoeker– eerdere zoekvragen / eerder bekeken resultaten daaruit

ook bij dubbelzinnige zoekwoorden?

41 Informatiemaatschappij 2023

Page 42: Wij zullen vinden - ook in 2023

42 Informatiemaatschappij 2023

Page 43: Wij zullen vinden - ook in 2023

Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem.Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken(binnenkort ook in het Nederlands)

43

gegevens afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en uit statistische analyse van eigen gegevens

Page 44: Wij zullen vinden - ook in 2023

wat is in dit verband een "graph"? een netwerk van al die concepten met

hun onderlinge relaties en kenmerken

44

Page 45: Wij zullen vinden - ook in 2023

social graph uit Twitter

45

Page 46: Wij zullen vinden - ook in 2023

social graph uit Facebook

46

Page 47: Wij zullen vinden - ook in 2023

nog meer connecties uit Facebook

47

Page 48: Wij zullen vinden - ook in 2023

Informatiemaatschappij 202348

Page 49: Wij zullen vinden - ook in 2023

Informatiemaatschappij 202349

Page 50: Wij zullen vinden - ook in 2023

Informatiemaatschappij 202350

Page 51: Wij zullen vinden - ook in 2023
Page 52: Wij zullen vinden - ook in 2023

52 Informatiemaatschappij 2023

Page 53: Wij zullen vinden - ook in 2023

53

Page 54: Wij zullen vinden - ook in 2023

Informatiemaatschappij 202354

Page 55: Wij zullen vinden - ook in 2023

Informatiemaatschappij 202355

Page 56: Wij zullen vinden - ook in 2023

2. bepalen van betekenis

betekenis herkennen van woorden en gegevens in teindexeren tekst en/of in al gevonden resultaten• herkennen van "entiteiten" in tekst

(herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...)

• betekenis die herkenbaar aanwezig is in "embedded metadata"(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web

• tekstanalyse voor automatisch categoriseren (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")

• tekstanalyse en koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")

• ...

56 Informatiemaatschappij 2023

Page 57: Wij zullen vinden - ook in 2023

in semantisch web wordt van "alles" betekenis vastgelegd (in metadata)

semantisch web

om betekenis ook te begrijpen heeft men"ontologieën" nodig

57

Page 58: Wij zullen vinden - ook in 2023

rdf (resource description framework)

• standaard voor computerleesbaar beschrijven van objecten (met metadata)

• vastgelegd in zogenaamde RDF triples• waarbij

– te beschrijven ding een webadres (URI) heeft– eigenschap van dat ding liefst ook een URI heeft– "waarde" van die eigenschap liefst ook een URI heeft

• voorbeeld:– boek (heeft een webadres: URI)– heeft auteur (betekenis van eigenschap ergens beschreven: URI)– persoon (gegevens van persoon ergens op web te vinden: URI)

Informatiemaatschappij 202358

Page 59: Wij zullen vinden - ook in 2023

rdf tripelssubject <predicaat> object doc1 <heeft auteur> auth1auth1 <heeft naam> john smithauth1 <heeft affiliatie> home inc.auth1 <heeft email> [email protected]

grafische representatie vansimpel netwerk van 4 RDF-tripels

Informatiemaatschappij 202359

Page 60: Wij zullen vinden - ook in 2023

via die webadressen (URI's) kan iedereen aan deze data linken

rdf tripels

= "resource" met URI

= "literal" (gegeven)

getypeerde(en op het web gedefinieerde) relaties tussenresources engegevens

60 Informatiemaatschappij 2023

Page 61: Wij zullen vinden - ook in 2023

gebruik semantische codering

gestandaardiseerde markering van kenmerken in webpagina's

voorbeelden van “embedded metadata”:– recipe search bij Google en Yahoo– toepassing e-commerce ontology

daarbij gebruikte standaarden:– microformats / rich snippet markup / microdata / schema.org

(Google, Yahoo, Bing)onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek

– RDFa

61 Informatiemaatschappij 2023

universele"ontologie" vaneigenschappen

van dingen

Page 62: Wij zullen vinden - ook in 2023

62

in huidige Google-

interface minder

handig en makkelijk

te gebruiken; ook

alleen in google.com

bij Yahoo nu beter

Page 63: Wij zullen vinden - ook in 2023

standaardisatie van kenmerken van producten

met "GR-ontologie" volgens "RDFa“ in “XHTML”

63

Page 66: Wij zullen vinden - ook in 2023

wat heeft zoeker hieraan?• zoeker kan gerichter zoeken en filteren

(zoals in Google's receptenzoeker)

• zoeker krijgt duidelijker informatie over gevonden items(zoals Google's rich snippets)

Page 67: Wij zullen vinden - ook in 2023

vb van categoriseren: sentiment detection

Page 68: Wij zullen vinden - ook in 2023

RDF en "linked data"

er is veel publiciteit rond linked (open) data

• kan weergegeven als RDF-tripelszodat de data computer-leesbaar zijn

• staat op internet zodat het "open" is

• bedoeld om te worden hergebruiktzodat het belangrijk ingrediënt voor het semantisch web is

• is gestandaardiseerdzodat het makkelijk hergebruikt kan worden

• iedereen kan (en moet!) data bijdragenwaardoor het soms wel een beetje een rommeltje is

Informatiemaatschappij 202368

Page 69: Wij zullen vinden - ook in 2023

dbpedia: data from Wikipedia

last.fm: artists

geonames:6.2 M toponyms

BBC: wildlifefinder

project GutenbergIMDB

Reuters:openCalais

viaf: virtual internationalauthority file

LCSH

NY times

Flickr

de "linked open data cloud" 31 miljard data online – 504 miljoen connecties (links) daartussen

rechtspraak.nl

sept 2011

music brainz

Page 70: Wij zullen vinden - ook in 2023

sparql - endpoints

nog wat linked data jargon:

SPARQL eigen zoektaal voor RDF-triple storesSparql Protocol And Rdf Query Languagewat SQL is voor relationele databasesis SPARQL voor RDF triple stores

Endpoints toegangspunten op het web waar je SPARQL zoekactie op RDF triple stores kunt uitvoeren (je moet daarvoor de SPARQL syntax kennen - door een computer laten uitvoeren)

Informatiemaatschappij 202370

Page 71: Wij zullen vinden - ook in 2023

3. aanpassen van zoekactie

aanpassen / verbeteren van zoekacties vooraf (automatisch) bewerken van zoekvraag• variaties op zoekwoord meenemen in query

– spelling verbeterd (statistiek?) [veilgheid >> veiligheid]– zoeken op woordstam (enkel/meervoud, vervoegingen, ….)

[vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …]– spellingsvariaties [immunisation <> immunization]– samenstellingen opbreken (en omgekeerd)

[catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen]• synoniemen, acroniemen aan query toevoegen

(uit woordenlijst, semantisch netwerk, ontologie)[vaccination <> immunization ; jfk <> john f kennedy]

• verwante en specifiekere begrippen aan query toevoegen(uit semantisch netwerk, thesaurus, ontologie, knowledge graph)

heeft nog niet zo veel met

"semantiek" te maken;

Google doet dat wel al allemaal

Informatiemaatschappij 202371

Page 72: Wij zullen vinden - ook in 2023

3. aanpassen van zoekactie

aanpassen / verbeteren van zoekacties achteraf bewerken van zoekresultaat• zoekresultaten clusteren op basis van inhoud

– meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta) – soms op basis van automatische classificatie

• fragmenten van gevonden document tonen die de vraag beantwoorden

– KWIC display van zoekmachines is eenvoudige vorm daarvan

– zie bijv. Sensebot

• uit gevonden documenten samenvatting genereren van belangrijkste bevindingen / antwoorden

– zie bijv. Factbites

Informatiemaatschappij 202372

Page 73: Wij zullen vinden - ook in 2023

extrapolatie naar 2023

webzoekmachines zullen zich verder tot antwoordmachines ontwikkelen

• maar zal beperkt blijven tot antwoorden op "alledaagse" vragen,

• … zodat voor specialistischer onderwerpen gewone keyword search nodig blijft,

• … waarbij die door semantiek wel slimmer wordt,• … zodat keuze van "juiste zoekterm" minder

belangrijk wordt,• … maar onderwerpskennis blijft essentieel voor

controle of "het" onze vraag juist interpreteert

Informatiemaatschappij 202373

Page 74: Wij zullen vinden - ook in 2023

any questions left ?

just ask "him"