Einführung in die Informationsverarbeitung Teil Thaller Stunde V: Zusammengefügte Bausteine:...

Einführung in die Informationsverarbeitung Teil Thaller

Stunde V: Zusammengefügte Bausteine: Google

Manfred Thaller, Universität zu Köln

Köln 10. Dezember 2010

Google - ein „System“

URL Server

URL Auflösung

Sortieren

PageRank Suchen

Crawler Speicher

Indizierer

„Barrels“

Doc Index

Repository

LexikonLinks

Sergey Brin and Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Proceedings of the seventh World Wide Web Conference (WWW7), Brisbane, also in a special issue of the Journal Computer Networks and ISDN Systems, Volume 30, issues 1-7.

http://infolab.stanford.edu/~backrub/google.html

Vgl.: http://www.google.com/technology/pigeonrank.html

„Ur Google“

Entwickler: Sergey Brin, Lawrence Page.

Name: "Google" Verballhornung von "Googol" ( = 10 100).

System verteilt auf viele kooperierende Rechner: Google operates what is probably the world's largest Linux cluster that puts many supercomputing centers to shame.

Formalia

URL Server

CrawlerURL Server

Doc Index

Startet mit Anfangs URL.

Liest weitere URLs aus einem Dokumenten-Index.

Schickt URLs an Crawler um Seiten zu holen.

Wichtig: Art der Suche im WWW (Tiefen v. Breitensuche). 6

Crawler

Holen Web-Seiten.

Speichern individuelle Seiten in Speicher-Subsystem.

Mehrere Crawler!

"Robots Exclusion Protocol" - "Wohlverhalten"

Speicher

Indizierer I

Liest Seiten aus dem Repository und dekomprimiert sie.

"Parsed" jedes Dokument und verwandelt es in "Treffer", bestehend•aus der Wortform.•der Position innerhalb des Dokuments.•einer relativen Fontgröße.•Anzeige der Großschreibung.

Treffer sind "fancy" (in URL, Überschrift, Anker Text oder Meta-Tag) oder "plain" (alle anderen Fälle).

RepositoryIndizierer

Indizierer II

Verteilt Treffer in "barrels", wobei ein sortierter Index entsteht.

Extrahiert Links und speichert sie {Start URL, Ziel URL, Text} in Anker Datei.

Erzeugt Lexikon Datei.

Indizierer

„Barrels“

Lexikon

Beispiel: Sequentielles Suchen

Suchzeit jedes Namens entspricht Rang in der Liste.

Durchschnittliche Suchzeit: n / 2.

Laufzeit steigt mit der zu durchsuchenden Anzahl

Rückverweis: Algorithmen: Laufzeit

1 Clio

2 Melpomene

3 Terpsichore

4 Thalia

5 Euterpe

6 Erato

7 Urania

8 Polyhymnia

9 Kalliope

Beispiel: Binäres Suchen

Laufzeit: ?

Algorithmen: Laufzeit

1 Clio

2 Erato

3 Euterpe

4 Kalliope

5 Melpomene

6 Polyhymnia

7 Terpsichore

8 Thalia

9 Urania

Beispiel: Binäres Suchen – „Thalia“

„Melpomene“ gleich – größer – kleiner „Thalia“?

„Terpsichore“ gleich – größer – kleiner „Thalia“?

„Thalia“ gleich – größer – kleiner „Thalia“?

1 Clio

2 Erato

3 Euterpe

4 Kalliope

5 Melpomene

6 Polyhymnia

7 Terpsichore

8 Thalia

9 Urania

Beispiel: Binäres Suchen

Laufzeit steigt mit Logarithmus der zu durchsuchenden Anzahl.

1 Clio

2 Erato

3 Euterpe

4 Kalliope

5 Melpomene

6 Polyhymnia

7 Terpsichore

8 Thalia

9 Urania

1. linear.

2. logarithmisch.

3. exponentiell.

N=1 N=10 N=100 N=1000

1 10 100 1000

1 3 7 10

1 103 1030 10300

Relevanz?

Verteilt Treffer in "barrels", wobei ein sortierter Index entsteht.

Extrahiert Links und speichert sie {Start URL, Ziel URL, Text} in Anker Datei.

Erzeugt Lexikon Datei.

Indizierer

„Barrels“

Lexikon

WordIds = Woridentifikationsnummern

Entstehen, indem die Wortformen sortiert und durchnummeriert werden.

Relevanz: ?

Erinnerung

URL Server

URL Auflösung

Sortieren

PageRank Suchen

Crawler Speicher

Indizierer

„Barrels“

Doc Index

Repository

LexikonLinks

URL Auflösung I

„Barrels“

URL Auflösung

LinksDoc

URL Auflösung II

Liest Anker Datei.

Verwandelt relative URLs in absolute.

Verwandelt absolute URLs in Dokumenten IDs.

Fügt Anker Text in einen vorwärts gerichteten Index ein, zusammen mit den Dokumenten IDs auf die der Anker zeigt.

Erzeugt eine Link Datenbank, die Paare von Dokumenten IDs enthält.(Wird für die Errechnung der PageRanks verwendet!)

Sortierung

„Barrels“

Sortieren

Verwandelt einen Index der Dokumenten Ids in einen "invertierten Index", sortiert nach Wort Ids.

"Short barrel" - invertierter Index von Treffern in Titel- und Ankertags.

"Full barel" - invertierter Index der Bodytags.

Enthält Offsets der Dokumentenposition für jede Wort Id. (Nachbarschaftsberechnung / Positionsanzeige.)

Page Rank I

Kann beschrieben werden als Modell des Verhaltens von Benutzern.Geht von einem "Zufallssurfer" aus, der von einer bestimmten Seite ausgeht und auf Links clickt.Er / Sie geht nie zurück und wird schließlich weitere Zufallsseite auswählen.Der "PageRank" ist die Wahrscheinlichkeit (p), dass der Surfer eine bestimmte Seite besucht. Die Wahrscheinlichkeit, dass BenutzerIn auf einer Zufallsseite landet ist 1-p.Links

PageRank21

Page Rank II

Wir nehmen an:

•Auf Seite A zeigen die Seiten T1 ... Tn (zitieren sie also).•C(A) ist die Anzahl der Links, die von Seite A ausgehen.•d ist ein empirischer / arbiträrer Dämpfungsfaktor zwischen 0 und 1 (in Google 0.85?).

Dann gilt:

PR(A) = (1-d) + d ( PR(T1) / C (T1) + ... + PR(Tn)/C(Tn) )

PageRanks stellen eine Wahrscheinlichkeitsverteilung dar; die Summe der PageRanks aller Seiten im Web ist also 1.0.

Page Rank III

Hoher PageRank kann anzeigen:

Dass sehr viele Seiten auf eine Seite zeigen ...

... oder dass eine relativ kleine Anzahl von Seiten mit hohem PageRank auf diese Seite zeigen.

Erinnerung

URL Server

URL Auflösung

Sortieren

PageRank Suchen

Crawler Speicher

Indizierer

„Barrels“

Doc Index

Repository

LexikonLinks

Repository

Voller (HTML) Text jeder Webseite.

Seiten werden komprimiert gespeichert (ZLIB).

Format:•Dokumenten Id.•Dokumentenlänge.•URL des Dokuments.•Inhalt des Dokuments.

Beschreibung der Verweise in den Seiten

{Start URL, Ziel URL, Text}

Laut Google oft genauere Beschreibung der Seiten, als die Seiten selbst.

Können auch nicht-Texte berücksichtigen.

Problem: Tote Links ...

Datenbank aller Paare von Dokumenten Ids.

Basis aller PageRank Berechnungen.

Doc Index

Datenbank aller verarbeiteten Dokumente (Web Seiten)

Organisiert als ISAM Datei. (Indexed sequential access mode.) Geordnet nach DokumentenId.

Jeder Eintrag enthält:•Status des Dokuments.•Prüfsumme des Dokuments.•Statistiken zum Dokument.

Angabe ob Seite von Crawlern schon durchsucht wurde.Sonst Verweis auf Liste abzuarbeitender URLs.

Lexikon

Diagrammatische Darstellung:

„Zeiger“: Ein Speicherinhalt eines Rechners verweist auf einen anderen.

Zur Erinnerung: „Zeiger“

Speicher als „karierte Zeile“

Datenstruktur im Speicher

0 1 2 3 4 5 6 7 8 9 10 11

Zahl „14123“ in Bytes 0 bis 1

Zahl „22445“ in Bytes 10 bis 11

14123 22445

0 1 2 3 4 5 6 7 8 9 10 11

Zeichen „a“ in Byte 0

Zeichen „q“ in Byte 11

0 1 2 3 4 5 6 7 8 9 10 11

Zeiger in Bytes 0 bis 1 verweist auf Speicherblock, enthaltend „xy“, beginnend in Byte 10

10 x y

0 1 2 3 4 5 6 7 8 9 10 11

Zeiger in Bytes 0 bis 1 verweist auf Speicherblock, enthaltend „xy“, beginnend in Byte 10.

Zeiger graphisch

0 1 2 3 4 5 6 7 8 9 10 11

Zeiger verweist von einem Datenblock auf einen anderen.

Zeiger graphisch

ergo: Lexikon

Barrels I

Datenbank des Inhalts aller verarbeiteten Dokumente (Web Seiten)

Beginnt mit einem Index von Dokumenten Ids, wird danach zu einem Index der Wort IDs sortiert.

Die Suchmaschine sucht zuerst in den "short barrels" nach Treffern (Titel und Anker), erst danach in den "full barrels".

Barrels II

Google - ein „System“

URL Server

URL Auflösung

Sortieren

PageRank Suchen

Crawler Speicher

Indizierer

„Barrels“

Doc Index

Repository

LexikonLinks

Suche I

Besonderheiten der Googlesuche:

Google analysiert nicht nur die Wortformen, sondern auch ihren (auch graphischen) Kontext.

Jede Trefferliste enthält Informationen über die Position, den Schrifttyp und die Großschreibung. Zudem wird zwischen "fancy" und "plain" unterschieden - und der PageRank wird berücksichtigt.

Ausgewogenheit zwischen diesen Faktoren.

Suche II – Abfragebearbeitung

1. Abfrage "parsen".2. Worte in WortIds verwandeln.3. "Short barrel" auf Anfang der Dokumentenliste für jedes

Wort der Abfrage positionieren.4. Dokumentenliste durchsuchen, bis es Dokument gibt, dass

alle Suchterme enthält.5. Rang dieses Dokuments berechnen, relativ zu den anderen,

die die Bedingungen erfüllen.6. Wenn wir mit der Bearbeitung der "short barrels" fertig sind,

wiederhole Schritt 3 ff. sinngemäß für die "full barrels".7. Wenn wir noch nicht am Ende der Dokumentenliste sind,

gehe zu Schritt 4.8. Gefundene Dokumente nach Rang sortieren und n beste

mitteilen.42

Suche III – Ranking, Einzelwort

1. Trefferliste erstellen.2. Jedem Treffer Typ {Überschrift, Anker, URL, Großer Font,

Kleiner Font ...}, mit spezifischem Typwert, zuweisen.3. Vector der Typen-Gewichte in der Reihenfolge der Typen

erzeugen.4. Typen zählen und Häufigkeiten in Häufigkeitsgewichtungen

verwandeln.5. Häufigkeitsgewichtung normalisieren, am Anfang linear,

dann abnehmend.6. Gewichtungsrang entspricht dem Skalarprodukt aus dem

Vektor der Typengewichte mit dem Vektor der Häufigkeitsgewichte.

7. Kombination aus Gewichtungsrang und PageRank ergibt endgültigen Rang des Dokuments.

Einführung in die Informationsverarbeitung Teil Thaller Stunde V: Zusammengefügte Bausteine:...

Documents

Transcript of Einführung in die Informationsverarbeitung Teil Thaller Stunde V: Zusammengefügte Bausteine:...

Einführung in die Informationsverarbeitung Teil Thaller Stunde VII: Planen und Realisieren Manfred Thaller, Universität zu Köln Köln 6. Februar 2014.

Einführung in die Informationsverarbeitung Teil Thaller Stunde IV: Simulationen von Verhalten und Systemen Manfred Thaller, Universität zu Köln Köln 27.

Manfred Thaller, Universität zu Köln Köln 13. Dezember 2012

Historisch-Kulturwissenschaftliche Informationsverarbeitung und Medieninformatik an der Universität zu Köln Manfred Thaller Köln, 13. Oktober 2011.

Einführung in die Informationsverarbeitung Teil Thaller Stunde I: Der Informationsbegriff Köln 6. November 2008.

Prof. M. Thaller (Universität Köln) - Toward a reference curriculum in Digital Humanities

Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Software Engineering II Köln 22. Januar 2015.

Manfred Thaller, Universität zu Köln Köln 16. Januar 2014

Manfred Thaller Köln, 13. Oktober 2011

Was ist eine digitale Arbeitsumgebung für die Geisteswissenschaftliche Arbeit? Manfred Thaller, Universität zu Köln Köln, 27. Juli 2009.

Titel Manfred Thaller Universität zu Köln DHd Jahrestagung, Passau, 28. März 2014 1.

Manfred Thaller, Universität zu Köln Köln 23. Januar 2014

Reality Check 1: Ein wenig Technik - Dateiformate Manfred Thaller Universität zu Köln

Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde IV: Software Engineering I Köln 21. Januar 2010.

Fort Vancouver Mobile und das selbst entworfene Pendant: Köln Mobil Hauptseminar Reusable Content / Prof. Dr. Manfred Thaller HKI Universität zu Köln

Ist das DANRW vertrauenswürdig? Manfred Thaller Universität zu Köln Köln, Die Herausforderung der Elektronischen Archivierung 16. Januar 2013.

Kölner Studiengänge im Bereich Historisch Kulturwissenschaftlicher Geisteswissenschaftlicher Fachinformatik Manfred Thaller, Universität zu Köln Köln,

Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde I: Bildverarbeitung I Köln 19. November 2009.

Das DANRW - Einführung Manfred Thaller Universität zu Köln Köln, Die Herausforderung der Elektronischen Archivierung 16. Januar 2013.

Intelligente Dateisysteme Einführende Bemerkungen Manfred Thaller, Universität zu Köln Köln 17. Oktober 2013.