Dr. Thorsten Schneider Das SEO-Praxisbuch 2017 · PDF fileDr. Thorsten Schneider Das...
Transcript of Dr. Thorsten Schneider Das SEO-Praxisbuch 2017 · PDF fileDr. Thorsten Schneider Das...
Dr. Thorsten Schneider
Das SEO-Praxisbuch 2017Ein Webmasters Press Lernbuch
Version 6.1.1 vom 27.4.2017
Autorisiertes Curriculum für das Webmasters Europe Ausbildungs- und Zertifizierungspro-gramm.
www.webmasters-europe.org
Über den Autor
Dr. Thorsten Schneider ist Webspezialist der ersten Stunde. Nach einem naturwissenschaft-lichen Studium absolvierte er Mitte der 1990er Jahre eine der weltweit ersten Webmaster-Ausbildungen an der kanadischen Dalhousie University, arbeitete anschließend als Internet-experte in einem IT-Systemhaus in Mainz und gründete 1998 die Webmasters Akademie, dieer bis heute als Direktor und Leiter des Fachbereichs Web Business & Online Marketing lei-tet. Er ist außerdem Präsidiumsmitglied des Europäischen Webmasterverbandes WebmastersEurope e.V. (WE) und aktiv an der Entwicklung des internationalen WE-Ausbildungs- und Zer-tifizierungsprogramms beteiligt.
Kontakt zum Autor
https://www.xing.com/profile/Thorsten_Schneider8
© 2017 by Webmasters Presswww.webmasters-press.de
Webmasters Akademie Nürnberg GmbHNeumeyerstr. 22–2690411 NürnbergGermanywww.webmasters-akademie.de
Printed books made with Prince
Art.-Nr. 1225e9a24dc7Version 6.1.1 vom 27.4.2017
Das vorliegende Fachbuch ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Ver-wendung der Texte und Abbildungen, auch auszugsweise, ist ohne schriftliche Genehmi-gung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Ver-vielfältigung, Übersetzung oder Verwendung in elektronischen Systemen sowie für die Ver-wendung in Schulungsveranstaltungen. Die Informationen in diesem Fachbuch wurden mitgrößter Sorgfalt erarbeitet. Trotzdem können Fehler nicht vollständig ausgeschlossen wer-den. Autoren und Herausgeber übernehmen keine juristische Verantwortung oder irgend-eine Haftung für eventuell verbliebene fehlerhafte Angaben und deren Folgen.
Inhaltsverzeichnis13Vorwort
15Die Macht der Suchmaschinen
15Suchmaschinennutzung
15Marktanteile verschiedener Suchmaschinen
17Die Anfänge der Suchmaschinen
18Google
19Yahoo!
20Bing
20Yandex
21Baidu
21Alternative Suchmaschinen
22Fazit
22Testen Sie Ihr Wissen!
23Aufbau und Funktionsweise von Suchmaschinen
23Wie groß ist eigentlich das World Wide Web?
24Die Architektur von Suchmaschinen
25Das Webcrawler-System
26Die Google-Bots
26Der Scheduler
28Der Index
29Das Suchinterface
30Testen Sie Ihr Wissen!
33Die Google-Suchergebnisseite
33Bezahlte Anzeigen (Google Adwords und Google Shopping)
34Organische Suchergebnisse
35Woher stammen die Suchtreffer? Google Vertical und Universal Search
39Aufbau eines einzelnen Suchergebnisses
42Die Google Answer Box
43Der Google Knowledge Graph
47Testen Sie Ihr Wissen!
49Das Ranking
50Wie funktionierte die Relevanzberechnung vor Google?
52Ein revolutionärer Ansatz: Googles PageRank-Verfahren
52Die Hypothese der Google-Gründer
53Ein hilfreiches Modell: Der Zufallssurfer
54Der PageRank-Algorithmus
59Der sog. »Toolbar-PageRank«
61PageRank 10: Der Blick in den Google-Himmel
61Was folgt aus dem PageRank-Algorithmus?
1
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
2
2.1
2.2
2.3
2.3.1
2.4
2.5
2.6
2.7
3
3.1
3.2
3.2.1
3.3
3.4
3.5
3.6
4
4.1
4.2
4.2.1
4.2.2
4.2.3
4.2.4
4.2.5
4.2.6
62Weiterentwicklung des PageRank-Verfahrens
64Der PageRank ist tot —es lebe der PageRank!
66Trust und »TrustRank«
68PageRank- und Trust-Metriken von SEO-Tool-Anbietern
69LRT Power*Trust
70MOZ Domain Authority (DA) und Page Authority (PA)
70Ahrefs Rank (AR) von Ahrefs
70Trust Flow von Majestic SEO
71Page Strength (SPS) von Searchmetrics
71Übersichtstabelle
71Das BadRank-Konzept
72Kampf gegen den Webspam: Panda und Penguin
72Panda: Kampf gegen minderwertigen Content
73Penguin: Kampf gegen den Backlink-Spam
73Hummingbird: Google wird schlau
74RankBrain
77Rankingfaktoren sind nicht mehr statisch
78Die Zukunft der Suche
78Das Google-Ranking im Überblick
79Auf den Punkt gebracht: Was ist denn nun tatsächlich wichtig, um in Googlegut gefunden zu werden?
80Übungen
80Testen Sie Ihr Wissen!
81Die 60 wichtigsten Google-Rankingsignale
81Quellen
81Informationen von Google
82Untersuchungen von SEO-Experten
84Gliederung/Einteilung der Rankingsignale
84Webpage-Signale
84Content-Qualität
86Keywords
87HTML-Code
87Semantische Auszeichnung mit Mikroformaten
88Layout
88Optimierung für Mobilgeräte
88Ladezeit
89URL (lokaler Pfad)
89Eingehende Links (Backlinks)
91Interne Links
91Website-Signale
91Nützliche und einzigartige Inhalte
92Informationsarchitektur der Website
92Aktualisierungen der Website
92Anzahl der Seiten
92Zunahme der Seiten
92Anbieterinformationen (Impressum, Datenschutzbestimmungen etc.)
93Backlinks
93Domain-Signale
4.2.7
4.2.8
4.3
4.4
4.4.1
4.4.2
4.4.3
4.4.4
4.4.5
4.4.6
4.5
4.6
4.6.1
4.6.2
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
5
5.1
5.1.1
5.1.2
5.2
5.3
5.3.1
5.3.2
5.3.3
5.3.4
5.3.5
5.3.6
5.3.7
5.3.8
5.3.9
5.3.10
5.4
5.4.1
5.4.2
5.4.3
5.4.4
5.4.5
5.4.6
5.4.7
5.5
93Domain-Historie
93Keywords im Domainnamen
93Server-Signale
94Verfügbarkeit
94Performance
94HTTPS
94Nutzer-Signale (User Signals)
95Durchklickrate (Click-Through-Rate)
95SERP-Return-Rate
95Time on Site
95Bounce Rate (Absprungrate)
95Nutzer-Interaktionen mit der Seite
96Markensignale
96Vertrauenswürdige Marke
96Reputation
96Nennungen ohne Link (»Mentions«)
96Suchvolumen für Suche nach der Marke
97Soziale Signale
97Negative Signale
97Minderwertiger Content
97Schädliche Backlinks
98Schädliche ausgehende Links
98Viele gebrochene Links
98Technische Probleme oder Hindernisse
98Verstoß gegen Googles Webmaster-Richtlinien
99Überoptimierung
99Gastbeiträge in Blogs (»Guest Blogging«)
99Negative Bewertungen
99Manuelle Bestrafung durch Google
100Wie geht es weiter?
101Testen Sie Ihr Wissen!
102SEO-Prozess und SEO-Ziele
102Der Prozess der Suchmaschinenoptimierung
104Startpunkt des SEO-Prozesses
105Ziele der Suchmaschinenoptimierung
105Strategische SEO-Ziele
105Projektziele für SEO-Projekte
109Wirtschaftliche SEO-Ziele
109Messung der Zielerreichung
110Testen Sie Ihr Wissen!
111Keywords
111Die Bedeutung von Keywords im SEO-Prozess
111Keyword-Kandidaten ermitteln
112Brainstorming
112Kundenbefragungen
112Wettbewerberanalyse
112Der MetaGer-Web-Assoziator
5.5.1
5.5.2
5.6
5.6.1
5.6.2
5.6.3
5.7
5.7.1
5.7.2
5.7.3
5.7.4
5.7.5
5.8
5.8.1
5.8.2
5.8.3
5.8.4
5.9
5.10
5.10.1
5.10.2
5.10.3
5.10.4
5.10.5
5.10.6
5.10.7
5.10.8
5.10.9
5.10.10
5.11
5.12
6
6.1
6.2
6.3
6.3.1
6.3.2
6.3.3
6.4
6.5
7
7.1
7.2
7.2.1
7.2.2
7.2.3
7.2.4
113Der Keyword-Planer von Google
118Alternativen zu Googles Keyword-Planer
118Kostenlose Alternativen
119Kostenpflichtige Alternativen
119Aus Keyword-Kandidaten werden relevante Keywords: der Keyword Effectiven-ess Index (KEI)
124Was das Suchvolumen wirklich bedeutet
126Google Trends
127Ergebnis der Keyword-Analyse
128Testen Sie Ihr Wissen!
129Seitenoptimierung
129Textoptimierung
129Content-Qualität als Rankingfaktor
130Von der Keyworddichte zur Termgewichtung mit IDF*WDF
136WDF*IDF-Praxis
140Content-Optimierung unter Berücksichtigung von RankBrain
140Umgang mit »Duplicate Content«
141Ursachen von Duplicate Content
141Auswirkungen von Duplicate Content
142Was tun bei Duplicate Content?
143Bilder
144Videos
145PDF-Dateien
146Vermeiden Sie Flash!
147Optimierung des HTML-Codes und des Seitenaufbaus
147Keine Framesets!
147Für Mobilgeräte optimierte Webseiten
151Gültiges HTML
152Mustergültige Struktur
153Keyword-Verteilung
156Einzelne Seiten von der Indexierung ausschließen
156Den Robots sagen, wann sie wiederkommen sollen?
157Above the fold: Nützliche Inhalte sollten direkt sichtbar sein
157Eingebundene Dateien optimieren
157Bilder
158Videos
159CSS-Dateien und Skripte
160Übungen
161Testen Sie Ihr Wissen!
162Semantische Optimierung mit Mikroformaten
162Was ist das semantische Web?
165Technische Ansätze für das semantische Web
165HTML-Mikrodaten
165Aufbau der HTML-Mikrodaten
167Globale Attribute der HTML-Mikrodaten
169Verknüpfung von Objekten und Eigenschaften
170Den Quellcode prüfen mit Googles Test-Tool für strukturierte Daten
7.2.5
7.3
7.3.1
7.3.2
7.4
7.5
7.6
7.7
7.8
8
8.1
8.1.1
8.1.2
8.1.3
8.1.4
8.2
8.2.1
8.2.2
8.2.3
8.3
8.4
8.5
8.6
8.7
8.7.1
8.7.2
8.7.3
8.7.4
8.7.5
8.7.6
8.7.7
8.7.8
8.8
8.8.1
8.8.2
8.8.3
8.9
8.10
9
9.1
9.2
9.3
9.3.1
9.3.2
9.3.3
9.3.4
170Woher kommen die Werte für die Microdata Properties?
172Semantische Optimierung mit HTML-Mikrodaten
172Lohnt der Aufwand?
172Breadcrumbs
174Personen
175Unternehmen und Organisationen
176Produkte
177Bewertungen und Erfahrungsberichte
179Veranstaltungen
180Video
181Übungen
181Testen Sie Ihr Wissen!
182Site-Optimierung
182Domainname und URL
184Struktur der Website
186Schnelligkeit und Verfügbarkeit der Website
187Ladezeiten prüfen mit dem Google PageSpeed Analyzer
188Ihre To-dos
188IP-Adresse des Webservers
189HTTPS-Protokoll
191Webanwendungen
193Die Steuerdatei robots.txt
194Testen Sie Ihr Wissen!
195Backlink-Management
195Wie wichtig sind Backlinks heute noch?
195Was bedeutet Backlink-Management?
196Backlink-Analyse
197Backlink-Checker
202Das »natürliche Linkprofil«
206Linkbuilding-Strategien
206Prinzipielle Erwägungen
207Was Sie nicht tun sollten …
208Was Sie tun sollten: Sieben Linkbuilding-Methoden, die funktionieren
208Selbst Backlinks setzen
209Verzeichnisse
210Vitamin B nutzen
211Wettbewerber-Analyse
212Gastartikel (»Guest Blogging«)
213Verlinkenswerte Inhalte schaffen
215Unorthodoxe Methoden
216Optimierung von Onlineshops
218Die Nachricht verbreiten
219Optimale Linktexte
220Trust steigern durch Authority Links
221Schlechte/schädliche Links entfernen
223Übungen
224Testen Sie Ihr Wissen!
9.3.5
9.4
9.4.1
9.4.2
9.4.3
9.4.4
9.4.5
9.4.6
9.4.7
9.4.8
9.5
9.6
10
10.1
10.2
10.3
10.3.1
10.3.2
10.4
10.5
10.6
10.7
10.8
11
11.1
11.2
11.3
11.3.1
11.3.2
11.4
11.4.1
11.4.2
11.5
11.5.1
11.5.2
11.5.3
11.5.4
11.5.5
11.5.6
11.5.7
11.6
11.7
11.8
11.9
11.10
11.11
11.12
225Local SEO
225Suchanfragen mit lokalem Bezug
226Lokale Rankingfaktoren
227Adresse
227Eintrag in Google My Business
232Testen Sie Ihr Wissen!
233Erfolgskontrolle
233Erfolgskontrolle mit Google
233Personalisierungsfunktionen deaktivieren
235Lokalisierungsfunktionen beachten
236Erfolgskontrolle mit Startpage
237Datenverwaltung im Spreadsheeet
238Kommerzielle Keyword-Monitoring-Tools
240Sichtbarkeitsindex
240Übungen
240Testen Sie Ihr Wissen!
241Der SEO-Check
241Schneller Ranking-Check
241Die Seiten im Google-Index
242Backlinks: PageRank und Trust
246Sichtbarkeitsindex
247Seitenanalyse
249Übungen
249Testen Sie Ihr Wissen!
251Bleiben Sie up to date!
251Google
252Experten-Blogs
253Konferenzen
254Lösungen der Übungsaufgaben
259Lösungen der Wissensfragen
275Index
12
12.1
12.2
12.2.1
12.2.2
12.3
13
13.1
13.1.1
13.1.2
13.2
13.3
13.4
13.5
13.6
13.7
14
14.1
14.2
14.3
14.4
14.5
14.6
14.7
15
15.1
15.2
15.3
Vorwort
Fast alle Internetnutzer verwenden Suchmaschinen, um im World Wide Web Informationen,Dienstleistungen oder Produkte zu finden. Marktstudien belegen, dass Suchmaschinen injeder Phase des Kaufentscheidungsprozesses benutzt werden.
Das zeigt, wie wichtig es für den Erfolg im Web ist, in Suchmaschinen gut gefunden zu werden.Gerade für ein Unternehmen, das neu und noch unbekannt ist und nicht über das Marketing-budget eines Konzerns verfügt, bietet das Web hervorragende Möglichkeiten, sich von seinerZielgruppe finden zu lassen.
Aber auch für bereits etablierte Unternehmen ist es wichtig, im Web leicht gefunden zu wer-den. Denn die Markenloyalität nimmt stetig ab, und der Wettbewerb ist nur einen Mausklickentfernt. In Suchmaschinen gut gefunden zu werden, ist für viele Unternehmen heute ein kri-tischer Erfolgsfaktor. Das Thema Suchmaschinenmarketing (Search Engine Marketing, SEM) istlängst zur Chefsache geworden.
SEM umfasst zwei Teilbereiche: SEA und SEO. SEA (Search Engine Advertising bzw. Suchma-schinenwerbung) beschäftigt sich mit der Schaltung von Anzeigen und Produktplatzierun-gen auf der Suchergebnisseite. Bei Google stehen Werbetreibenden dafür die Systeme GoogleAdwords und Google Shopping zur Verfügung.
Bei SEO (Search Engine Optimization bzw. Suchmaschinenoptimierung) geht es dagegen aus-schließlich darum, wie sich gute Platzierungen in den sogenannten organischen Suchergeb-nissen erreichen lassen. Diese können nicht gekauft oder ersteigert werden, sondern basie-ren auf der algorithmischen Bewertung von Rankingsignalen mit dem Ziel, für eine bestimmteSuchanfrage die relevantesten Webseiten zu finden.
SEO ist heute groß und wichtig: Praktisch alle im Web erfolgreichen Unternehmen beschäfti-gen sich mit SEO, längst ist eine ganze Branche von Dienstleistern rund um SEO entstanden.Es gibt unzählige Unternehmen und freie Experten, die SEO-Beratung anbieten, und es exis-tieren zahlreiche Bücher und Kongresse zum Thema.
Dabei hat die Komplexität von SEO in den letzten Jahren kontinuierlich zugenommen. Je»schlauer« Google wird, je komplexer die Rankingalgorithmen sind und je mehr KriterienGoogle auswertet, desto komplizierter wird es, Webseiten zu optimieren.
Das macht es nicht unbedingt einfacher, eine Webseite in Google ganz nach oben zu bringen.Aber umso wichtiger ist es, sich eingehend mit dem Thema SEO zu beschäftigen. Sonst über-lassen Sie den Erfolg Ihren Wettbewerbern!
Die gute Nachricht ist jedoch: SEO ist keine Hexerei. Sie müssen nicht unbedingt teure Exper-ten beauftragen, sondern können die Sache selbst in die Hand nehmen oder innerhalb IhresUnternehmens ansiedeln. Sie können mit etwas Aufwand und ohne viel Geld unglaublich vielerreichen. Das werde ich Ihnen beweisen.
Schritt für Schritt lernen Sie, was zu tun ist, um mit den für Sie relevanten Suchbegriffen aufdie erste Ergebnisseite der Google-Suche zu gelangen und zwar möglichst weit oben. Nur sowerden Sie in einem signifikanten Umfang Interessenten abholen und auf Ihre Website leiten.
Und das ist die Basis für den wirtschaftlichen Erfolg im Web. Je mehr Besucher Sie auf IhreWebsite bekommen, desto größer sind auch Ihre Chancen, neue Kunden zu gewinnen undIhre Umsätze zu steigern.
Erreichen können Sie das nur, wenn Sie verstehen, wie Google »denkt«, und wenn Sie wissen,welche Kriterien bzw. »Signale« Google bei der Berechnung des Rankings wie stark berück-sichtigt.
Der große Vorteil von SEO gegenüber vielen anderen Marketingmaßnahmen besteht darin,dass der Effekt nachhaltig ist und nicht so schnell verpufft. Auch wenn Google seine Algorith-men ständig weiterentwickelt und verbessert, halten sich Webseiten, die fundiert und reelloptimiert sind, hartnäckig auf den oberen Rankingplätzen, ohne dass Sie allzu viel nachjustie-ren müssen.
Einschränkend möchte ich anmerken, dass das alleine natürlich nicht reicht. SEO ist kein All-heilmittel gegen wirtschaftlichen Misserfolg. Die Basis für Erfolg sind immer gute Produkteoder Dienstleistungen, die die Bedürfnisse einer Zielgruppe optimal erfüllen. Ein weitererwichtiger Faktor ist Ihre Website selbst. Inhalt und Usability müssen stimmen, sonst flüchtendie Besucher Ihrer Website schneller wieder, als sie gekommen sind. Das sind heute sogarwichtige Rankingkriterien, die Google berücksichtigt!
Nur wenn diese Voraussetzungen erfüllt sind, kann SEO seine ganze Wirkung entfalten, undaus Ihren Besuchern werden tatsächlich auch Kunden.
Natürlich bin ich auf Ihre Meinung sehr gespannt, freue mich über Lob und Tadel, konstruktiveKritik und Verbesserungsvorschläge. Gerne können Sie mich z.B. über XING1 kontaktieren.
In diesem Sinne wünsche ich Ihnen viel Spaß bei der Lektüre und viel Erfolg bei Ihrer SEO-Arbeit! Ich freue mich darauf, den einen oder anderen von Ihnen auch einmal online oder im»Real Life«, z. B. auf einer SEO-Konferenz, kennenzulernen.
Happy SEO!
Ihr
Thorsten Schneider
1. https://www.xing.com/profile/Thorsten_Schneider8
1.1
1.2
1Die Macht der Suchmaschinen
In dieser Lektion lernen Sie
➤ wie Internetnutzer Suchmaschinen nutzen.➤ welche Suchmaschinen sich den Markt wie aufteilen.➤ wie sich die Suchmaschinen entwickelt haben.
Suchmaschinennutzung
Laut einer Marktstudie der Arbeitsgemeinschaft Online Forschung aus dem Jahr 20152 sindSuchmaschinen für 92,9 % der Internetnutzer die wichtigste Anwendung im Internet über-haupt, noch vor privaten E-Mails.
Eine (nicht veröffentlichte) Studie der Marktforscher Fittkau & Maaß hat ergeben, dass Such-maschinen in jeder Phase des Kaufentscheidungsprozesses genutzt werden, nicht nur zuBeginn, sondern oftmals auch noch kurz vor dem tatsächlichen Kauf.
Demnach geht fast ein Drittel der Suchmaschinennutzer davon aus, dass Anbieter, die in denSuchergebnissen immer wieder weit oben auftauchen, führende, bekannte Anbieter sind, undglaubt außerdem, dass ein Anbieter, der bei der Suche nach einem Produkt in der Ergebnis-liste nicht auftaucht, das Produkt gar nicht führt.3
Diese Erkenntnisse der Marktforschung machen mehr als deutlich, wie wichtig es für denErfolg im Web ist, in Suchmaschinen gut gefunden zu werden, egal, um welche Art vonWebauftritt es sich handelt.
Marktanteile verschiedener Suchmaschinen
Google ist im Jahr 2016 mit fast 90 % Marktanteil weltweit mit Abstand die am meistengenutzte Suchmaschine und dominiert den Suchmaschinenmarkt fast schon monopolartig.Andere Suchmaschinen spielen global kaum eine Rolle.
Suchmaschine Globaler Marktanteil (%)
Google 89,38
Bing 4,20
Tabelle 1.1 Globale Marktanteile von Suchmaschinen. Quelle: https://www.statista.com/statistics/216573/worldwide-market-share-of-search-engines/
2. http://www.agof.de/download/Downloads_digital_facts/Downloads_Digital_Facts_2015/Downloads_Digital_Facts_2015_07/07-2015_df_Grafiken_digital_facts_2015-07.pdf?8e20e8
3. Neue Studie zur Nutzung von Suchmaschinen. CPC Consulting. (https://www.cpc-consulting.net/Nutzung-Suchmaschinen)
1.1 Suchmaschinennutzung 15
Suchmaschine Globaler Marktanteil (%)
Yahoo 3,37
Baidu 0,71
andere 2,34
Tabelle 1.1 Globale Marktanteile von Suchmaschinen. Quelle: https://www.statista.com/statistics/216573/worldwide-market-share-of-search-engines/
Allerdings gibt es regionale Unterschiede, die wichtig sind, wenn Sie auf bestimmten Ziel-märkten aktiv sind. Während Google in Deutschland, den meisten europäischen Ländern, Süd-amerika und Afrika über 90 % Marktanteil hat, dominieren in einigen Ländern wie z.B. Russ-land, Tschechien und Südkorea jeweils lokale Suchmaschinen. Interessanterweise kommt dieSuchmaschine Google in ihrem eigenen Heimatland, den USA, »nur« auf knapp unter 70 %Marktanteil.
Land Google-Marktanteil (%) Größter Google-Konkurrent (%)
Indien 96,6 Yahoo (1,5)
Brasilien 95,3 Bing (2,1)
Niederlande 94,2 Bing (2,5)
Deutschland 93,3 Bing (2,9)
Frankreich 93,0 Bing (2,7) Yahoo (2,7)
Großbritannien 90,5 Bing (4,9)
Estland 79,9 Yandex (11,6)
Tschechien 73,2 Seznam (24,3)
USA 67,4 Bing (19,3) Yahoo (10,0)
Japan 64,8 Yahoo (30,1)
Russland 29,7 Yandex (60,5)
Südkorea 1,9 Naver (77,0) Daum (18,8)
China 0,37 Baidu (56,0) Qihoo (29,0) Sogou (12,8)
Tabelle 1.2 Marktanteile von Google in einigen ausgewählten Ländern. Quelle: https://www.luna-park.de/blog/9907-suchmaschinen-marktanteile-weltweit-2016/
Demnach ist Google nur in wenigen Ländern nicht unangefochtener Marktführer. Dort musssich der Suchmaschinenriese mit lokalen Konkurrenten auseinandersetzen. In den USA undJapan sind traditionell die von Microsoft betriebenen Suchmaschinen Bing und Yahoo (wirdheute von der Bing-Suchmaschine »gepowert«) stark. In Russland dominiert Yandex, währendGoogle in vielen russischsprachigen Ländern Zentralasiens den russischen MarktführerYandex inzwischen mehr und mehr vom Markt verdrängt und schon auf einen Marktanteil von67 % kommt.
16 1 Die Macht der Suchmaschinen
1.3
Eine spezielle Situation ergibt sich in China: Aufgrund der strengen Zensur werden Google-Dienste weitgehend blockiert. Neben der dort marktführenden Suchmaschine Baidu habenmit Qihoo 360 und Sogou noch zwei weitere lokale Suchmaschinen Marktanteile von über10 %.
Die Anfänge der Suchmaschinen
Bereits seit den Anfängen des WWW gab es Bestrebungen, Webseiten mit relevanten Infor-mationen auffindbar zu machen. Einer der ersten Ansätze waren von Hand gepflegte Listenvon Webservern, die mit dem Internet verbunden waren. Der Erfinder des WWW, Tim Berners-Lee, pflegte in den ersten Jahren eigenhändig eine solche Liste und veröffentlichte sie auf demWebserver des Forschungsinstituts CERN4, an dem er tätig war.
Andere Webkataloge ordneten die Websites in Kategorien und Unterkategorien ein und kon-struierten so ein hierarchisches Verzeichnis, das sich durchblättern oder durchsuchen ließ. Die-sen Ansatz verfolgten u.a. das bekannte Yahoo-Verzeichnis und später das von der Firma Net-scape ins Leben gerufene Open Directory Project (ODP).
Als sich das enorme Wachstum des WWW abzeichnete, wurde klar, dass von Hand gepflegteListen nicht geeignet waren, alle Websites zu erfassen und die Einträge aktuell zu halten. DieLösung konnte nur darin bestehen, eine Software zu programmieren, die das WWW perma-nent nach neuen Webseiten durchsucht und einen Index der gefundenen Seiten automatischerstellt.
Die erste Suchmaschine wurde 1993 entwickelt und hatte den Namen JumpStation. Siebenutzte bereits einen Webrobot, eine Software, die Webseiten im WWW finden und automa-tisch einen Index dieser Seiten erstellen konnte. Aufgrund der limitierten Hardware-Ressour-cen, die dieser Suchmaschine zur Verfügung standen, extrahierte JumpStation nur die Titelund Überschriften aus den gefundenen Webseiten und speicherte diese in ihrem Index ab. EinJahr später erschien mit WebCrawler jedoch eine Suchmaschine, die den gesamten Text einerWebseite herunterlud und für den Aufbau ihres Suchindex verwendete. Bei WebCrawler konn-ten die Suchenden daher nach beliebigen Begriffen und Begriffskombinationen suchen underhielten als Ergebnis eine Liste von Webseiten, auf denen diese Begriffe irgendwo im Text vor-kamen. Das Prinzip der Volltextindexierung ist auch heute noch der Standard bei allen aktuel-len Suchmaschinen.
Schon zu dieser Zeit war klar, dass Suchmaschinen im WWW zukünftig eine entscheidendeRolle spielen würden. Entsprechend groß war das Interesse von Visionären dieser Zeit, eigeneSuchmaschinen zu entwickeln. Bis Mitte der 1990er Jahre entstanden u.a. die SuchmaschinenLycos, Altavista, Excite, Infoseek, Northern Light und Inktomi, die später von Yahoo aufgekauftwurde.
Der Wettbewerb zwischen verschiedenen Suchmaschinenbetreibern wurde in den kommen-den Jahren so groß, dass der Webbrowser-Hersteller Netscape 1996 von fünf Suchmaschinenjeweils 5 Millionen Dollar pro Jahr nur dafür kassieren konnte, dass er in seiner Browser-Soft-ware auf jede dieser fünf Suchmaschinen in Rotation verlinkte!
Schauen wir uns die wichtigsten der heute relevanten Suchmaschinen etwas näher an:
4. CERN ist die Europäische Organisation für Kernforschung, eine Forschungseinrichtung im Kanton Genf in derSchweiz
1.3 Die Anfänge der Suchmaschinen 17
1.4 Google
Die Google-Story begann Mitte der 1990er Jahre, als zwei Doktoranden der Stanford Univer-sity, Sergey Brin und Larry Page, sich im Rahmen eines Forschungsprojekts Gedanken darübermachten, wie man eine bessere Web-Suchmaschine konstruieren könnte. Damalige Suchma-schinen wie z. B. Altavista hatten nämlich das Problem, dass die Qualität der Suchergebnisseimmer weiter abnahm. Das lag daran, dass es Websitebetreibern zunehmend gelang, durchdie Anwendung verschiedener Tricks ihre Seiten in den Suchergebnissen auf die oberen Plätzezu bringen, auch wenn diese für die von den Suchenden eingegebenen Suchbegriffe gar nichtwirklich relevant waren.
Die beiden Google-Gründer Larry Page und Sergey Brin glaubten, für das Problem eineLösung gefunden zu haben. Sie stellten die Hypothese auf, dass eine Suchmaschine, diebei der Relevanzberechnung die Verlinkung der Webseiten im WWW berücksichtigt, bessereResultate liefert als herkömmliche Suchmaschinen, die das nicht taten.
Der von ihnen entwickelte Algorithmus, das sog. PageRank-Verfahren, analysiert die gesamteVerlinkungsstruktur des World Wide Web und ermittelt für jede Webseite einen Wert, densog. PageRank, der auch heute noch ein wichtiger Rankingfaktor ist. Mithilfe dieses Algorith-mus gelang es Google tatsächlich, deutlich bessere Suchergebnisse zu generieren als die Kon-kurrenz. Das war sicherlich ein wesentlicher Grund für den großen Erfolg des UnternehmensGoogle. Das PageRank-Verfahren erläutere ich im Detail in Lektion 4.
Im September 1998 gründeten Page und Brin das Unternehmen Google Inc. Als Unternehmenist Google überaus erfolgreich. Google war bereits im dritten Jahr seiner Unternehmensge-schichte profitabel, und seitdem haben sich Umsatz und Gewinn prächtig entwickelt (Abb. 1).
Im Jahr 2015 machte Google unglaubliche 74,5 Milliarden Dollar Umsatz und 23,4 MilliardenDollar Gewinn.5
Im August 2015 kündigte Google-Chef Larry Page an, den Konzern umzustrukturieren. DieSuchmaschine wurde von den anderen Geschäftsbereichen (u.a. Youtube, der Gesundheits-firma Calico und den Investmentbereichen Google Ventures und Google Capital) getrennt.Alle Geschäftsbereiche sind seitdem unter dem Dach der neu gegründeten Holding AlphabetInc. zusammengefasst.
Anfang Februar 2016 verdrängte der Google-Mutterkonzern Alphabet mit einem Börsenwertvon 570 Milliarden Dollar den iPhone-Hersteller Apple von Platz 1 der Liste der wertvollstenbörsennotierten Unternehmen der Welt.6
Heute ist Alphabet ein multinationaler Konzern, der weltweit mehr als 66.000 Angestelltebeschäftigt.7
Die Suchmaschine Google selbst besteht aus einem Cluster aus mehreren Hunderttausend(!) Servern, die in mehr als 60 Rechenzentren über den gesamten Globus verteilt sind. Dabeisetzt Google auf billige PC-Hardware und Linux als Betriebssystem. Diese Architektur garan-tiert eine größtmögliche Ausfallsicherheit (der Ausfall einzelner Server ist völlig unkritisch)
5. Quelle: https://abc.xyz/investor/index.html
6. Quelle: Alphabet ist wertvollstes Unternehmen der Welt (http://www.zeit.de/wirtschaft/unternehmen/2016-02/google-alphabet-quartalszahlen-rekord)
7. Quelle: https://en.wikipedia.org/wiki/Alphabet_Inc.
18 1 Die Macht der Suchmaschinen
Abb. 1 Geschäftszahlen von Google Inc. bzw. seit 2015 Alphabet Inc. in den Jahren 2001 bis2015 (Quelle: https://abc.xyz/investor/index.html)
1.5
und sehr kurze Reaktionszeiten, da die Anfragen immer an ein Rechenzentrum in geografi-scher Nähe weitergeleitet werden.
Es wird geschätzt, dass Google insgesamt rund eine Million Server betreibt, um seine verschie-denen Webdienste am Laufen zu halten.8 Durch den Kauf anderer Internetfirmen und durchEigenentwicklungen bietet Google heute außer der Suchmaschine noch eine Vielzahl weite-rer Webdienste an, darunter den E-Mail-Dienst Gmail, das Online-Office-Paket Google Docs,das Videoportal Youtube, das Blogportal Blogger, die Foto-Community Google Photos (ehemalsPicasa) und das soziale Netzwerk Google+.
Googles Kern und mit Abstand größte Einnahmequelle ist jedoch auch heute noch die Such-maschine bzw. das damit verbundene Werbenetzwerk Adwords, über das der Internetgigantimmer noch über 90% seiner Einnahmen generiert.
Diese Fakten belegen eindrucksvoll, über welche finanziellen und personellen Ressourcen unddamit Marktmacht Google verfügt, und wie schwer es Wettbewerber haben dürften, Googlediese Marktposition streitig zu machen.
Yahoo!
Die Wurzeln des Unternehmens Yahoo reichen bis ins Jahr 1994 zurück, als die beiden Stu-denten Jerry Yang und David Filo eine Website namens »David and Jerry's Guide to the WorldWide Web« online stellten. Diese Site beinhaltete einen hierarchisch aufgebauten Katalog vonWebsites, den die beiden händisch pflegten und erweiterten. Schon nach wenigen Monatenwurde das Verzeichnis in Yahoo! umbenannt. Das Unternehmen entwickelte sich zu einemPortal weiter, das über Werbeeinnahmen Geld verdienen konnte, und baute seinen Webkata-log immer weiter aus. Als ein von Menschen redaktionell gepflegtes Verzeichnis, in das neueWebsites nur nach Prüfung ihres Nutzwerts aufgenommen wurden, bildete Yahoo praktisch
8. Quelle: Google: One Million Servers And Counting (http://www.pandia.com/articles/gartner)
1.5 Yahoo! 19
1.6
1.7
das Gegenmodell zum Ansatz der Suchmaschinen, die bestrebt waren, über automatisierteVerfahren alle öffentlich zugänglichen Webseiten des WWW auffindbar zu machen.
Allerdings musste auch Yahoo einsehen, dass ein redaktionell geführtes Webverzeichnis mitdem starken Wachstum des WWW nicht mithalten kann. Ab dem Jahr 2000 bot Yahoo aucheine Websuche an und war dafür Lizenznehmer von Google. Durch den Erwerb der Suchma-schine Inktomi holte sich Yahoo eine eigene Suchtechnologie ins Haus. Der Vertrag mit Googlewurde 2004 gekündigt, und Yahoo trat in direkte Konkurrenz zu Google und Microsofts Bing-Suchmaschine.
Nachdem Microsoft im Jahr 2008 erfolglos versuchte hatte, Yahoo zu übernehmen, einigtensich die beiden Unternehmen überraschenderweise 2009 auf eine Kooperation: Die Yahoo-Suchtechnologie ist 2013 komplett durch Microsoft Bing ersetzt worden. Alle Suchanfragenan die Yahoo-Websites werden heute von Bing beantwortet.
Bing
Bing9 heißt die aktuelle Suchmaschine von Microsoft, der dritte Versuch des IT-Giganten ausRedmond, im Suchmaschinenmarkt Fuß zu fassen. Die erste Microsoft-Suchmaschine nanntesich MSN Search und erschien 1998, im Gründungsjahr von Google. MSN Search verfügtebereits über einen eigenen Suchindex und ein Webcrawler-System, griff jedoch teil- bzw. zeit-weise auch auf Suchergebnisse anderer Suchmaschinen (Inktomi, Looksmart, Altavista) zu. Inden folgenden Jahren entwickelte Microsoft dann aber eine eigene Suchtechnologie, die 2006unter dem Namen Windows Live Search (ab 2007 nur noch Live Search genannt) unter derDomain live.com veröffentlicht wurde. Im Juni 2009 schließlich erfolgte die Umbenennung indie neue Marke Bing.
Nach der überraschenden Vereinbarung mit Yahoo im Jahr 2009 gelang Microsoft im Sommer2011 ein weiterer spektakulärer Deal: Der chinesische Suchmaschinenbetreiber Baidu kün-digte an, dass Suchanfragen an Baidu mit englischen Begriffen zukünftig an Bing weitergelei-tet werden.
Microsoft hat jüngst in den USA offenbar Marktanteile dazugewinnen können. Eine Studiesieht Bing und Yahoo zusammen aktuell bei über 30 %.10
Yandex
Yandex (russisch Яндекс) ist die in Russland am meisten verwendete Suchmaschine mit einenMarktanteil von über 60 %. Das russisch-niederländische Unternehmen hat seinen Hauptsitzin Amsterdam und eine Zentrale in Moskau. Neben der Suchmaschine bietet Yandex ähnlichwie Google auch verschiedene Internetdienstleistungen und Produkte an wie u.a. einen eige-nen Webbrowser, eine Landkarten-Anwendung, Webmail, Clouddienste, Online-Übersetzun-gen und Internetwerbung. Nach Google, Baidu, Bing und Yahoo ist Yandex die fünftgrößteSuchmaschine der Welt, die außer in Russland auch in einigen anderen Ländern Osteuropaseinen signifikanten Marktanteil hat. Yandex hat eine Kooperation mit Microsoft und ist
9. http://www.bing.com
10. Bing slowly eating away at Google Search with new market share gain (http://news.thewindowsclub.com/bing-slowly-eating-away-google-search-new-market-share-gain-81397/)
20 1 Die Macht der Suchmaschinen
1.8
1.9
dadurch die voreingestellte Suchmaschine in Windows 10 für den russischen Markt, in derUkraine und in einigen anderen Ländern, u.a. der Türkei.11
Seit Mai 2010 ist die Suchmaschine auch in einer englischen Version12 global verfügbar. EinigeBrancheninsider trauen Yandex zu, zu einem ernsthaften Google-Konkurrenten heranzuwach-sen.
Yandex ist definitiv wichtig, wenn Sie in russischsprachigen Ländern gefunden werden wollen.
Baidu
Baidu ist die marktführende Suchmaschine in China. Ihr Marktanteil liegt bei knapp 60 %. Daschinesische Unternehmen arbeitet eng mit den chinesischen Behörden zusammen und blo-ckiert Inhalte, die von der chinesischen Regierung zensiert werden. Baidu ist an der Börsenotiert und verdient sein Geld mit Onlinewerbung. Neben der textbasierten Suchmaschinebietet Baidu auch eine Büchersuche und eine Suche nach MP3-Audiodateien an. Durch eineKooperation mit Microsoft werden Suchanfragen an Baidu mit englischen Begriffen seit Ende2015 an Bing weitergeleitet. Im Gegenzug ist Baidu.com13 in Microsoft Windows 10 für denchinesischen Markt die voreingestellte Suchmaschine. Google dagegen hat sich nach einemStreit mit den chinesischen Behörden über deren Forderung nach Zensur bestimmter Inhaltevom chinesischen Markt weitgehend zurückgezogen.
Alternative Suchmaschinen
Außer in einigen wenigen Ländern ist Google mit Abstand der unangefochtene Marktführer.Zwar gab und gibt es immer wieder Versuche, mit Neuentwicklungen und neuen Technolo-gien die Marktmacht des Suchmaschinengiganten zu brechen, doch bisher war kein Versuchvon dauerhaftem Erfolg gekrönt. Zu diesen gescheiterten Projekten gehören u.a. Cuil, Viewzi,Wikia Search, SearchMe und Blekko. Darüber hinaus gibt es zahlreiche zwar noch aktive, aberwenig erfolgreiche Projekte wie z.B. Wolfram Alpha (leitet seine Suchergebnisse inzwischenan Bing weiter), Excite (fristet ein Nischendasein), Altavista (gehört heute Yahoo) und Exalead(erfolgloser europäischer Google-Kontrahent).
Nach dem Bekanntwerden des Überwachungsprogramms PRISM und durch zunehmende Kri-tik an Google als »Datenkrake« konnten in jüngster Zeit einige neuere Suchmaschinen Markt-anteile gewinnen, die damit werben, keine persönlichen Informationen zu sammeln. Dazugehören die Suchmaschinen DuckDuckGo14, Ixquick15 und Startpage16. Während es sich beiIxquick und Startpage um Meta-Suchmaschinen handelt, die andere Suchmaschinen, darun-ter auch Google, anonymisiert abfragen, verfügt DuckDuckGo über einen eigenen Webcraw-ler, den DuckDuckBot.
11. Yandex Continues Its Momentum as Market Share Rises (http://www.fool.com/investing/general/2016/04/29/yandex-continues-its-momentum-as-market-share-rise.aspx)
12. https://www.yandex.com/
13. http://Baidu.com
14. https://https://duckduckgo.com//
15. https://www.ixquick.com/
16. https://www.startpage.com/
1.8 Baidu 21
1.10
1.11
Fazit
Google dominiert den globalen Suchmaschinenmarkt. Nur in wenigen Ländern spielenandere Suchmaschinen eine Rolle. Ich behandle daher in diesem Buch ausschließlich die Opti-mierung für Google unter Berücksichtigung der Funktionsweise und der Rankingfaktoren vonGoogle. Über die genaue Funktionsweise und die Rankingfaktoren von Yandex, Baidu, Naver,Seznam und anderen Suchmaschinen kann ich nichts sagen. Wenn das für Sie wichtig ist, dannmüssen Sie sich damit gesondert auseinandersetzen. Die Microsoft-Suchmaschine Bing unddamit auch die Yahoo-Suche scheinen dagegen technisch den Google-Algorithmen sehr ähn-lich zu sein, sodass Webseiten, die für Google optimiert wurden, in der Regel auch in Bing undYahoo gut ranken.
Testen Sie Ihr Wissen!
1. Warum ist es für den Erfolg einer Website so wichtig, in Suchmaschinen gut gefunden zuwerden?
2. In welchen Ländern der Erde ist Google nicht Marktführer?
3. Wie heißen die marktführenden Suchmaschinen in diesen Ländern?
4. Nennen Sie einen wichtigen Grund für den großen Erfolg der Suchmaschine Google!
5. Woher bezieht die Suchmaschine Yahoo seit 2013 ihre Ergebnisse?
6. Nennen Sie drei Suchmaschinen, die damit werben, keine persönlichen Informationen desSuchenden zu speichern.
7. Wie unterscheidet sich DuckDuckGo von Startpage und Ixquick?
22 1 Die Macht der Suchmaschinen
2.1
2Aufbau und Funktionsweise vonSuchmaschinen
In dieser Lektion lernen Sie
➤ wie groß das World Wide Web ist und wie viele Menschen es nutzen.➤ wie Suchmaschinen aufgebaut sind.➤ wie Suchmaschinen funktionieren.
Wie groß ist eigentlich das World Wide Web?
Seit der Erfindung des World Wide Web (WWW) durch Tim Berners-Lee im Jahre 1990 hat sichdas Internet in vielen Ländern zu einem Massenmedium entwickelt. Aktuell (d.h. im Jahr 2016)nutzen weltweit mehr als 3,6 Milliarden Menschen das Internet,17 und das Internet besteht ausmehr als einer Milliarde Hosts.18, 19
Eine interessante Frage ist, aus wie vielen einzelnen (unterschiedlichen und indexierbaren)Webseiten20 das WWW besteht. Ein Websitebetreiber konkurriert letztlich mit all diesen Seitenum die Auffindbarkeit im Web, und je mehr Seiten es zu einem Thema bzw. Keyword gibt,desto schwieriger wird es prinzipiell, gut gefunden zu werden.
Da es unmöglich ist, die einzelnen Seiten direkt zu zählen, gibt es dazu nur Schätzungen. Dieseberuhen größtenteils auf der Auswertung der Größe des Suchindex der großen Suchmaschi-nen. Wenn man davon ausgeht, dass eine Suchmaschine wie Google bemüht und grundsätz-lich in der Lage ist, alle im WWW erreichbaren und zugänglichen Seiten zu indexieren, ent-spräche die Größe des Index ziemlich genau der Summe aller Seiten im WWW.
Leider verrät Google dies schon seit einigen Jahren nicht mehr. Bis September 2005 blendeteGoogle die Zahl der Dokumente im Index auf der Startseite des Suchinterfaces ein (vgl.Abb. 2), dann verschwand diese Zahl. Der damalige CEO von Google, Eric Schmidt, begründetedies damit, dass keine einheitliche Zählweise existiere. Google-Konkurrent Yahoo warb zu die-sem Zeitpunkt nämlich mit einer größeren Zahl auf seiner eigenen Startseite, wofür Googledie höhere Zahl an nicht bereinigten Dubletten verantwortlich machte. Viele Seiten im WWWlassen sich unter unterschiedlichen URLs21 aufrufen, obwohl sie inhaltlich identisch sind. Eine
17. Quelle: http://www.internetworldstats.com/stats.htm
18. Ein Host bezeichnet in diesem Zusammenhang (etwas vereinfacht ausgedrückt) einen Server, der über eine IP-Adresse und einen dieser IP-Adresse zugeordneten Namen im Internet erreichbar ist, z.B. www.google.comoder www.w3.org
19. Quelle: https://www.isc.org/network/survey/
20. Begriffserläuterung: Eine Website besteht aus einer Vielzahl einzelner Webseiten, die jeweils mit einer weltweiteindeutigen Adresse, URL genannt, aufgerufen werden können.
21. URL = Uniform Resource Locator, eindeutige Adresse eines Dokuments im WWW wie z. B.http://de.webmasters-europe.org/zertifizierung
2.1 Wie groß ist eigentlich das World Wide Web? 23
Abb. 2 Startseite von Google im September 2005. Quelle: http://web.archive.org/web/20050901125225/http://www.google.com/
2.2
Dublettenbereinigung ist also sinnvoll, wenn man die tatsächliche Zahl unterschiedlicherWebseiten ermitteln möchte. Offenbar lösten Google und Yahoo ihren Streit um den größtenIndex damit, dass sie übereinkamen, öffentlich keine Angaben mehr zur Größe ihres Index zumachen.
Heute kennt also niemand, außer vielleicht Google, die Größe des WWW genau. Es gibt aberwissenschaftliche Ansätze zur Abschätzung der Größe des WWW. Der Niederländer Mauricede Kunder hat im Rahmen seiner Master-Abschlussarbeit an der Tilburg University eineMethode entwickelt, die auf der Analyse der Suchindexe der Suchmaschinen Google undBing basiert. Je nachdem, welchen Index man analysiert, erhält man für die Größe des WWWunterschiedliche Zahlen. Diese liegen für den Google-Index aktuell bei circa 46 bis 49 Milliar-den Webseiten und hat sich in den letzten zwei Jahren kaum verändert (Abb. 3). Die genaueMethodik erklärt de Kunder auf seiner Website22.
Die Architektur von Suchmaschinen
Wie Sie gesehen haben, besteht das World Wide Web aktuell aus fast 50 Milliarden Webseiten.Wenn Sie wissen möchten, welche dieser Webseiten Informationen zu einem bestimmtenThema enthalten, müssten Sie sich im Prinzip alle Seiten anschauen und diese beurteilen. Daswürde reichlich lange dauern. Nehmen wir einmal an, Sie wären ein absoluter Schnell-Leserund würden sich jede Sekunde eine neue Webseite anschauen, dann bräuchten Sie genaugenommen 1585 Jahre – natürlich ohne Ihre Zeit mit Essen, Trinken, Schlafen und anderenunnützen Dingen zu vertrödeln ...
Natürlich würde niemand auf die Idee kommen, auf diese Weise relevante Informationen zusuchen. Suchmaschinen haben aber grundsätzlich das gleiche Problem. Sie müssen alle Seitendes World Wide Web analysieren, um Ihnen eine Auswahl von Seiten auf der Suchergebnis-
22. http://www.worldwidewebsize.com
24 2 Aufbau und Funktionsweise von Suchmaschinen
Abb. 3 Eine wissenschaftliche Methodik zur Ermittlung der Größe des World Wide Web hat Maurice de Kunderentwickelt. Quelle: http://www.worldwidewebsize.com
2.3
seite als relevant für Ihre Suchwörter zu präsentieren. Dabei ist es technisch schlicht unmög-lich, diese 50 Milliarden Seiten live zu durchsuchen, wenn ein Benutzer auf der Webseite einerSuchmaschine eine Anfrage absetzt.
Selbst wenn eine Suchmaschine in der Lage wäre, viele Milliarden Webseiten gleichzeitig auf-zurufen: Diese herunterzuladen und zu analysieren würde Zeit kosten und die Geduld desSuchenden arg strapazieren. Ganz abgesehen davon, dass der eine oder andere Webserversicherlich in die Knie ginge, müsste er alle auf ihm gespeicherten Webseiten gleichzeitig aus-liefern.
Suchmaschinen müssen also einen anderen Ansatz verfolgen. Das Grundprinzip besteht darin,die im World Wide Web auf Servern gespeicherten Dokumente zunächst herunterzuladen, zuanalysieren und einen durchsuchbaren Index anzulegen.
Etwas vereinfacht dargestellt, bestehen heutige Suchmaschinen aus vier Systemkomponen-ten:
➤ dem Webcrawler-System
➤ dem Index
➤ dem Scheduler
➤ dem Suchinterface
Das Webcrawler-System
Das Webcrawler-System besteht aus Computerprogrammen, die das World Wide Web auto-matisch durchsuchen und Webseiten herunterladen und analysieren können. Die Webcrawler(auch Spider, Searchbot oder (Suchmaschinen-)Robot genannt) ähneln softwaretechnisch sehrWebbrowsern wie Sie sie kennen, z. B. Firefox, Safari oder Google Chrome. Der Crawler startetauf einer beliebigen Webseite, lädt diese für die weitere Analyse und Verarbeitung in den StoreServer herunter und erstellt eine Liste der auf dieser Webseite vorhandenen Hyperlinks zu
2.3 Das Webcrawler-System 25
2.3.1
2.4
anderen Webseiten. Diese Liste wird an den Scheduler übergeben. Dabei werden u.a. auch dieHTTP-Statuscodes ausgewertet, die die Webserver beim Übertragen der Dokumente an dieWebcrawler mitschicken. Ist z.B. eine URL, die ein Webcrawler aufzurufen versucht, nicht mehrgültig, weil die Datei inzwischen auf dem Server gelöscht wurde, liefert der Server den HTTP-Statuscode 404 File not found zurück. Die URL muss also aus dem Dokumentenindex entferntwerden, und der Scheduler muss keine weiteren Crawler zu dieser Adresse mehr entsenden.
Die Google-Bots
Google z.B. verwendet eine ganze Reihe unterschiedlicher Robots für den Aufbau und dieAktualisierung des Index (vgl. Abb. 4). Die meisten Robots verwenden als HTTP-User-Agent dieBezeichnung Googlebot.
Im Logfile findet sich nach dem Besuch eines Google-Bots z. B. folgender Eintrag:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Man kann die Google-Bots aber auch noch unter einem anderen Aspekt beleuchten: Die sog.Freshbots besuchen neu gefundene Seiten. Diesen Robots ist zu verdanken, dass neue Sei-ten in der Regel sehr schnell im Google-Index erscheinen. Sie kommen außerdem in den fol-genden Tagen wieder, um herauszufinden, wie häufig eine Seite aktualisiert wird. Wird eineSeite aktualisiert, behalten die Freshbots ihre Besuchsfrequenz bei. So wird sichergestellt, dasssich im Google-Index immer möglichst aktuelle Kopien der Webseiten befinden. Die Freshbotsanalysieren vor allem reine Textinhalte und gehen nicht sehr tief in eine Site hinein, sodassin der Regel zuerst die Startseite und die direkten Unterseiten, die mit einem Klick erreich-bar sind, im Index erscheinen. Wird eine Seite nicht regelmäßig aktualisiert, lässt auch dieBesuchsfrequenz der Freshbots nach.
Die sog. Deepbots erfassen dagegen möglichst viele Seiten einer Website und berücksichti-gen ein weit größeres Spektrum an Dateitypen (u. a. Bilder, PDF-Dateien, sogar Word-, Power-point- und Postscript-Dateien, dynamische Seiten mit Parametern). Bis diese Inhalte im Indexerscheinen, dauert es in der Regel Tage bis Wochen.
Der Scheduler
Der Scheduler sammelt und verwaltet die Adressen der Webseiten (URLs) und steuert dieautomatisierte Aussendung von Crawlern zu diesen Adressen. Er bekommt von den Crawlernständig neue URLs gemeldet, die diese in den besuchten Webseiten finden, und gleicht dieseURLs mit den bereits bekannten ab. Da nahezu alle Webseiten direkt oder indirekt miteinanderverlinkt sind, können die Crawler auf diese Weise durch das gesamte World Wide Web wan-dern und die gefundenen Seiten herunterladen.
Es wird dabei jedoch immer auch Seiten geben, die die Crawler nicht finden können, z.B. weiles keinen einzigen Link von anderen Webseiten auf sie gibt, sie also völlig isoliert sind. Oderweil man diese Seiten erst erreicht, wenn man zuvor ein Formular ausfüllt oder sich registriert,was ein Crawler typischerweise nicht tut. Die Seiten, die Suchmaschinen aus solchen Grün-den nicht finden, bezeichnet man übrigens als Deep Web. Manche Experten gehen davon aus,dass das Deep Web nochmals deutlich größer ist als das von Suchmaschinen-Robots durch-suchbare Web.
26 2 Aufbau und Funktionsweise von Suchmaschinen
Abb. 4 Die von Google verwendeten Robots. Quelle: https://support.google.com/webmasters/answer/1061943
2.4 Der Scheduler 27
2.5
Abb. 5 Architektur von Suchmaschinen: Verschiedene Komponenten arbeiten zusammen, um die Funktionalität einerSuchmaschine zu gewährleisten.
Der Index
Die von den Crawlern heruntergeladenen Dokumente werden einer eingehenden Analyseunterzogen und dabei in ihre Bestandteile (Text, Bilder, Videos, HTML-Code) zerlegt. Ziel derAnalyse ist, für jedes Dokument zu ermitteln, für welche Suchbegriffe es wie relevant ist. Dabeiverwenden moderne Suchmaschinen wie Google inzwischen mehr als 200 verschiedene Kri-terien.
Der auf diese Weise aufgebaute Index dient dazu, bei späteren Suchanfragen über das Suchin-terface verwendet zu werden. Um das zu erleichtern, wird ein sog. invertierter Index angelegt.Dabei werden den potenziellen Suchbegriffen bzw. den sogenannten Keywords, die aus denheruntergeladenen Webdokumenten gewonnen werden, jeweils die URLs der Dokumentezugeordnet. Anschließend berechnet die Suchmaschine für jeden der Suchbegriffe die Rele-vanz der einzelnen Dokumente. Ein sehr einfaches Kriterium für Relevanz kann z.B. sein, dassein bestimmter Begriff oder eine Kombination von Begriffen in einem Dokument überhauptvorkommt, wie häufig er vorkommt und an welcher Stelle des HTML-Dokuments, z.B. im Titeloder in einer Überschrift, er steht. Jede Zuordnung hat eine berechnete Relevanz, die darüberentscheidet, auf welcher Position der Suchergebnisliste eine URL gelistet wird.
Gibt ein Nutzer nun einen Suchbegriff in die Suchmaschine ein, so durchsucht diese den zuvoraufgebauten Index, nicht etwa die Dokumente selbst und schon gar nicht die Originaldateienauf den Servern im WWW. Der Index der Suchmaschine ist quasi ein Abbild des WWW undenthält Kopien der Dokumente des World Wide Web zu einem bestimmten Zeitpunkt.
Ein großer Vorteil dieses Prinzips ist Geschwindigkeit. Mit entsprechendem technischen Auf-wand kann der Index sehr schnell durchsucht werden. Bei Google z.B. dauert dieser Suchvor-gang in der Regel weniger als eine ½ Sekunde!
28 2 Aufbau und Funktionsweise von Suchmaschinen