Dr. Thorsten Schneider Das SEO-Praxisbuch 2017 · PDF fileDr. Thorsten Schneider Das...

Dr. Thorsten Schneider

Das SEO-Praxisbuch 2017Ein Webmasters Press Lernbuch

Version 6.1.1 vom 27.4.2017

Autorisiertes Curriculum für das Webmasters Europe Ausbildungs- und Zertifizierungspro-gramm.

www.webmasters-europe.org

//www.webmasters-europe.org

Über den Autor

Dr. Thorsten Schneider ist Webspezialist der ersten Stunde. Nach einem naturwissenschaft-lichen Studium absolvierte er Mitte der 1990er Jahre eine der weltweit ersten Webmaster-Ausbildungen an der kanadischen Dalhousie University, arbeitete anschließend als Internet-experte in einem IT-Systemhaus in Mainz und gründete 1998 die Webmasters Akademie, dieer bis heute als Direktor und Leiter des Fachbereichs Web Business & Online Marketing lei-tet. Er ist außerdem Präsidiumsmitglied des Europäischen Webmasterverbandes WebmastersEurope e.V. (WE) und aktiv an der Entwicklung des internationalen WE-Ausbildungs- und Zer-tifizierungsprogramms beteiligt.

Kontakt zum Autor

https://www.xing.com/profile/Thorsten_Schneider8

[email protected]

© 2017 by Webmasters Presswww.webmasters-press.de

Webmasters Akademie Nürnberg GmbHNeumeyerstr. 22–2690411 NürnbergGermanywww.webmasters-akademie.de

Printed books made with Prince

Art.-Nr. 1225e9a24dc7Version 6.1.1 vom 27.4.2017

Das vorliegende Fachbuch ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Ver-wendung der Texte und Abbildungen, auch auszugsweise, ist ohne schriftliche Genehmi-gung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Ver-vielfältigung, Übersetzung oder Verwendung in elektronischen Systemen sowie für die Ver-wendung in Schulungsveranstaltungen. Die Informationen in diesem Fachbuch wurden mitgrößter Sorgfalt erarbeitet. Trotzdem können Fehler nicht vollständig ausgeschlossen wer-den. Autoren und Herausgeber übernehmen keine juristische Verantwortung oder irgend-eine Haftung für eventuell verbliebene fehlerhafte Angaben und deren Folgen.

http://www.webmasters-press.de

http://www.webmasters-akademie.de

Inhaltsverzeichnis13Vorwort

15Die Macht der Suchmaschinen

15Suchmaschinennutzung

15Marktanteile verschiedener Suchmaschinen

17Die Anfänge der Suchmaschinen

18Google

19Yahoo!

20Bing

20Yandex

21Baidu

21Alternative Suchmaschinen

22Fazit

22Testen Sie Ihr Wissen!

23Aufbau und Funktionsweise von Suchmaschinen

23Wie groß ist eigentlich das World Wide Web?

24Die Architektur von Suchmaschinen

25Das Webcrawler-System

26Die Google-Bots

26Der Scheduler

28Der Index

29Das Suchinterface


33Die Google-Suchergebnisseite

33Bezahlte Anzeigen (Google Adwords und Google Shopping)

34Organische Suchergebnisse

35Woher stammen die Suchtreffer? Google Vertical und Universal Search

39Aufbau eines einzelnen Suchergebnisses

42Die Google Answer Box

43Der Google Knowledge Graph


49Das Ranking

50Wie funktionierte die Relevanzberechnung vor Google?

52Ein revolutionärer Ansatz: Googles PageRank-Verfahren

52Die Hypothese der Google-Gründer

53Ein hilfreiches Modell: Der Zufallssurfer

54Der PageRank-Algorithmus

59Der sog. »Toolbar-PageRank«

61PageRank 10: Der Blick in den Google-Himmel

61Was folgt aus dem PageRank-Algorithmus?

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1.9

1.10

1.11

2

2.1

2.2

2.3

2.3.1

2.4

2.5

2.6

2.7

3

3.1

3.2

3.2.1

3.3

3.4

3.5

3.6

4

4.1

4.2

4.2.1

4.2.2

4.2.3

4.2.4

4.2.5

4.2.6

62Weiterentwicklung des PageRank-Verfahrens

64Der PageRank ist tot —es lebe der PageRank!

66Trust und »TrustRank«

68PageRank- und Trust-Metriken von SEO-Tool-Anbietern

69LRT Power*Trust

70MOZ Domain Authority (DA) und Page Authority (PA)

70Ahrefs Rank (AR) von Ahrefs

70Trust Flow von Majestic SEO

71Page Strength (SPS) von Searchmetrics

71Übersichtstabelle

71Das BadRank-Konzept

72Kampf gegen den Webspam: Panda und Penguin

72Panda: Kampf gegen minderwertigen Content

73Penguin: Kampf gegen den Backlink-Spam

73Hummingbird: Google wird schlau

74RankBrain

77Rankingfaktoren sind nicht mehr statisch

78Die Zukunft der Suche

78Das Google-Ranking im Überblick

79Auf den Punkt gebracht: Was ist denn nun tatsächlich wichtig, um in Googlegut gefunden zu werden?

80Übungen


81Die 60 wichtigsten Google-Rankingsignale

81Quellen

81Informationen von Google

82Untersuchungen von SEO-Experten

84Gliederung/Einteilung der Rankingsignale

84Webpage-Signale

84Content-Qualität

86Keywords

87HTML-Code

87Semantische Auszeichnung mit Mikroformaten

88Layout

88Optimierung für Mobilgeräte

88Ladezeit

89URL (lokaler Pfad)

89Eingehende Links (Backlinks)

91Interne Links

91Website-Signale

91Nützliche und einzigartige Inhalte

92Informationsarchitektur der Website

92Aktualisierungen der Website

92Anzahl der Seiten

92Zunahme der Seiten

92Anbieterinformationen (Impressum, Datenschutzbestimmungen etc.)

93Backlinks

93Domain-Signale

4.2.7

4.2.8

4.3

4.4

4.4.1

4.4.2

4.4.3

4.4.4

4.4.5

4.4.6

4.5

4.6

4.6.1

4.6.2

4.7

4.8

4.9

4.10

4.11

4.12

4.13

4.14

5

5.1

5.1.1

5.1.2

5.2

5.3

5.3.1

5.3.2

5.3.3

5.3.4

5.3.5

5.3.6

5.3.7

5.3.8

5.3.9

5.3.10

5.4

5.4.1

5.4.2

5.4.3

5.4.4

5.4.5

5.4.6

5.4.7

5.5

93Domain-Historie

93Keywords im Domainnamen

93Server-Signale

94Verfügbarkeit

94Performance

94HTTPS

94Nutzer-Signale (User Signals)

95Durchklickrate (Click-Through-Rate)

95SERP-Return-Rate

95Time on Site

95Bounce Rate (Absprungrate)

95Nutzer-Interaktionen mit der Seite

96Markensignale

96Vertrauenswürdige Marke

96Reputation

96Nennungen ohne Link (»Mentions«)

96Suchvolumen für Suche nach der Marke

97Soziale Signale

97Negative Signale

97Minderwertiger Content

97Schädliche Backlinks

98Schädliche ausgehende Links

98Viele gebrochene Links

98Technische Probleme oder Hindernisse

98Verstoß gegen Googles Webmaster-Richtlinien

99Überoptimierung

99Gastbeiträge in Blogs (»Guest Blogging«)

99Negative Bewertungen

99Manuelle Bestrafung durch Google

100Wie geht es weiter?


102SEO-Prozess und SEO-Ziele

102Der Prozess der Suchmaschinenoptimierung

104Startpunkt des SEO-Prozesses

105Ziele der Suchmaschinenoptimierung

105Strategische SEO-Ziele

105Projektziele für SEO-Projekte

109Wirtschaftliche SEO-Ziele

109Messung der Zielerreichung


111Keywords

111Die Bedeutung von Keywords im SEO-Prozess

111Keyword-Kandidaten ermitteln

112Brainstorming

112Kundenbefragungen

112Wettbewerberanalyse

112Der MetaGer-Web-Assoziator

5.5.1

5.5.2

5.6

5.6.1

5.6.2

5.6.3

5.7

5.7.1

5.7.2

5.7.3

5.7.4

5.7.5

5.8

5.8.1

5.8.2

5.8.3

5.8.4

5.9

5.10

5.10.1

5.10.2

5.10.3

5.10.4

5.10.5

5.10.6

5.10.7

5.10.8

5.10.9

5.10.10

5.11

5.12

6

6.1

6.2

6.3

6.3.1

6.3.2

6.3.3

6.4

6.5

7

7.1

7.2

7.2.1

7.2.2

7.2.3

7.2.4

113Der Keyword-Planer von Google

118Alternativen zu Googles Keyword-Planer

118Kostenlose Alternativen

119Kostenpflichtige Alternativen

119Aus Keyword-Kandidaten werden relevante Keywords: der Keyword Effectiven-ess Index (KEI)

124Was das Suchvolumen wirklich bedeutet

126Google Trends

127Ergebnis der Keyword-Analyse


129Seitenoptimierung

129Textoptimierung

129Content-Qualität als Rankingfaktor

130Von der Keyworddichte zur Termgewichtung mit IDF*WDF

136WDF*IDF-Praxis

140Content-Optimierung unter Berücksichtigung von RankBrain

140Umgang mit »Duplicate Content«

141Ursachen von Duplicate Content

141Auswirkungen von Duplicate Content

142Was tun bei Duplicate Content?

143Bilder

144Videos

145PDF-Dateien

146Vermeiden Sie Flash!

147Optimierung des HTML-Codes und des Seitenaufbaus

147Keine Framesets!

147Für Mobilgeräte optimierte Webseiten

151Gültiges HTML

152Mustergültige Struktur

153Keyword-Verteilung

156Einzelne Seiten von der Indexierung ausschließen

156Den Robots sagen, wann sie wiederkommen sollen?

157Above the fold: Nützliche Inhalte sollten direkt sichtbar sein

157Eingebundene Dateien optimieren

157Bilder

158Videos

159CSS-Dateien und Skripte

160Übungen


162Semantische Optimierung mit Mikroformaten

162Was ist das semantische Web?

165Technische Ansätze für das semantische Web

165HTML-Mikrodaten

165Aufbau der HTML-Mikrodaten

167Globale Attribute der HTML-Mikrodaten

169Verknüpfung von Objekten und Eigenschaften

170Den Quellcode prüfen mit Googles Test-Tool für strukturierte Daten

7.2.5

7.3

7.3.1

7.3.2

7.4

7.5

7.6

7.7

7.8

8

8.1

8.1.1

8.1.2

8.1.3

8.1.4

8.2

8.2.1

8.2.2

8.2.3

8.3

8.4

8.5

8.6

8.7

8.7.1

8.7.2

8.7.3

8.7.4

8.7.5

8.7.6

8.7.7

8.7.8

8.8

8.8.1

8.8.2

8.8.3

8.9

8.10

9

9.1

9.2

9.3

9.3.1

9.3.2

9.3.3

9.3.4

170Woher kommen die Werte für die Microdata Properties?

172Semantische Optimierung mit HTML-Mikrodaten

172Lohnt der Aufwand?

172Breadcrumbs

174Personen

175Unternehmen und Organisationen

176Produkte

177Bewertungen und Erfahrungsberichte

179Veranstaltungen

180Video

181Übungen


182Site-Optimierung

182Domainname und URL

184Struktur der Website

186Schnelligkeit und Verfügbarkeit der Website

187Ladezeiten prüfen mit dem Google PageSpeed Analyzer

188Ihre To-dos

188IP-Adresse des Webservers

189HTTPS-Protokoll

191Webanwendungen

193Die Steuerdatei robots.txt


195Backlink-Management

195Wie wichtig sind Backlinks heute noch?

195Was bedeutet Backlink-Management?

196Backlink-Analyse

197Backlink-Checker

202Das »natürliche Linkprofil«

206Linkbuilding-Strategien

206Prinzipielle Erwägungen

207Was Sie nicht tun sollten …

208Was Sie tun sollten: Sieben Linkbuilding-Methoden, die funktionieren

208Selbst Backlinks setzen

209Verzeichnisse

210Vitamin B nutzen

211Wettbewerber-Analyse

212Gastartikel (»Guest Blogging«)

213Verlinkenswerte Inhalte schaffen

215Unorthodoxe Methoden

216Optimierung von Onlineshops

218Die Nachricht verbreiten

219Optimale Linktexte

220Trust steigern durch Authority Links

221Schlechte/schädliche Links entfernen

223Übungen


9.3.5

9.4

9.4.1

9.4.2

9.4.3

9.4.4

9.4.5

9.4.6

9.4.7

9.4.8

9.5

9.6

10

10.1

10.2

10.3

10.3.1

10.3.2

10.4

10.5

10.6

10.7

10.8

11

11.1

11.2

11.3

11.3.1

11.3.2

11.4

11.4.1

11.4.2

11.5

11.5.1

11.5.2

11.5.3

11.5.4

11.5.5

11.5.6

11.5.7

11.6

11.7

11.8

11.9

11.10

11.11

11.12

225Local SEO

225Suchanfragen mit lokalem Bezug

226Lokale Rankingfaktoren

227Adresse

227Eintrag in Google My Business


233Erfolgskontrolle

233Erfolgskontrolle mit Google

233Personalisierungsfunktionen deaktivieren

235Lokalisierungsfunktionen beachten

236Erfolgskontrolle mit Startpage

237Datenverwaltung im Spreadsheeet

238Kommerzielle Keyword-Monitoring-Tools

240Sichtbarkeitsindex

240Übungen


241Der SEO-Check

241Schneller Ranking-Check

241Die Seiten im Google-Index

242Backlinks: PageRank und Trust

246Sichtbarkeitsindex

247Seitenanalyse

249Übungen


251Bleiben Sie up to date!

251Google

252Experten-Blogs

253Konferenzen

254Lösungen der Übungsaufgaben

259Lösungen der Wissensfragen

275Index

12

12.1

12.2

12.2.1

12.2.2

12.3

13

13.1

13.1.1

13.1.2

13.2

13.3

13.4

13.5

13.6

13.7

14

14.1

14.2

14.3

14.4

14.5

14.6

14.7

15

15.1

15.2

15.3

Vorwort

Fast alle Internetnutzer verwenden Suchmaschinen, um im World Wide Web Informationen,Dienstleistungen oder Produkte zu finden. Marktstudien belegen, dass Suchmaschinen injeder Phase des Kaufentscheidungsprozesses benutzt werden.

Das zeigt, wie wichtig es für den Erfolg im Web ist, in Suchmaschinen gut gefunden zu werden.Gerade für ein Unternehmen, das neu und noch unbekannt ist und nicht über das Marketing-budget eines Konzerns verfügt, bietet das Web hervorragende Möglichkeiten, sich von seinerZielgruppe finden zu lassen.

Aber auch für bereits etablierte Unternehmen ist es wichtig, im Web leicht gefunden zu wer-den. Denn die Markenloyalität nimmt stetig ab, und der Wettbewerb ist nur einen Mausklickentfernt. In Suchmaschinen gut gefunden zu werden, ist für viele Unternehmen heute ein kri-tischer Erfolgsfaktor. Das Thema Suchmaschinenmarketing (Search Engine Marketing, SEM) istlängst zur Chefsache geworden.

SEM umfasst zwei Teilbereiche: SEA und SEO. SEA (Search Engine Advertising bzw. Suchma-schinenwerbung) beschäftigt sich mit der Schaltung von Anzeigen und Produktplatzierun-gen auf der Suchergebnisseite. Bei Google stehen Werbetreibenden dafür die Systeme GoogleAdwords und Google Shopping zur Verfügung.

Bei SEO (Search Engine Optimization bzw. Suchmaschinenoptimierung) geht es dagegen aus-schließlich darum, wie sich gute Platzierungen in den sogenannten organischen Suchergeb-nissen erreichen lassen. Diese können nicht gekauft oder ersteigert werden, sondern basie-ren auf der algorithmischen Bewertung von Rankingsignalen mit dem Ziel, für eine bestimmteSuchanfrage die relevantesten Webseiten zu finden.

SEO ist heute groß und wichtig: Praktisch alle im Web erfolgreichen Unternehmen beschäfti-gen sich mit SEO, längst ist eine ganze Branche von Dienstleistern rund um SEO entstanden.Es gibt unzählige Unternehmen und freie Experten, die SEO-Beratung anbieten, und es exis-tieren zahlreiche Bücher und Kongresse zum Thema.

Dabei hat die Komplexität von SEO in den letzten Jahren kontinuierlich zugenommen. Je»schlauer« Google wird, je komplexer die Rankingalgorithmen sind und je mehr KriterienGoogle auswertet, desto komplizierter wird es, Webseiten zu optimieren.

Das macht es nicht unbedingt einfacher, eine Webseite in Google ganz nach oben zu bringen.Aber umso wichtiger ist es, sich eingehend mit dem Thema SEO zu beschäftigen. Sonst über-lassen Sie den Erfolg Ihren Wettbewerbern!

Die gute Nachricht ist jedoch: SEO ist keine Hexerei. Sie müssen nicht unbedingt teure Exper-ten beauftragen, sondern können die Sache selbst in die Hand nehmen oder innerhalb IhresUnternehmens ansiedeln. Sie können mit etwas Aufwand und ohne viel Geld unglaublich vielerreichen. Das werde ich Ihnen beweisen.

Schritt für Schritt lernen Sie, was zu tun ist, um mit den für Sie relevanten Suchbegriffen aufdie erste Ergebnisseite der Google-Suche zu gelangen und zwar möglichst weit oben. Nur sowerden Sie in einem signifikanten Umfang Interessenten abholen und auf Ihre Website leiten.

Und das ist die Basis für den wirtschaftlichen Erfolg im Web. Je mehr Besucher Sie auf IhreWebsite bekommen, desto größer sind auch Ihre Chancen, neue Kunden zu gewinnen undIhre Umsätze zu steigern.

Erreichen können Sie das nur, wenn Sie verstehen, wie Google »denkt«, und wenn Sie wissen,welche Kriterien bzw. »Signale« Google bei der Berechnung des Rankings wie stark berück-sichtigt.

Der große Vorteil von SEO gegenüber vielen anderen Marketingmaßnahmen besteht darin,dass der Effekt nachhaltig ist und nicht so schnell verpufft. Auch wenn Google seine Algorith-men ständig weiterentwickelt und verbessert, halten sich Webseiten, die fundiert und reelloptimiert sind, hartnäckig auf den oberen Rankingplätzen, ohne dass Sie allzu viel nachjustie-ren müssen.

Einschränkend möchte ich anmerken, dass das alleine natürlich nicht reicht. SEO ist kein All-heilmittel gegen wirtschaftlichen Misserfolg. Die Basis für Erfolg sind immer gute Produkteoder Dienstleistungen, die die Bedürfnisse einer Zielgruppe optimal erfüllen. Ein weitererwichtiger Faktor ist Ihre Website selbst. Inhalt und Usability müssen stimmen, sonst flüchtendie Besucher Ihrer Website schneller wieder, als sie gekommen sind. Das sind heute sogarwichtige Rankingkriterien, die Google berücksichtigt!

Nur wenn diese Voraussetzungen erfüllt sind, kann SEO seine ganze Wirkung entfalten, undaus Ihren Besuchern werden tatsächlich auch Kunden.

Natürlich bin ich auf Ihre Meinung sehr gespannt, freue mich über Lob und Tadel, konstruktiveKritik und Verbesserungsvorschläge. Gerne können Sie mich z.B. über XING1 kontaktieren.

In diesem Sinne wünsche ich Ihnen viel Spaß bei der Lektüre und viel Erfolg bei Ihrer SEO-Arbeit! Ich freue mich darauf, den einen oder anderen von Ihnen auch einmal online oder im»Real Life«, z. B. auf einer SEO-Konferenz, kennenzulernen.

Happy SEO!

Ihr

Thorsten Schneider

1. https://www.xing.com/profile/Thorsten_Schneider8



1.1

1.2

1Die Macht der Suchmaschinen

In dieser Lektion lernen Sie

➤ wie Internetnutzer Suchmaschinen nutzen.➤ welche Suchmaschinen sich den Markt wie aufteilen.➤ wie sich die Suchmaschinen entwickelt haben.

Suchmaschinennutzung

Laut einer Marktstudie der Arbeitsgemeinschaft Online Forschung aus dem Jahr 20152 sindSuchmaschinen für 92,9 % der Internetnutzer die wichtigste Anwendung im Internet über-haupt, noch vor privaten E-Mails.

Eine (nicht veröffentlichte) Studie der Marktforscher Fittkau & Maaß hat ergeben, dass Such-maschinen in jeder Phase des Kaufentscheidungsprozesses genutzt werden, nicht nur zuBeginn, sondern oftmals auch noch kurz vor dem tatsächlichen Kauf.

Demnach geht fast ein Drittel der Suchmaschinennutzer davon aus, dass Anbieter, die in denSuchergebnissen immer wieder weit oben auftauchen, führende, bekannte Anbieter sind, undglaubt außerdem, dass ein Anbieter, der bei der Suche nach einem Produkt in der Ergebnis-liste nicht auftaucht, das Produkt gar nicht führt.3

Diese Erkenntnisse der Marktforschung machen mehr als deutlich, wie wichtig es für denErfolg im Web ist, in Suchmaschinen gut gefunden zu werden, egal, um welche Art vonWebauftritt es sich handelt.

Marktanteile verschiedener Suchmaschinen

Google ist im Jahr 2016 mit fast 90 % Marktanteil weltweit mit Abstand die am meistengenutzte Suchmaschine und dominiert den Suchmaschinenmarkt fast schon monopolartig.Andere Suchmaschinen spielen global kaum eine Rolle.

Suchmaschine Globaler Marktanteil (%)

Google 89,38

Bing 4,20

Tabelle 1.1 Globale Marktanteile von Suchmaschinen. Quelle: https://www.statista.com/statistics/216573/worldwide-market-share-of-search-engines/

2. http://www.agof.de/download/Downloads_digital_facts/Downloads_Digital_Facts_2015/Downloads_Digital_Facts_2015_07/07-2015_df_Grafiken_digital_facts_2015-07.pdf?8e20e8

3. Neue Studie zur Nutzung von Suchmaschinen. CPC Consulting. (https://www.cpc-consulting.net/Nutzung-Suchmaschinen)

1.1 Suchmaschinennutzung 15

http://www.agof.de/download/Downloads_digital_facts/Downloads_Digital_Facts_2015/Downloads_Digital_Facts_2015_07/07-2015_df_Grafiken_digital_facts_2015-07.pdf?8e20e8

https://www.statista.com/statistics/216573/worldwide-market-share-of-search-engines/




https://www.cpc-consulting.net/Nutzung-Suchmaschinen

https://www.cpc-consulting.net/Nutzung-Suchmaschinen

Suchmaschine Globaler Marktanteil (%)

Yahoo 3,37

Baidu 0,71

andere 2,34

Tabelle 1.1 Globale Marktanteile von Suchmaschinen. Quelle: https://www.statista.com/statistics/216573/worldwide-market-share-of-search-engines/

Allerdings gibt es regionale Unterschiede, die wichtig sind, wenn Sie auf bestimmten Ziel-märkten aktiv sind. Während Google in Deutschland, den meisten europäischen Ländern, Süd-amerika und Afrika über 90 % Marktanteil hat, dominieren in einigen Ländern wie z.B. Russ-land, Tschechien und Südkorea jeweils lokale Suchmaschinen. Interessanterweise kommt dieSuchmaschine Google in ihrem eigenen Heimatland, den USA, »nur« auf knapp unter 70 %Marktanteil.

Land Google-Marktanteil (%) Größter Google-Konkurrent (%)

Indien 96,6 Yahoo (1,5)

Brasilien 95,3 Bing (2,1)

Niederlande 94,2 Bing (2,5)

Deutschland 93,3 Bing (2,9)

Frankreich 93,0 Bing (2,7) Yahoo (2,7)

Großbritannien 90,5 Bing (4,9)

Estland 79,9 Yandex (11,6)

Tschechien 73,2 Seznam (24,3)

USA 67,4 Bing (19,3) Yahoo (10,0)

Japan 64,8 Yahoo (30,1)

Russland 29,7 Yandex (60,5)

Südkorea 1,9 Naver (77,0) Daum (18,8)

China 0,37 Baidu (56,0) Qihoo (29,0) Sogou (12,8)

Tabelle 1.2 Marktanteile von Google in einigen ausgewählten Ländern. Quelle: https://www.luna-park.de/blog/9907-suchmaschinen-marktanteile-weltweit-2016/

Demnach ist Google nur in wenigen Ländern nicht unangefochtener Marktführer. Dort musssich der Suchmaschinenriese mit lokalen Konkurrenten auseinandersetzen. In den USA undJapan sind traditionell die von Microsoft betriebenen Suchmaschinen Bing und Yahoo (wirdheute von der Bing-Suchmaschine »gepowert«) stark. In Russland dominiert Yandex, währendGoogle in vielen russischsprachigen Ländern Zentralasiens den russischen MarktführerYandex inzwischen mehr und mehr vom Markt verdrängt und schon auf einen Marktanteil von67 % kommt.

16 1 Die Macht der Suchmaschinen



https://www.luna-park.de/blog/9907-suchmaschinen-marktanteile-weltweit-2016/

https://www.luna-park.de/blog/9907-suchmaschinen-marktanteile-weltweit-2016/

1.3

Eine spezielle Situation ergibt sich in China: Aufgrund der strengen Zensur werden Google-Dienste weitgehend blockiert. Neben der dort marktführenden Suchmaschine Baidu habenmit Qihoo 360 und Sogou noch zwei weitere lokale Suchmaschinen Marktanteile von über10 %.

Die Anfänge der Suchmaschinen

Bereits seit den Anfängen des WWW gab es Bestrebungen, Webseiten mit relevanten Infor-mationen auffindbar zu machen. Einer der ersten Ansätze waren von Hand gepflegte Listenvon Webservern, die mit dem Internet verbunden waren. Der Erfinder des WWW, Tim Berners-Lee, pflegte in den ersten Jahren eigenhändig eine solche Liste und veröffentlichte sie auf demWebserver des Forschungsinstituts CERN4, an dem er tätig war.

Andere Webkataloge ordneten die Websites in Kategorien und Unterkategorien ein und kon-struierten so ein hierarchisches Verzeichnis, das sich durchblättern oder durchsuchen ließ. Die-sen Ansatz verfolgten u.a. das bekannte Yahoo-Verzeichnis und später das von der Firma Net-scape ins Leben gerufene Open Directory Project (ODP).

Als sich das enorme Wachstum des WWW abzeichnete, wurde klar, dass von Hand gepflegteListen nicht geeignet waren, alle Websites zu erfassen und die Einträge aktuell zu halten. DieLösung konnte nur darin bestehen, eine Software zu programmieren, die das WWW perma-nent nach neuen Webseiten durchsucht und einen Index der gefundenen Seiten automatischerstellt.

Die erste Suchmaschine wurde 1993 entwickelt und hatte den Namen JumpStation. Siebenutzte bereits einen Webrobot, eine Software, die Webseiten im WWW finden und automa-tisch einen Index dieser Seiten erstellen konnte. Aufgrund der limitierten Hardware-Ressour-cen, die dieser Suchmaschine zur Verfügung standen, extrahierte JumpStation nur die Titelund Überschriften aus den gefundenen Webseiten und speicherte diese in ihrem Index ab. EinJahr später erschien mit WebCrawler jedoch eine Suchmaschine, die den gesamten Text einerWebseite herunterlud und für den Aufbau ihres Suchindex verwendete. Bei WebCrawler konn-ten die Suchenden daher nach beliebigen Begriffen und Begriffskombinationen suchen underhielten als Ergebnis eine Liste von Webseiten, auf denen diese Begriffe irgendwo im Text vor-kamen. Das Prinzip der Volltextindexierung ist auch heute noch der Standard bei allen aktuel-len Suchmaschinen.

Schon zu dieser Zeit war klar, dass Suchmaschinen im WWW zukünftig eine entscheidendeRolle spielen würden. Entsprechend groß war das Interesse von Visionären dieser Zeit, eigeneSuchmaschinen zu entwickeln. Bis Mitte der 1990er Jahre entstanden u.a. die SuchmaschinenLycos, Altavista, Excite, Infoseek, Northern Light und Inktomi, die später von Yahoo aufgekauftwurde.

Der Wettbewerb zwischen verschiedenen Suchmaschinenbetreibern wurde in den kommen-den Jahren so groß, dass der Webbrowser-Hersteller Netscape 1996 von fünf Suchmaschinenjeweils 5 Millionen Dollar pro Jahr nur dafür kassieren konnte, dass er in seiner Browser-Soft-ware auf jede dieser fünf Suchmaschinen in Rotation verlinkte!

Schauen wir uns die wichtigsten der heute relevanten Suchmaschinen etwas näher an:

4. CERN ist die Europäische Organisation für Kernforschung, eine Forschungseinrichtung im Kanton Genf in derSchweiz

1.3 Die Anfänge der Suchmaschinen 17

1.4 Google

Die Google-Story begann Mitte der 1990er Jahre, als zwei Doktoranden der Stanford Univer-sity, Sergey Brin und Larry Page, sich im Rahmen eines Forschungsprojekts Gedanken darübermachten, wie man eine bessere Web-Suchmaschine konstruieren könnte. Damalige Suchma-schinen wie z. B. Altavista hatten nämlich das Problem, dass die Qualität der Suchergebnisseimmer weiter abnahm. Das lag daran, dass es Websitebetreibern zunehmend gelang, durchdie Anwendung verschiedener Tricks ihre Seiten in den Suchergebnissen auf die oberen Plätzezu bringen, auch wenn diese für die von den Suchenden eingegebenen Suchbegriffe gar nichtwirklich relevant waren.

Die beiden Google-Gründer Larry Page und Sergey Brin glaubten, für das Problem eineLösung gefunden zu haben. Sie stellten die Hypothese auf, dass eine Suchmaschine, diebei der Relevanzberechnung die Verlinkung der Webseiten im WWW berücksichtigt, bessereResultate liefert als herkömmliche Suchmaschinen, die das nicht taten.

Der von ihnen entwickelte Algorithmus, das sog. PageRank-Verfahren, analysiert die gesamteVerlinkungsstruktur des World Wide Web und ermittelt für jede Webseite einen Wert, densog. PageRank, der auch heute noch ein wichtiger Rankingfaktor ist. Mithilfe dieses Algorith-mus gelang es Google tatsächlich, deutlich bessere Suchergebnisse zu generieren als die Kon-kurrenz. Das war sicherlich ein wesentlicher Grund für den großen Erfolg des UnternehmensGoogle. Das PageRank-Verfahren erläutere ich im Detail in Lektion 4.

Im September 1998 gründeten Page und Brin das Unternehmen Google Inc. Als Unternehmenist Google überaus erfolgreich. Google war bereits im dritten Jahr seiner Unternehmensge-schichte profitabel, und seitdem haben sich Umsatz und Gewinn prächtig entwickelt (Abb. 1).

Im Jahr 2015 machte Google unglaubliche 74,5 Milliarden Dollar Umsatz und 23,4 MilliardenDollar Gewinn.5

Im August 2015 kündigte Google-Chef Larry Page an, den Konzern umzustrukturieren. DieSuchmaschine wurde von den anderen Geschäftsbereichen (u.a. Youtube, der Gesundheits-firma Calico und den Investmentbereichen Google Ventures und Google Capital) getrennt.Alle Geschäftsbereiche sind seitdem unter dem Dach der neu gegründeten Holding AlphabetInc. zusammengefasst.

Anfang Februar 2016 verdrängte der Google-Mutterkonzern Alphabet mit einem Börsenwertvon 570 Milliarden Dollar den iPhone-Hersteller Apple von Platz 1 der Liste der wertvollstenbörsennotierten Unternehmen der Welt.6

Heute ist Alphabet ein multinationaler Konzern, der weltweit mehr als 66.000 Angestelltebeschäftigt.7

Die Suchmaschine Google selbst besteht aus einem Cluster aus mehreren Hunderttausend(!) Servern, die in mehr als 60 Rechenzentren über den gesamten Globus verteilt sind. Dabeisetzt Google auf billige PC-Hardware und Linux als Betriebssystem. Diese Architektur garan-tiert eine größtmögliche Ausfallsicherheit (der Ausfall einzelner Server ist völlig unkritisch)

5. Quelle: https://abc.xyz/investor/index.html

6. Quelle: Alphabet ist wertvollstes Unternehmen der Welt (http://www.zeit.de/wirtschaft/unternehmen/2016-02/google-alphabet-quartalszahlen-rekord)

7. Quelle: https://en.wikipedia.org/wiki/Alphabet_Inc.


https://abc.xyz/investor/index.html

http://www.zeit.de/wirtschaft/unternehmen/2016-02/google-alphabet-quartalszahlen-rekord

http://www.zeit.de/wirtschaft/unternehmen/2016-02/google-alphabet-quartalszahlen-rekord

https://en.wikipedia.org/wiki/Alphabet_Inc.

Abb. 1 Geschäftszahlen von Google Inc. bzw. seit 2015 Alphabet Inc. in den Jahren 2001 bis2015 (Quelle: https://abc.xyz/investor/index.html)

1.5

und sehr kurze Reaktionszeiten, da die Anfragen immer an ein Rechenzentrum in geografi-scher Nähe weitergeleitet werden.

Es wird geschätzt, dass Google insgesamt rund eine Million Server betreibt, um seine verschie-denen Webdienste am Laufen zu halten.8 Durch den Kauf anderer Internetfirmen und durchEigenentwicklungen bietet Google heute außer der Suchmaschine noch eine Vielzahl weite-rer Webdienste an, darunter den E-Mail-Dienst Gmail, das Online-Office-Paket Google Docs,das Videoportal Youtube, das Blogportal Blogger, die Foto-Community Google Photos (ehemalsPicasa) und das soziale Netzwerk Google+.

Googles Kern und mit Abstand größte Einnahmequelle ist jedoch auch heute noch die Such-maschine bzw. das damit verbundene Werbenetzwerk Adwords, über das der Internetgigantimmer noch über 90% seiner Einnahmen generiert.

Diese Fakten belegen eindrucksvoll, über welche finanziellen und personellen Ressourcen unddamit Marktmacht Google verfügt, und wie schwer es Wettbewerber haben dürften, Googlediese Marktposition streitig zu machen.

Yahoo!

Die Wurzeln des Unternehmens Yahoo reichen bis ins Jahr 1994 zurück, als die beiden Stu-denten Jerry Yang und David Filo eine Website namens »David and Jerry's Guide to the WorldWide Web« online stellten. Diese Site beinhaltete einen hierarchisch aufgebauten Katalog vonWebsites, den die beiden händisch pflegten und erweiterten. Schon nach wenigen Monatenwurde das Verzeichnis in Yahoo! umbenannt. Das Unternehmen entwickelte sich zu einemPortal weiter, das über Werbeeinnahmen Geld verdienen konnte, und baute seinen Webkata-log immer weiter aus. Als ein von Menschen redaktionell gepflegtes Verzeichnis, in das neueWebsites nur nach Prüfung ihres Nutzwerts aufgenommen wurden, bildete Yahoo praktisch

8. Quelle: Google: One Million Servers And Counting (http://www.pandia.com/articles/gartner)

1.5 Yahoo! 19

https://abc.xyz/investor/index.html

http://www.pandia.com/articles/gartner

1.6

1.7

das Gegenmodell zum Ansatz der Suchmaschinen, die bestrebt waren, über automatisierteVerfahren alle öffentlich zugänglichen Webseiten des WWW auffindbar zu machen.

Allerdings musste auch Yahoo einsehen, dass ein redaktionell geführtes Webverzeichnis mitdem starken Wachstum des WWW nicht mithalten kann. Ab dem Jahr 2000 bot Yahoo aucheine Websuche an und war dafür Lizenznehmer von Google. Durch den Erwerb der Suchma-schine Inktomi holte sich Yahoo eine eigene Suchtechnologie ins Haus. Der Vertrag mit Googlewurde 2004 gekündigt, und Yahoo trat in direkte Konkurrenz zu Google und Microsofts Bing-Suchmaschine.

Nachdem Microsoft im Jahr 2008 erfolglos versuchte hatte, Yahoo zu übernehmen, einigtensich die beiden Unternehmen überraschenderweise 2009 auf eine Kooperation: Die Yahoo-Suchtechnologie ist 2013 komplett durch Microsoft Bing ersetzt worden. Alle Suchanfragenan die Yahoo-Websites werden heute von Bing beantwortet.

Bing

Bing9 heißt die aktuelle Suchmaschine von Microsoft, der dritte Versuch des IT-Giganten ausRedmond, im Suchmaschinenmarkt Fuß zu fassen. Die erste Microsoft-Suchmaschine nanntesich MSN Search und erschien 1998, im Gründungsjahr von Google. MSN Search verfügtebereits über einen eigenen Suchindex und ein Webcrawler-System, griff jedoch teil- bzw. zeit-weise auch auf Suchergebnisse anderer Suchmaschinen (Inktomi, Looksmart, Altavista) zu. Inden folgenden Jahren entwickelte Microsoft dann aber eine eigene Suchtechnologie, die 2006unter dem Namen Windows Live Search (ab 2007 nur noch Live Search genannt) unter derDomain live.com veröffentlicht wurde. Im Juni 2009 schließlich erfolgte die Umbenennung indie neue Marke Bing.

Nach der überraschenden Vereinbarung mit Yahoo im Jahr 2009 gelang Microsoft im Sommer2011 ein weiterer spektakulärer Deal: Der chinesische Suchmaschinenbetreiber Baidu kün-digte an, dass Suchanfragen an Baidu mit englischen Begriffen zukünftig an Bing weitergelei-tet werden.

Microsoft hat jüngst in den USA offenbar Marktanteile dazugewinnen können. Eine Studiesieht Bing und Yahoo zusammen aktuell bei über 30 %.10

Yandex

Yandex (russisch Яндекс) ist die in Russland am meisten verwendete Suchmaschine mit einenMarktanteil von über 60 %. Das russisch-niederländische Unternehmen hat seinen Hauptsitzin Amsterdam und eine Zentrale in Moskau. Neben der Suchmaschine bietet Yandex ähnlichwie Google auch verschiedene Internetdienstleistungen und Produkte an wie u.a. einen eige-nen Webbrowser, eine Landkarten-Anwendung, Webmail, Clouddienste, Online-Übersetzun-gen und Internetwerbung. Nach Google, Baidu, Bing und Yahoo ist Yandex die fünftgrößteSuchmaschine der Welt, die außer in Russland auch in einigen anderen Ländern Osteuropaseinen signifikanten Marktanteil hat. Yandex hat eine Kooperation mit Microsoft und ist

9. http://www.bing.com

10. Bing slowly eating away at Google Search with new market share gain (http://news.thewindowsclub.com/bing-slowly-eating-away-google-search-new-market-share-gain-81397/)


http://www.bing.com

http://www.bing.com

http://news.thewindowsclub.com/bing-slowly-eating-away-google-search-new-market-share-gain-81397/

http://news.thewindowsclub.com/bing-slowly-eating-away-google-search-new-market-share-gain-81397/

1.8

1.9

dadurch die voreingestellte Suchmaschine in Windows 10 für den russischen Markt, in derUkraine und in einigen anderen Ländern, u.a. der Türkei.11

Seit Mai 2010 ist die Suchmaschine auch in einer englischen Version12 global verfügbar. EinigeBrancheninsider trauen Yandex zu, zu einem ernsthaften Google-Konkurrenten heranzuwach-sen.

Yandex ist definitiv wichtig, wenn Sie in russischsprachigen Ländern gefunden werden wollen.

Baidu

Baidu ist die marktführende Suchmaschine in China. Ihr Marktanteil liegt bei knapp 60 %. Daschinesische Unternehmen arbeitet eng mit den chinesischen Behörden zusammen und blo-ckiert Inhalte, die von der chinesischen Regierung zensiert werden. Baidu ist an der Börsenotiert und verdient sein Geld mit Onlinewerbung. Neben der textbasierten Suchmaschinebietet Baidu auch eine Büchersuche und eine Suche nach MP3-Audiodateien an. Durch eineKooperation mit Microsoft werden Suchanfragen an Baidu mit englischen Begriffen seit Ende2015 an Bing weitergeleitet. Im Gegenzug ist Baidu.com13 in Microsoft Windows 10 für denchinesischen Markt die voreingestellte Suchmaschine. Google dagegen hat sich nach einemStreit mit den chinesischen Behörden über deren Forderung nach Zensur bestimmter Inhaltevom chinesischen Markt weitgehend zurückgezogen.

Alternative Suchmaschinen

Außer in einigen wenigen Ländern ist Google mit Abstand der unangefochtene Marktführer.Zwar gab und gibt es immer wieder Versuche, mit Neuentwicklungen und neuen Technolo-gien die Marktmacht des Suchmaschinengiganten zu brechen, doch bisher war kein Versuchvon dauerhaftem Erfolg gekrönt. Zu diesen gescheiterten Projekten gehören u.a. Cuil, Viewzi,Wikia Search, SearchMe und Blekko. Darüber hinaus gibt es zahlreiche zwar noch aktive, aberwenig erfolgreiche Projekte wie z.B. Wolfram Alpha (leitet seine Suchergebnisse inzwischenan Bing weiter), Excite (fristet ein Nischendasein), Altavista (gehört heute Yahoo) und Exalead(erfolgloser europäischer Google-Kontrahent).

Nach dem Bekanntwerden des Überwachungsprogramms PRISM und durch zunehmende Kri-tik an Google als »Datenkrake« konnten in jüngster Zeit einige neuere Suchmaschinen Markt-anteile gewinnen, die damit werben, keine persönlichen Informationen zu sammeln. Dazugehören die Suchmaschinen DuckDuckGo14, Ixquick15 und Startpage16. Während es sich beiIxquick und Startpage um Meta-Suchmaschinen handelt, die andere Suchmaschinen, darun-ter auch Google, anonymisiert abfragen, verfügt DuckDuckGo über einen eigenen Webcraw-ler, den DuckDuckBot.

11. Yandex Continues Its Momentum as Market Share Rises (http://www.fool.com/investing/general/2016/04/29/yandex-continues-its-momentum-as-market-share-rise.aspx)

12. https://www.yandex.com/

13. http://Baidu.com

14. https://https://duckduckgo.com//

15. https://www.ixquick.com/

16. https://www.startpage.com/

1.8 Baidu 21

https://www.yandex.com/

http://Baidu.com

https://https://duckduckgo.com//

https://www.ixquick.com/

https://www.startpage.com/

http://www.fool.com/investing/general/2016/04/29/yandex-continues-its-momentum-as-market-share-rise.aspx

http://www.fool.com/investing/general/2016/04/29/yandex-continues-its-momentum-as-market-share-rise.aspx

https://www.yandex.com/

http://Baidu.com

https://https://duckduckgo.com//

https://www.ixquick.com/

https://www.startpage.com/

1.10

1.11

Fazit

Google dominiert den globalen Suchmaschinenmarkt. Nur in wenigen Ländern spielenandere Suchmaschinen eine Rolle. Ich behandle daher in diesem Buch ausschließlich die Opti-mierung für Google unter Berücksichtigung der Funktionsweise und der Rankingfaktoren vonGoogle. Über die genaue Funktionsweise und die Rankingfaktoren von Yandex, Baidu, Naver,Seznam und anderen Suchmaschinen kann ich nichts sagen. Wenn das für Sie wichtig ist, dannmüssen Sie sich damit gesondert auseinandersetzen. Die Microsoft-Suchmaschine Bing unddamit auch die Yahoo-Suche scheinen dagegen technisch den Google-Algorithmen sehr ähn-lich zu sein, sodass Webseiten, die für Google optimiert wurden, in der Regel auch in Bing undYahoo gut ranken.

Testen Sie Ihr Wissen!

1. Warum ist es für den Erfolg einer Website so wichtig, in Suchmaschinen gut gefunden zuwerden?

2. In welchen Ländern der Erde ist Google nicht Marktführer?

3. Wie heißen die marktführenden Suchmaschinen in diesen Ländern?

4. Nennen Sie einen wichtigen Grund für den großen Erfolg der Suchmaschine Google!

5. Woher bezieht die Suchmaschine Yahoo seit 2013 ihre Ergebnisse?

6. Nennen Sie drei Suchmaschinen, die damit werben, keine persönlichen Informationen desSuchenden zu speichern.

7. Wie unterscheidet sich DuckDuckGo von Startpage und Ixquick?


2.1

2Aufbau und Funktionsweise vonSuchmaschinen

In dieser Lektion lernen Sie

➤ wie groß das World Wide Web ist und wie viele Menschen es nutzen.➤ wie Suchmaschinen aufgebaut sind.➤ wie Suchmaschinen funktionieren.

Wie groß ist eigentlich das World Wide Web?

Seit der Erfindung des World Wide Web (WWW) durch Tim Berners-Lee im Jahre 1990 hat sichdas Internet in vielen Ländern zu einem Massenmedium entwickelt. Aktuell (d.h. im Jahr 2016)nutzen weltweit mehr als 3,6 Milliarden Menschen das Internet,17 und das Internet besteht ausmehr als einer Milliarde Hosts.18, 19

Eine interessante Frage ist, aus wie vielen einzelnen (unterschiedlichen und indexierbaren)Webseiten20 das WWW besteht. Ein Websitebetreiber konkurriert letztlich mit all diesen Seitenum die Auffindbarkeit im Web, und je mehr Seiten es zu einem Thema bzw. Keyword gibt,desto schwieriger wird es prinzipiell, gut gefunden zu werden.

Da es unmöglich ist, die einzelnen Seiten direkt zu zählen, gibt es dazu nur Schätzungen. Dieseberuhen größtenteils auf der Auswertung der Größe des Suchindex der großen Suchmaschi-nen. Wenn man davon ausgeht, dass eine Suchmaschine wie Google bemüht und grundsätz-lich in der Lage ist, alle im WWW erreichbaren und zugänglichen Seiten zu indexieren, ent-spräche die Größe des Index ziemlich genau der Summe aller Seiten im WWW.

Leider verrät Google dies schon seit einigen Jahren nicht mehr. Bis September 2005 blendeteGoogle die Zahl der Dokumente im Index auf der Startseite des Suchinterfaces ein (vgl.Abb. 2), dann verschwand diese Zahl. Der damalige CEO von Google, Eric Schmidt, begründetedies damit, dass keine einheitliche Zählweise existiere. Google-Konkurrent Yahoo warb zu die-sem Zeitpunkt nämlich mit einer größeren Zahl auf seiner eigenen Startseite, wofür Googledie höhere Zahl an nicht bereinigten Dubletten verantwortlich machte. Viele Seiten im WWWlassen sich unter unterschiedlichen URLs21 aufrufen, obwohl sie inhaltlich identisch sind. Eine

17. Quelle: http://www.internetworldstats.com/stats.htm

18. Ein Host bezeichnet in diesem Zusammenhang (etwas vereinfacht ausgedrückt) einen Server, der über eine IP-Adresse und einen dieser IP-Adresse zugeordneten Namen im Internet erreichbar ist, z.B. www.google.comoder www.w3.org

19. Quelle: https://www.isc.org/network/survey/

20. Begriffserläuterung: Eine Website besteht aus einer Vielzahl einzelner Webseiten, die jeweils mit einer weltweiteindeutigen Adresse, URL genannt, aufgerufen werden können.

21. URL = Uniform Resource Locator, eindeutige Adresse eines Dokuments im WWW wie z. B.http://de.webmasters-europe.org/zertifizierung

2.1 Wie groß ist eigentlich das World Wide Web? 23

http://www.internetworldstats.com/stats.htm

https://www.isc.org/network/survey/

Abb. 2 Startseite von Google im September 2005. Quelle: http://web.archive.org/web/20050901125225/http://www.google.com/

2.2

Dublettenbereinigung ist also sinnvoll, wenn man die tatsächliche Zahl unterschiedlicherWebseiten ermitteln möchte. Offenbar lösten Google und Yahoo ihren Streit um den größtenIndex damit, dass sie übereinkamen, öffentlich keine Angaben mehr zur Größe ihres Index zumachen.

Heute kennt also niemand, außer vielleicht Google, die Größe des WWW genau. Es gibt aberwissenschaftliche Ansätze zur Abschätzung der Größe des WWW. Der Niederländer Mauricede Kunder hat im Rahmen seiner Master-Abschlussarbeit an der Tilburg University eineMethode entwickelt, die auf der Analyse der Suchindexe der Suchmaschinen Google undBing basiert. Je nachdem, welchen Index man analysiert, erhält man für die Größe des WWWunterschiedliche Zahlen. Diese liegen für den Google-Index aktuell bei circa 46 bis 49 Milliar-den Webseiten und hat sich in den letzten zwei Jahren kaum verändert (Abb. 3). Die genaueMethodik erklärt de Kunder auf seiner Website22.

Die Architektur von Suchmaschinen

Wie Sie gesehen haben, besteht das World Wide Web aktuell aus fast 50 Milliarden Webseiten.Wenn Sie wissen möchten, welche dieser Webseiten Informationen zu einem bestimmtenThema enthalten, müssten Sie sich im Prinzip alle Seiten anschauen und diese beurteilen. Daswürde reichlich lange dauern. Nehmen wir einmal an, Sie wären ein absoluter Schnell-Leserund würden sich jede Sekunde eine neue Webseite anschauen, dann bräuchten Sie genaugenommen 1585 Jahre – natürlich ohne Ihre Zeit mit Essen, Trinken, Schlafen und anderenunnützen Dingen zu vertrödeln ...

Natürlich würde niemand auf die Idee kommen, auf diese Weise relevante Informationen zusuchen. Suchmaschinen haben aber grundsätzlich das gleiche Problem. Sie müssen alle Seitendes World Wide Web analysieren, um Ihnen eine Auswahl von Seiten auf der Suchergebnis-

22. http://www.worldwidewebsize.com

24 2 Aufbau und Funktionsweise von Suchmaschinen

http://www.worldwidewebsize.com

http://web.archive.org/web/20050901125225/http://www.google.com/

http://web.archive.org/web/20050901125225/http://www.google.com/


Abb. 3 Eine wissenschaftliche Methodik zur Ermittlung der Größe des World Wide Web hat Maurice de Kunderentwickelt. Quelle: http://www.worldwidewebsize.com

2.3

seite als relevant für Ihre Suchwörter zu präsentieren. Dabei ist es technisch schlicht unmög-lich, diese 50 Milliarden Seiten live zu durchsuchen, wenn ein Benutzer auf der Webseite einerSuchmaschine eine Anfrage absetzt.

Selbst wenn eine Suchmaschine in der Lage wäre, viele Milliarden Webseiten gleichzeitig auf-zurufen: Diese herunterzuladen und zu analysieren würde Zeit kosten und die Geduld desSuchenden arg strapazieren. Ganz abgesehen davon, dass der eine oder andere Webserversicherlich in die Knie ginge, müsste er alle auf ihm gespeicherten Webseiten gleichzeitig aus-liefern.

Suchmaschinen müssen also einen anderen Ansatz verfolgen. Das Grundprinzip besteht darin,die im World Wide Web auf Servern gespeicherten Dokumente zunächst herunterzuladen, zuanalysieren und einen durchsuchbaren Index anzulegen.

Etwas vereinfacht dargestellt, bestehen heutige Suchmaschinen aus vier Systemkomponen-ten:

➤ dem Webcrawler-System

➤ dem Index

➤ dem Scheduler

➤ dem Suchinterface

Das Webcrawler-System

Das Webcrawler-System besteht aus Computerprogrammen, die das World Wide Web auto-matisch durchsuchen und Webseiten herunterladen und analysieren können. Die Webcrawler(auch Spider, Searchbot oder (Suchmaschinen-)Robot genannt) ähneln softwaretechnisch sehrWebbrowsern wie Sie sie kennen, z. B. Firefox, Safari oder Google Chrome. Der Crawler startetauf einer beliebigen Webseite, lädt diese für die weitere Analyse und Verarbeitung in den StoreServer herunter und erstellt eine Liste der auf dieser Webseite vorhandenen Hyperlinks zu

2.3 Das Webcrawler-System 25


2.3.1

2.4

anderen Webseiten. Diese Liste wird an den Scheduler übergeben. Dabei werden u.a. auch dieHTTP-Statuscodes ausgewertet, die die Webserver beim Übertragen der Dokumente an dieWebcrawler mitschicken. Ist z.B. eine URL, die ein Webcrawler aufzurufen versucht, nicht mehrgültig, weil die Datei inzwischen auf dem Server gelöscht wurde, liefert der Server den HTTP-Statuscode 404 File not found zurück. Die URL muss also aus dem Dokumentenindex entferntwerden, und der Scheduler muss keine weiteren Crawler zu dieser Adresse mehr entsenden.

Die Google-Bots

Google z.B. verwendet eine ganze Reihe unterschiedlicher Robots für den Aufbau und dieAktualisierung des Index (vgl. Abb. 4). Die meisten Robots verwenden als HTTP-User-Agent dieBezeichnung Googlebot.

Im Logfile findet sich nach dem Besuch eines Google-Bots z. B. folgender Eintrag:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Man kann die Google-Bots aber auch noch unter einem anderen Aspekt beleuchten: Die sog.Freshbots besuchen neu gefundene Seiten. Diesen Robots ist zu verdanken, dass neue Sei-ten in der Regel sehr schnell im Google-Index erscheinen. Sie kommen außerdem in den fol-genden Tagen wieder, um herauszufinden, wie häufig eine Seite aktualisiert wird. Wird eineSeite aktualisiert, behalten die Freshbots ihre Besuchsfrequenz bei. So wird sichergestellt, dasssich im Google-Index immer möglichst aktuelle Kopien der Webseiten befinden. Die Freshbotsanalysieren vor allem reine Textinhalte und gehen nicht sehr tief in eine Site hinein, sodassin der Regel zuerst die Startseite und die direkten Unterseiten, die mit einem Klick erreich-bar sind, im Index erscheinen. Wird eine Seite nicht regelmäßig aktualisiert, lässt auch dieBesuchsfrequenz der Freshbots nach.

Die sog. Deepbots erfassen dagegen möglichst viele Seiten einer Website und berücksichti-gen ein weit größeres Spektrum an Dateitypen (u. a. Bilder, PDF-Dateien, sogar Word-, Power-point- und Postscript-Dateien, dynamische Seiten mit Parametern). Bis diese Inhalte im Indexerscheinen, dauert es in der Regel Tage bis Wochen.

Der Scheduler

Der Scheduler sammelt und verwaltet die Adressen der Webseiten (URLs) und steuert dieautomatisierte Aussendung von Crawlern zu diesen Adressen. Er bekommt von den Crawlernständig neue URLs gemeldet, die diese in den besuchten Webseiten finden, und gleicht dieseURLs mit den bereits bekannten ab. Da nahezu alle Webseiten direkt oder indirekt miteinanderverlinkt sind, können die Crawler auf diese Weise durch das gesamte World Wide Web wan-dern und die gefundenen Seiten herunterladen.

Es wird dabei jedoch immer auch Seiten geben, die die Crawler nicht finden können, z.B. weiles keinen einzigen Link von anderen Webseiten auf sie gibt, sie also völlig isoliert sind. Oderweil man diese Seiten erst erreicht, wenn man zuvor ein Formular ausfüllt oder sich registriert,was ein Crawler typischerweise nicht tut. Die Seiten, die Suchmaschinen aus solchen Grün-den nicht finden, bezeichnet man übrigens als Deep Web. Manche Experten gehen davon aus,dass das Deep Web nochmals deutlich größer ist als das von Suchmaschinen-Robots durch-suchbare Web.


Abb. 4 Die von Google verwendeten Robots. Quelle: https://support.google.com/webmasters/answer/1061943

2.4 Der Scheduler 27

https://support.google.com/webmasters/answer/1061943

https://support.google.com/webmasters/answer/1061943

2.5

Abb. 5 Architektur von Suchmaschinen: Verschiedene Komponenten arbeiten zusammen, um die Funktionalität einerSuchmaschine zu gewährleisten.

Der Index

Die von den Crawlern heruntergeladenen Dokumente werden einer eingehenden Analyseunterzogen und dabei in ihre Bestandteile (Text, Bilder, Videos, HTML-Code) zerlegt. Ziel derAnalyse ist, für jedes Dokument zu ermitteln, für welche Suchbegriffe es wie relevant ist. Dabeiverwenden moderne Suchmaschinen wie Google inzwischen mehr als 200 verschiedene Kri-terien.

Der auf diese Weise aufgebaute Index dient dazu, bei späteren Suchanfragen über das Suchin-terface verwendet zu werden. Um das zu erleichtern, wird ein sog. invertierter Index angelegt.Dabei werden den potenziellen Suchbegriffen bzw. den sogenannten Keywords, die aus denheruntergeladenen Webdokumenten gewonnen werden, jeweils die URLs der Dokumentezugeordnet. Anschließend berechnet die Suchmaschine für jeden der Suchbegriffe die Rele-vanz der einzelnen Dokumente. Ein sehr einfaches Kriterium für Relevanz kann z.B. sein, dassein bestimmter Begriff oder eine Kombination von Begriffen in einem Dokument überhauptvorkommt, wie häufig er vorkommt und an welcher Stelle des HTML-Dokuments, z.B. im Titeloder in einer Überschrift, er steht. Jede Zuordnung hat eine berechnete Relevanz, die darüberentscheidet, auf welcher Position der Suchergebnisliste eine URL gelistet wird.

Gibt ein Nutzer nun einen Suchbegriff in die Suchmaschine ein, so durchsucht diese den zuvoraufgebauten Index, nicht etwa die Dokumente selbst und schon gar nicht die Originaldateienauf den Servern im WWW. Der Index der Suchmaschine ist quasi ein Abbild des WWW undenthält Kopien der Dokumente des World Wide Web zu einem bestimmten Zeitpunkt.

Ein großer Vorteil dieses Prinzips ist Geschwindigkeit. Mit entsprechendem technischen Auf-wand kann der Index sehr schnell durchsucht werden. Bei Google z.B. dauert dieser Suchvor-gang in der Regel weniger als eine ½ Sekunde!


Dr. Thorsten Schneider Das SEO-Praxisbuch 2017 · PDF fileDr. Thorsten Schneider Das...

Documents

Transcript of Dr. Thorsten Schneider Das SEO-Praxisbuch 2017 · PDF fileDr. Thorsten Schneider Das...