Googlebot

Aus Online Marketing Wiki
Wechseln zu: Navigation, Suche


Bei dem Googlebot handelt es sich um den Webcrawler der Google-Suchmaschine. Als Crawler werden Computerprogramme bezeichnet, die das World Wide Web nach unterschiedlichen Informationen durchsuchen. Dazu gehören das Sammeln von E-Mailadressen und Newsfeeds sowie die Analyse von Webseiten.

Aufgabe eines Webcrawlers

Üblicherweise werden Crawler von Suchmaschinen, wie beispielsweise Google, eingesetzt, um neue oder aktualisierte Seiten zu ermitteln. Die ermittelten Informationen werden dann dem entsprechenden Suchmaschinen-Index hinzugefügt. Bei Crawlern handelt es sich also um Bots, die speziell auf die Beschaffung von Informationen programmiert wurden.

Googlebot: Funktionsweise und Vorgehen

Der Googlebot läd Texte und Bilder von Webseiten herunter, die in der Google-Suche später zu finden sein werden. Zwischen dem Herunterladen und der Aktivierung der gefundenen Inhalte können einige Tage vergehen. Das Ziel ist es, über Google sämtliche Informationen auffindbar zu machen. Das System der Suchmaschinenoptimierung spielt dabei eine wichtige Rolle. Um entsprechende neue oder veränderte Webseiten aufspüren zu können, wird das sogenannte PageRank-Verfahren genutzt. Dabei handelt es sich um eine algorithmische Verfahrensweise, die die Popularität einer Webseite festlegt. Diese Bewertung erfolgt über die Anzahl der Links, die auf die Seite verweisen. Zugriffe des Crawlers auf entsprechende Seiten erfolgen im Schnitt alle paar Sekunden. Dabei wird jeder Crawlvorgang in einem eigens dafür angelegten Cache gespeichert. Indem sich andere Bots aus diesem Cache bedienen, kann der übermäßige Zugriff auf die Webseite verhindert werden.

Verifikation des Googlebots

Da es immer wieder Web- User gibt, die sich unter der Kennung des Googlebots Zugang zu Informationen verschiedener Seiten verschaffen wollen, gibt es spezielle Verifikationsverfahren. Dabei wird über das Domain Name System die IP-Adresse des Zugreifenden übersetzt und über eine DNS -Anfrage verglichen. Handelt es sich um den Googles Crawler, endet der Domain-Name auf googlebot.com.

Einschränkungen der Zugriffsmöglichkeiten

Der Google-Crawler befindet sich noch in der Entwicklungsphase. Bislang kann er nicht alle Parameter und Variablen aufschlüsseln. Das führt dazu, dass dynamische Seiteninhalte zum Großteil nicht erfasst werden können. Inhalte, die hinter mehreren AJAX-Requests stecken, soll der Googlebot in Zukunft ebenfalls erfassen können. Für Webmaster ist es fast unmöglich, ihre Webseite vor dem Googlebot geheim zu halten. Allerdings ist es möglich, über robots.txt den Zugriff zu verhindern. Nach der Sperrung wird es jedoch eine Weile dauern, bis der Google-User -Agent diese Änderung erkennt.