Googlebot

Google bezeichnet seinen Webcrawler oder auch Spider als Googlebot. Er ist der wohl bekannteste Crawler, der international vorhanden ist. In seiner Funktion ermittelt er neue Seiten, übernimmt Aktualisierungen und indexiert diese im Google-Index.

Hinter dem Googlebot steht nach Angaben von Google ein gewaltiges Netzwerk an Computern. Täglich sind diese Computer auf der Suche nach Inhalten in Milliarden von Webseiten. Grundlegend arbeitet dieser Crawler immer auf Basis eines algorithmischen Prozesses, den Google bis heute in beachtlichem Umfang geheim gehalten hat. Der Googlebot arbeitet grundlegend im Zusammenspiel mit verschiedenen Computerprogrammen. Diese bestimmen, zu welchem Zeitpunkt die Webseiten durchsucht werden und wie oft diese Suche erfolgen soll. Gleichzeitig legen diese Programme auch fest, welche Anzahl von Seiten abgerufen wird.

Am Anfang des Crawling-Prozesses steht grundsätzlich eine Liste mit URLs einer Webseite. Sie wurden im letzten Crawlingprozess gelesen und aufgenommen. Ein wichtiges Element ist an dieser Stelle auch das Sitemap. Es wird von den Webmastern bereitgestellt und liefert dem Googlebot quasi eine Übersicht über die vorhandenen URLs.

Der Googlebot ist bei jedem Besuch auf einer URL dazu in der Lage, zu erkennen, welche Links hier vorhanden sind und wohin diese führen. So ist er dazu in der Lage, neue Webseiten zu ermitteln und Änderungen zu registrieren, die an der Webseite vorgenommen wurden. All diese Informationen sind erforderlich, damit der Index von Google anhaltend aktualisiert werden kann. Im Schnitt greift der Googlebot übrigens nur einmal im Abstand von ein paar Sekunden auf die jeweilige Internetseite zu. Die Frequenz kann sich im Einzelfall allerdings erhöhen. In diesem Fall entstanden im Voraus meist Netzwerkverzögerungen.

—

Grafiken:

https://www.iconfinder.com/icons/317758/android_google_icon#size=256

https://www.iconfinder.com/icons/294707/circle_google_icon#size=128