Wenn Du im Internet nach einem bestimmten Inhalt suchst und dafür eine Suchmaschine wie Google verwendest, gibst Du zuerst einen Suchbegriff ein. Damit die Suchmaschinen etwas sinnvolles zu deiner Suche zurückgeben können, müssen diese zuerst Webseiten wie deine, sowie deren Inhalte kennen. Der Webcrawler, auch Robot, Bot oder Spider genannt, ist ein Programm, welches bei den Suchmaschinen im Hintergrund läuft. Es durchsucht das Internet nach Webseiten und Inhalten und erstellt daraus einen sehr großen und durchsuchbaren Index, vergleichbar zum Index in einem Buch.

Wie funktioniert ein Crawler?

Der Crawler sucht Webseiten mithilfe von Hyperlinks auf. Ein Hyperlink oder Backlink verbindet Webseiten miteinander. Mit einem mathematischen Algorithmus werden die Daten gespeichert und mit Werten versehen. Das nennt man Indexierung. Anhand dieses Indexes kann nun die Suchmaschine zu deiner Suche die passenden Ergenisse schnell finden und dir als Ergebnis anzeigen.

Wer verwendet diese Crawler?

Ein Crawler wird von Suchmaschinen wie Google oder Bing verwendet, um jene Seiten, nach denen Du suchst, zu finden und zu indexieren. Viele Webseiten sind daher auf diese Bots ausgerichtet. Das heißt, sie sind so gestaltet, dass ein Crawler sie leicht finden kann. Deshalb spielen diese Spider in der Suchmaschinenoptimierung eine große Rolle. Webseitenbetreiber wollen erreichen, dass deren Seite möglichst oft in den Suchergebnissen angezeigt wird.

Welche Arten von Crawlern gibt es?

Die Arbeitsweise dieser Programme ähneln sich. Es gibt jedoch tatsächlich mehrere Formen dieser Crawler. Jede Suchmaschine verwendet ihre eigenen Bots. Zu den bekanntesten dieser Webcrawler zählen Googlebot von Google oder Bingbot von Bing/Microsoft. Die meisten Spider sind allgemeine Crawler, die möglichst viele Webseiten durchsuchen. Im Gegensatz dazu gibt es auch sogenannte Focused Crawler. Diese sind speziell auf die Suche nach bestimmten Inhalten ausgerichtet, wie beispielsweise die Erkennung von Webseiten verschiedener Länder oder auf das Auffinden von Stellenausschreibungen oder Nachrichten zu einem Thema.

Wann kann ein Crawler oder Bot schädlich sein?

Es gibt auch Crawler, die gezielt nach bestimmten Daten im Internet suchen. Das nennt man auch Data-Mining. Dabei werden einige Crawler gezielt eingesetzt, um nach E-Mail-Adressen suchen. Sobald eine E-Mailadresse gefunden wurde, wird diese von den Spammern dazu genutzt, diese mit ungewollter Werbung zu überschwemmen. Es ist aber auch möglich, dass eine bekannte Webseite unter den sehr schnellen Besuchen der verschiedenen Crawler in den Nachtstunden die Menge der Anfragen nicht mehr verarbeiten kann. In dem Fall kann es passieren, dass deine Webseite nicht mehr erreichbar ist. Man kennt das am besten aus sehr beliebten Fernsehsendungen, die einen Link einblenden. Es stürzen sich nun abertausende Menschen mit Ihrem Smartphone auf die Webseite, welche unter der ungewöhnlich hohen Besucherlast zusammenbricht und teilweise für Stunden nicht mehr erreichbar ist.