Suchmaschinen gibt es im Internet schon länger als das World-Wide-Web, die grafische Oberfläche des Internets. Mit Archie konnte man ab 1990 den Inhalt von FTP-Servern durchsuchen. Das Grundprinzip dieser Suchmaschine – die verfügbaren Server im Internet absuchen und die Ergebnisse speichern und bei einer Anfrage diese Datenbank zu durchsuchen – ist das gleiche, nach dem auch moderne Suchmaschinen arbeiten. Nur dass diese, wegen der enorm größeren Datenmenge, in einem Zwischenschritt Indexe erstellen, die das Suchen in der Datenbank erheblich beschleunigen.
Der erste Schritt: das Internet durchforsten
Um eine Datenbank für eine Suchmaschine zu erstellen werden sogenannte Crawler, Spider oder Robots (das sind nur die am häufigsten verwendeten Namen) durch das Internet geschickt. Dies ist allerdings nur bildlich gemeint. In Wirklichkeit laufen die Programme auf den Servern der Suchmaschinenbetreiber und arbeiten im Prinzip genauso wie ein Webbrowser. Sie bekommen eine Liste von URLs und laden die
entsprechenden Webseiten für die Weiterverarbeitung auf den Server. Dort werden sie analysiert und auf diesen Seiten gefundene Links werden für die weitere Suche vorgemerkt, sofern sie einer Reihe von Kriterien entsprechen, die vom Suchmaschinenbetreiber vorgegeben werden. Einige dieser Kriterien dienen dazu, die angefragten Webserver nicht zu überlasten, denn der Zugriff durch die Suchmaschine verbraucht ja gleichviel Bandbreite und Webserver-Ressourcen, wie ein Zugriff mit einem Browser auf dieselbe Webseite. Ein anderer Grund, nicht alle URLs zu besuchen ist, dass auch die Ressourcen eines Suchmaschinenbetreibers begrenzt sind, und er sich die interessantesten Links heraussuchen muss, wenn die Crawler mit ihrer Arbeit in einem akzeptablen Zeitraum fertig werden sollen. Nicht zuletzt sollen die Suchergebnisse ja auch möglichst aktuell sein. Außerdem wollen manche Webseitenbetreiber, dass bestimmte Seiten nicht von Suchmaschinen gelistet werden. Aus diesem Grund wurde schon früh das Robots Exclusion Protokoll entwickelt, das mit Hilfe einer Textdatei mit dem Namen robots.txt im Webserververzeichnis erlaubt, einem Crawler zu sagen, welche Seiten er besuchen darf und welche nicht.
Der zweite Schritt: die gefundenen Seiten Indexieren
Eine Suchmaschine die ohne Indexierung arbeitet, müsste für jede Suchanfrage alle aufgesuchten Webseiten neu durchsuchen. Das bedeutet nicht nur mehrfache Arbeit bei gleichen Suchanfragen, sondern ist, bei der immensen Anzahl von Webseiten im heutigen Internet, sehr aufwendig. Darum erzeugen moderne Suchmaschinen aus den gespeicherten Webseiten Indexe in Form mathematischer Datenstrukturen, die ein schnelles Auffinden derjenigen Seiten ermöglichen, die ein gesuchtes Wort enthalten.
Der dritte Schritt: eine Suchanfrage beantworten
Das bisher gesagte erlaubt einer Suchmaschine, Webseiten zu finden die einzelne Wörter, beziehungsweise Kombinationen von Wörtern enthalten. Und tatsächlich werden Satzzusammenhänge und Sonderzeichen zunächst einmal ignoriert und früher war die Arbeit einer Suchmaschine hier auch beendet. Viele Anfragen, die heute an Suchmaschinen gestellt werden, sehen aber anders aus. Es werden komplette Sätze eingegeben und eine Suche nach den einzelnen Wörtern, würde bei der Unmenge von Webseiten die es inzwischen im Internet gibt, sehr viele, aber wenig treffende Ergebnisse liefern. Daher verfeinern aktuelle Suchmaschinen diese Ergebnisse und berücksichtigen dabei nicht nur kurze und häufige Wörter wie “und” oder bestimmte und unbestimmte Artikel, sondern auch Satzzeichen und andere Sonderzeichen.
Bild von: MacX – Fotolia