The Web Robots FAQ

Hallo Nachtwandler, herzlich willkommen bei den

	Webmaster Startseite
	Ihre Homepage
	Unsere Leistungen
	Neue Seiten
	Externe Seite einbinden
	Banner für Ihre Homepage
	Serverseitiges Mail
	Neuen Zähler einrichten
	Seitenchecker
	Diascannerausleihe
	Eigene Domain
	Weiterführende Links

Die WWW Roboter FAQ


	Dieser Text basiert auf dem "WWW-Roboter FAQ" von Martijn Koster in englischer Sprache (http://info.webcrawler.com/mak/projects/robots/faq.html). Übersetzt und ergänzt von Norbert Specht. Inhaltsverzeichnis Allgemeines Was ist eine WWW-Robot? Was ist ein Agent? Was ist eine Suchmaschine? Welche Arten von WWW-Robotern gibt es? Und was sind jetzt Roboter, Spinnen, Web Crawler, Würmer und Ameisen? Schaden Roboter dem WWW? Woher bekomme ich noch mehr Information über Roboter? Indizierende WWW-Roboter Wie entscheidet der Roboter, welche Seite er besucht? Wie entscheidet der Roboten, welche Informationen über die Seite er indiziert? Wie kommt meine Seite in einen WWW-Roboter-Index? Wie kann ich Roboter durch META-Tags steuern? Über Web-Roboter Was ist ein WWW-Roboter? Ein WWW-Roboter ist ein Programm, dass das WWW mittels der Hyperlinks in HTML-Dokumenten automatisch von einer Seite zur nächsten "gelinkten" Seite springt, den Inhalt der Seite nach bestimmten Kriterien und Regeln indiziert und das Ergebnis in einer Datenbank speichert. In menschlichen Maßstäben gemessen also ein Power-Surfer mit einem absoluten Gedächtnis, der nichts anderes zu tun hat als seinen Bekannten Tag und Nacht mit Tipps für die Suche im WWW zur Seite zu stehen. Andere Bezeichnungen für WWW-Roboter sind: "Web Wanderer, Web Crawler, und Spider. Die Begriffe sind ein wenig irreführend, da sie die Vermutung nähren das Programm bewege sich wie ein Virus durch den WWW-Raum. Dies ist jedoch nicht richtig. WWW-Roboter sind Programme, die andere WWW-Orte nur dadurch "besuchen", indem sie die dort befindlichen HTML-Dokumente abrufen. zurück Was ist ein Agent? Das Wort "Agent" wird heutzutage in Bezug auf die EDV sehr häufig für unterschiedliche Bedeutungen benutzt. Autonome Agenten sind Programme, die sich selbständig von Server zu Server bewegen und selbst über das wann und wohin und den Zweck ihrer Datenreise entscheiden . Bisher können sich diese Programme jedoch nur zwischen besonderen und wenig verbreiteten Servern im Internet bewegen Intelligente Agenten werden Programme genannt, die ihren Benutzern bei bestimmten Angelegenheiten unterstützen, etwa bei der Auswahl von Produkten, oder bei der Suche nach Daten, oder beim Ausfüllen eines Formulars (Anm. Assistenten in Microsoft-Produkten). Meist haben diese Programme nur wenig mit Netzwerken zu tun. User-Agent ist ein technischer Begriff für Programme, die im Netzwerk bestimmte Aufgaben für den Benutzer ausführen. WWW-User-Agenten sind z.B. der Netscape Explorer, oder etwa ein Email Programm wie Eudora usw.. zurück Was ist eine Suchmaschine? Als Suchmaschine wird ein Programm bezeichnet, dass einen bestimmten Satz Daten durchsucht. Im Zusammenhang mit dem WWW wird der Begriff "Suchmaschine" meist für die als Formular gestaltete Benutzeroberfläche einer von einem Roboter erzeugten Datenbank im WWW gefundener HTML-Dokumente benutzt. zurück Welche anderen WWW-Roboter gibt es? Roboter können für eine Anzahl von Zwecken eingesetzt werden. Indizierung HTML Gültigkeitsprüfung Link Gültigkeitsüberprüfung "Was ist neu?" Einordnung (Anm. Neue Seiten im BN) Mirroring (Anm. Server-Spiegelung) zurück Also, was sind nun Roboter, Spider, Web Crawler, Worms, Ants All diese Begriffe werden prinzipiell für die gleiche Sache verwendet, mit geringen Abweichungen. Roboter der ursprüngliche Name, siehe oben. Spiders (Spinnen) funktionieren genauso wie Roboter, aber der Begriff hört sich in der Presse halt etwas "cooler" an. (Anm: Das gilt wohl eher für die englischsprachige Presse ...). Worms (Würmer) auch mit diesem Begriff werden WWW-Roboter bedacht, obwohl mit "Worms" eigentlich technisch gesehen sich selbst replizierende Programme gemeint sind. Web Crawler ist auch ein Roboter. Allerdings besitzt ein WebCrawler besondere Eigenschaften. WebAnts (Web-Ameisen) Verteilt arbeitende, miteinander kooperierende WWW-Roboter. zurück Sind WWW-Roboter nicht schlecht für das WWW? Es gibt einige Gründe warum manche Leute glauben, dass die WWW-Roboter dem WWW schaden: Manche Roboterprogramme können (und haben) in der Vergangenheit zu Überlastungen des Netzes und von Servern geführt. Dies geschieht besonders bei Roboterprogrammen im Beta-Stadium, und bei von weniger erfahrenen Programmieren erstellten Robotern. Heute ist genug über die Funktionsweise von Robotern bekannt um solche Fehler zu vermeiden. Roboter werden von Menschen bedient die Fehler in der Konfiguration des Programms machen können, oder einfach die Auswirkung ihres Tuns nicht genügend kennen. Dies bedeutet, daß die Bediener von Roboter-Programmen vorsichtig im Umgang mit dem Programm sein müssen und die Autoren von Roboterprogrammen es den Bedienern schwer machen müssen, Fehler zu begehen. Web-weite indizierende Roboter bilden eine zentrale Datenbank, die oftmals von den Millionen von Dokumenten auf Millionen verschiedener Servern überfordert wird. Die große Mehrheit der WWW-Roboter sind jedoch gut programmiert und werden professionell betreut. Sie verursachen keine Probleme und stellen einen wertvollen Dienst bereit, für den es ansonsten keinen Ersatz gibt. Die Antwort ist also "nein". WWW-Roboter sind weder alle notwendigerweise schädlich, noch sind alle notwendigerweise besonders nützlich. zurück Wo bekomme ich noch mehr Information über WWW-Roboter? Eine WWW-Robot-Homepage finden Sie unter: http://info.webcrawler.com/mak/projects/robots/robots.html Obwohl diese Seite auf dem Server eines der wichtigsten WWW-Roboter liegt, finden Sie hier eine neutrale und ziemlich umfassende Sammlung an Informationen zum Thema. Die Seite wird betreut von Martijn Koster <m.koster@webcrawler.com>. Natürlich finden Sie dort auch die neueste Version dieses Dokumentes in englischer Sprache, und außerdem erfahren Sie dort noch mehr Einzelheiten über Roboter und eine Robot-Mailing-List, in der technische Diskussionen über WWW-Roboter stattfinden. Weitere deutschsprachige Informationen und eine Link-Liste zu Suchmaschinen finden Sie unter yooma.de zurück Indizierende WWW-Roboter Wie entscheidet ein WWW-Roboter, welche Seite im WWW er besuchen soll? Jeder Roboter folgt hierbei seiner eigenen Strategie. Grundsätzlich beginnt seine Suche von einer ihm bekannten Liste von URL´s, speziell von Dokumenten mit vielen Links, wie etwa Serverlisten, Neues-Seiten, und Listen beliebter Seiten im WWW. Die meisten Indexdienste lassen es auch zu eine URL manuell anzugeben, die dann anschließend vom Roboter besucht und indiziert wird. In manchen Fällen werden auch andere Quellen von URL´s benutzt, wie etwa USENET-Nachrichten, und Mail-List-Archive etc. Solchermaßen mit einem Ausgangspunkt ausgestattet, wählt der Robot sämtliche URL´s im gefundenen Dokument für die weitere Datenreise. zurück Wie entscheidet ein WWW-Roboter über Art und Umfang der Indizierung? Sobald ein WWW-Roboter ein Dokument geladen hat entscheidet er selbst darüber, in welcher Art und in welchem Umfang er den Inhalt des Dokumentes nach Stichworten durchsucht und welche der gefundenen Begriffe er in seine Datenbank einordnet. Einige Roboter indizieren lediglich den Titel des Dokumentes, andere indizieren alle gefundenen Wörter, andere wiederum lesen lediglich die für sie bestimmten Informationen aus, benutzen META-Tags, oder andere im Browser sonst nicht sichtbare Informationen. Manche gewichten die Relevanz des Dokuments noch anhand der gefundenen Begriffe und/oder Links die zu diesem Dokument führen. Es steht zu hoffen, dass mit der weiteren Ausweitung des Internets mehr Dienste verfügbar sein werden, die in effizienter Weise Meta-Informationen für den Zugriff auf Dokumente im WWW zur Verfügung stellt. Daran wird noch gearbeitet.... zurück Wie registriere ich meine Seite bei einem WWW-Robot? Wie Sie wohl bereits erraten haben, hängt dies vom jeweiligen Roboter-Dienst ab. Die meisten Dienste stellen jedoch ein Anmeldungsformular für URLs für Ihren Suchdienst zur Verfügung. Glücklicherweise müssen Sie das nicht mehr bei jedem Dienst von Hand erledigen: Beispiele für Dienst, die dies erledigen sind: Submit-it (kostenpflichtig) http://www.addurl.de/ (kostenlos) Webmasterplan (kostenlos oder kostenpflichtig - je nach Umfang)) zurück Wie kann ich Roboter durch META-Tags steuern? Mit META-Tags im Header (zwischen <HEAD> und <BODY>) Ihrer HTML-Seiten können Sie selbst beeinflussen ob und wie Ihre Seiten indiziert werden. Leider gilt das noch nicht für alle Suchmaschinen - aber doch zumindest für die Wichtigsten. Der Aufwand lohnt sich also. Hier einige Beispiele für META-Tags, mit denen der Autor einer Web-Seite steuern kann ob die aktuelle und die folgenden Seiten indiziert werden: Diese Seite soll nicht in den Index aufgenommen werden - Hyperlinks werden jedoch ausgewertet. <META NAME="ROBOTS" CONTENT="NOINDEX"> Diese Seite soll nicht in den Index aufgenommen werden - Hyperlinks auf der Seite nicht folgen <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> .... oder mit der gleichen Wirkung: <META NAME="ROBOTS" CONTENT="NONE"> Je nach Suchmaschine werden noch weitere META-TAGS ausgewertet. Allerdings gibt es meines Wissens nach hierfür noch keinen Standard. Informationen hierzu finden sich jedoch meist auf den Hilfe-Seiten der Suchmaschinen. Alta-Vista z.B. wertet folgende META-Tags aus: <META NAME="description" CONTENT="Wir sind Spezialisten im Frisieren von pinkfarbenen Pudeln."> META NAME="keywords" CONTENT="Hundefrisöre, Hunde, Pudel, Hummelsbüttel, pinkfarbene Pudel" zurück

© Norbert Specht, 26.06.2012