Die Datei Robots.txt
WebSites werden in unregelmäßigen Abständen von
sogenannten Such-Robotern besucht, die die Verzeichnisse und Inhalte der Homepages indizieren.
Abgesendet werden diese Roboter von diversen Suchmaschinen (z.B. WebCrawler), um deren
Datenbestände zu erweitern und zu aktualisieren.
Da es nicht immer wünschenswert ist, daß ein Roboter die
ganze Verzeichnisstruktur und alle Dateien durchsucht, haben sich die Programmierer dieser Roboter
auf einen Standard in Form der Datei robots.txt geeinigt. Diese ASCII-Datei muß im
Hauptverzeichnis der Site (also z.B. http://www.Firma.de) stehen und enthält folgende
Inhalte:
User-agent: ...
Hiermit gibt man an, für welche Roboter die folgenden Einschränkungen gelten. Den Stern
* kann man verwenden, um alle Roboter zu adressieren. Beispiele:
| User-agent: webcrawler |
alle folgenden Einschränkungen gelten nur für Roboter von WebCrawler |
| User-agent: * |
die folgenden Einschränkungen gelten für alle Roboter |
Disallow: ...
Diese Angabe folgt der User-agent-Zeile. Hiermit gibt man an, auf welche Dateien oder
Verzeichnisse der Robot keinen Zugriff haben soll. Beispiele:
| Disallow: /cgi-bin/ |
auf das Verzeichnis http://www.Firma.de/cgi-bin/ soll nicht zugegriffen werden |
| Disallow: /test.html |
auf die Datei http://www.Firma.de/test.html soll nicht zugegriffen werden |
| Disallow: / |
auf die komplette Site soll nicht zugegriffen werden |
| Disallow: |
auf die komplette Site darf zugegriffen werden |
Bitte denkt daran, für jedes Verzeichnis und jede Datei eine
neue Disallow-Zeile anzufügen!
Kommentare fügt man ein, in dem man am Anfang der Zeile ein
Doppelkreuz # einfügt.
Eine Garantie, daß die Roboter auch wirklich draußen
bleiben, ist jedoch nicht gegeben.
Auch wenn man den Zugriff nicht einschränken will, macht es
unter Umständen Sinn, eine solche Datei anzulegen. Zum einen ist es unsinnig, den Roboter
Verzeichnisse wie z.B. das cgi-bin scannen zu lassen oder Dateien, die nur kurzzeitig auf dem
Server vorhanden sind. Zum anderen wird bei jedem Besuch eines Roboters ein
404-Datei-nicht-gefunden-Fehler erzeugt, was mich persönlich stören würde (es ist
aber auch nicht schädlich ;-)).
Alle Angaben ohne Gewähr. |