Robots.txt ist eine Textdatei im Hauptverzeichnis einer Webseite, mit der Spider oftmals angewiesen werden, gewissen Dateien oder Ordner nicht zu spidern und zu indexieren.
An diese Anweisungen halten sich die seriösen Suchmaschinenbetreiber in der Regel, allerdings sollten Webseiten, die absolut nicht gespidet werden sollen, unbedingt mit einem Verzeichnis untergebracht werden, welches Passwortgeschützt ist.
Über die IP bzw. den Agent Name können Spider, die sich nicht an die Robots.txt-Datei halten, vom Webmaster erkannt und über die Htaccess-Datei vom Zugriff auf die Webseite abgehalten werden. |