Globale Anpassung an der robots.txt
Zum Jahresanfang haben wir auf unseren direkt betreuten Servern eine globale Anpassung an der viel genutzten, aber oft übersehenen, robots.txt Datei vorgenommen.
Die robots.txt Datei wird in der Regel von Suchmaschinen/Bots verwendet, um z. B. erlaubte / nicht erlaubte Verzeichnisse, Adressen von Sitemap-Dateien und sonstige Informationen zu erhalten.
U. a. gibt es auch für z. B. die Suchmaschine Bing von Microsoft eine Einstellung, die die Häufigkeit der Indizierungszugriffe steuert, das sog. „Crawl-delay“.
Ist dieser Wert nicht gesetzt, besteht keine Limitierung für den Bing Suchroboter. So kann es dazu kommen, dass Bing hunderte von Anfragen, je nach Größe und Umfang der Webpräsenz, mehr oder weniger parallel durchführt und auf diesem Weg auch stärkere Webserver stark belastet.
Um dies nun in einem ausgewogenen Rahmen halten zu können, wurde von uns eine robots.txt Datei in allen Stammverzeichnissen angelegt, in denen keine gleichnamige Datei vorhanden war.
Der Inhalt dieser Datei ist immer:
User-agent: *
Crawl-delay: 5
Sofern bereits eine eigene robots.txt Datei vorhanden war, haben wir geprüft, ob bereits ein eigenes Crawl-delay definiert wurde. Nur im Fall einer nicht vorhandenen Definition haben wir die o. g. Anweisung am Ende in die Bestandsdatei eingefügt.
Im Resultat weisen wir somit alle Suchroboter an nur frühestens alle 5 Sekunden eine weitere Seite abrufen.
Weitere Details zum Thema Robots.txt finden Sie auf der sehr informativen Wikipedia-Seite
https://de.wikipedia.org/wiki/Robots_Exclusion_Standard
Sie sehen gerade einen Platzhalterinhalt von Facebook. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Instagram. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von X. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr Informationen