Olivia Wilde

3 years ago

Categories: Blogging

The Deceptively Important File All Websites Need

Die Datei robots.txt hilft großen Suchmaschinen zu verstehen, wohin sie auf Ihrer Website gehen dürfen.

Obwohl die großen Suchmaschinen die Datei robots.txt unterstützen, halten sie sich möglicherweise nicht alle auf die gleiche Weise an die Regeln.

Im Folgenden erklären wir, was eine robots.txt-Datei ist und wie Sie sie verwenden können.

Was ist eine robots.txt-Datei?

Jeden Tag besuchen Bots Ihre Website – auch bekannt als Roboter oder Spinnen. Suchmaschinen wie Google, Yahoo und Bing senden diese Bots an Ihre Website, damit Ihre Inhalte gecrawlt und indiziert werden und in den Suchergebnissen erscheinen.

Bots sind eine gute Sache, aber es gibt einige Fälle, in denen Sie nicht möchten, dass der Bot auf Ihrer Website herumläuft und alles durchsucht und indiziert. Hier kommt die Datei robots.txt ins Spiel.

Durch das Hinzufügen bestimmter Anweisungen zu einer robots.txt-Datei weisen Sie die Bots an, nur die Seiten zu crawlen, die gecrawlt werden sollen.

Es ist jedoch wichtig zu verstehen, dass nicht jeder Bot die Regeln einhält, die Sie in Ihre robots.txt-Datei schreiben. Google hört zum Beispiel nicht auf Anweisungen, die Sie in der Datei zur Crawling-Häufigkeit platzieren.

Benötigen Sie eine robots.txt-Datei?

Nein, eine robots.txt-Datei ist für eine Website nicht erforderlich.

Wenn ein Bot auf Ihre Website kommt und keinen hat, wird er einfach Ihre Website crawlen und die Seiten wie gewohnt indizieren.

Eine robot.txt-Datei wird nur benötigt, wenn Sie mehr Kontrolle darüber haben möchten, was gecrawlt wird.

Einige Vorteile, eine zu haben, sind:

Helfen Sie mit, Serverüberlastungen zu bewältigen
Verhindern Sie Crawling-Verschwendung durch Bots, die Seiten besuchen, von denen Sie nicht möchten, dass sie es tun
Halten Sie bestimmte Ordner oder Subdomains privat

Kann eine robots.txt-Datei die Indexierung von Inhalten verhindern?

Nein, Sie können die Indexierung und Anzeige von Inhalten in den Suchergebnissen nicht mit einer robots.txt-Datei verhindern.

Nicht alle Robots befolgen die Anweisungen auf die gleiche Weise, daher können einige den Inhalt indizieren, den Sie als nicht gecrawlt oder indexiert festgelegt haben.

Wenn der Inhalt, den Sie verhindern möchten, in den Suchergebnissen angezeigt zu werden, externe Links enthält, wird er auch von den Suchmaschinen indiziert.

Die einzige Möglichkeit, sicherzustellen, dass Ihre Inhalte nicht indiziert sind, besteht darin, der Seite ein noindex-Meta-Tag hinzuzufügen. Diese Codezeile sieht so aus und wird in den HTML-Code Ihrer Seite eingefügt.

Wenn Sie möchten, dass die Suchmaschinen eine Seite nicht indizieren, müssen Sie das Crawlen der Seite in der robots.txt-Datei zulassen.

Wo befindet sich die robots.txt-Datei?

Die Datei robots.txt befindet sich immer in der Stammdomäne einer Website. Als Beispiel finden Sie unsere eigene Datei unter https://www.hubspot.com/robots.txt.

Auf den meisten Websites sollten Sie auf die eigentliche Datei zugreifen können, damit Sie sie in einem FTP bearbeiten oder auf den Dateimanager im CPanel Ihres Hosts zugreifen können.

Auf einigen CMS-Plattformen finden Sie die Datei direkt in Ihrem Verwaltungsbereich. HubSpot macht es beispielsweise einfach, Ihre robots.txt-Datei von Ihrem Konto aus anzupassen.

Wenn Sie WordPress verwenden, können Sie auf die Datei robots.txt im Ordner public_html Ihrer Website zugreifen.

WordPress enthält standardmäßig eine robots.txt-Datei bei einer Neuinstallation, die Folgendes enthält:

User-Agent: *

Nicht zulassen: /wp-admin/

Verbieten: /wp-includes/

Das Obige weist alle Bots an, alle Teile der Website zu crawlen, mit Ausnahme von allem, was sich in den Verzeichnissen /wp-admin/ oder /wp-includes/ befindet.

Vielleicht möchten Sie jedoch eine robustere Datei erstellen. Lassen Sie uns Ihnen unten zeigen, wie.

Verwendungen für eine Robots.txt-Datei

Es kann viele Gründe geben, Ihre robots.txt-Datei anzupassen – von der Kontrolle des Crawling-Budgets bis hin zum Blockieren von Abschnitten einer Website für das Crawlen und Indexieren. Lassen Sie uns jetzt einige Gründe für die Verwendung einer robots.txt-Datei untersuchen.

1. Alle Crawler blockieren

Das Blockieren aller Crawler vom Zugriff auf Ihre Website ist nicht etwas, was Sie auf einer aktiven Website tun möchten, ist jedoch eine großartige Option für eine Entwicklungswebsite. Wenn Sie die Crawler blockieren, wird verhindert, dass Ihre Seiten in Suchmaschinen angezeigt werden, was gut ist, wenn Ihre Seiten noch nicht zur Anzeige bereit sind.

2. Verhindern Sie, dass bestimmte Seiten gecrawlt werden

Eine der gebräuchlichsten und nützlichsten Möglichkeiten, Ihre robots.txt-Datei zu verwenden, besteht darin, den Zugriff von Suchmaschinen-Bots auf Teile Ihrer Website zu beschränken. Dadurch können Sie Ihr Crawl-Budget maximieren und verhindern, dass unerwünschte Seiten in den Suchergebnissen landen.

Es ist wichtig zu beachten, dass nur weil Sie einem Bot gesagt haben, dass er eine Seite nicht crawlen soll, dies nicht bedeutet, dass sie nicht indiziert wird. Wenn Sie nicht möchten, dass eine Seite in den Suchergebnissen angezeigt wird, müssen Sie der Seite ein noindex-Meta-Tag hinzufügen.

Beispiel für Robots.txt-Dateianweisungen

Die Datei robots.txt besteht aus Blöcken von Direktiven. Jede Direktive beginnt mit einem User-Agent, und dann werden die Regeln für diesen User-Agent darunter platziert.

Wenn eine bestimmte Suchmaschine auf Ihrer Website landet, sucht sie nach dem für sie zutreffenden User-Agent und liest den Block, der auf sie verweist.

Es gibt mehrere Direktiven, die Sie in Ihrer Datei verwenden können. Lassen Sie uns diese jetzt aufschlüsseln.

1. Benutzer-Agent

Mit dem User-Agent-Befehl können Sie gezielt bestimmte Bots oder Spider ansteuern. Wenn Sie beispielsweise nur Bing oder Google ansprechen möchten, verwenden Sie diese Anweisung.

Obwohl es Hunderte von User-Agents gibt, finden Sie im Folgenden Beispiele für einige der gängigsten User-Agent-Optionen.

User-Agent: Googlebot

User-Agent: Googlebot-Image

User-Agent: Googlebot-Mobile

User-Agent: Googlebot-News

User-Agent: Bingbot

User-Agent: Baiduspider

Benutzeragent: msnbot

User-Agent: slurp (Yahoo)

User-Agent: yandex

Es ist wichtig zu beachten, dass bei User-Agents die Groß-/Kleinschreibung beachtet werden muss, also achten Sie darauf, sie richtig einzugeben.

Wildcard User-Agent

Der Wildcard-User-Agent wird mit einem noted

asterisk und lässt Sie ganz einfach eine Direktive auf alle existierenden User-Agents anwenden. Wenn Sie also möchten, dass für jeden Bot eine bestimmte Regel gilt, können Sie diesen User-Agent verwenden.

User-Agent: *

User-Agents befolgen nur die Regeln, die für sie am besten gelten.

2. Verbieten

Die Disallow-Direktive weist Suchmaschinen an, bestimmte Seiten oder Verzeichnisse einer Website nicht zu crawlen oder darauf zuzugreifen.

Im Folgenden finden Sie einige Beispiele dafür, wie Sie die Disallow-Direktive verwenden können.

Zugriff auf einen bestimmten Ordner blockieren

In diesem Beispiel weisen wir alle Bots an, nichts im Verzeichnis /portfolio auf unserer Website zu crawlen.

User-Agent: *

Nicht zulassen: /portfolio

Wenn wir nur möchten, dass Bing dieses Verzeichnis nicht crawlt, würden wir es stattdessen wie folgt hinzufügen:

User-Agent: Bingbot

Nicht zulassen: /portfolio

PDF oder andere Dateitypen blockieren

Wenn Sie nicht möchten, dass Ihr PDF oder andere Dateitypen gecrawlt werden, sollte die folgende Anweisung helfen. Wir teilen allen Bots mit, dass wir keine gecrawlten PDF-Dateien wollen. Das $ am Ende sagt der Suchmaschine, dass es das Ende der URL ist. Also wenn ich eine pdf-Datei habe untermeinewebsite.com/site/myimportantinfo.pdf ,

die Suchmaschinen greifen nicht darauf zu.

User-Agent: *

Nicht zulassen: *.pdf$

Für PowerPoint-Dateien können Sie Folgendes verwenden:

User-Agent: *

Nicht zulassen: *.ppt$

Eine bessere Option könnte darin bestehen, einen Ordner für Ihre PDF- oder andere Dateien zu erstellen und dann den Crawlern zu verbieten, ihn zu crawlen und das gesamte Verzeichnis mit einem Meta-Tag zu indizieren.

Zugriff auf die gesamte Website blockieren

Besonders nützlich, wenn Sie eine Entwicklungswebsite oder Testordner haben, weist diese Anweisung alle Bots an, Ihre Site überhaupt nicht zu crawlen. Denken Sie daran, dies zu entfernen, wenn Sie Ihre Website live schalten, da sonst Indexierungsprobleme auftreten.

User-Agent: *

Das oben angezeigte * (Sternchen) ist ein sogenannter “Platzhalter”-Ausdruck. Wenn wir ein Sternchen verwenden, implizieren wir, dass die folgenden Regeln für alle User-Agents gelten sollten.

3. Erlauben Die Allow-Anweisung kann Ihnen dabei helfen, bestimmte Seiten oder Verzeichnisse anzugeben, die Sie tun

wollen, dass Bots darauf zugreifen und kriechen. Dies kann eine Überschreibungsregel für die oben gezeigte Disallow-Option sein.

Im folgenden Beispiel teilen wir dem Googlebot mit, dass wir nicht möchten, dass das Portfolio-Verzeichnis gecrawlt wird, aber wir möchten, dass auf ein bestimmtes Portfolio-Element zugegriffen und es gecrawlt wird:

User-Agent: Googlebot

Nicht zulassen: /portfolio

Zulassen: /portfolio/crawlbares Portfolio

4. Sitemap

Das Einfügen des Speicherorts Ihrer Sitemap in Ihre Datei kann Suchmaschinen-Crawlern das Crawlen Ihrer Sitemap erleichtern.

Wenn Sie Ihre Sitemaps direkt an die Webmaster-Tools der einzelnen Suchmaschinen übermitteln, müssen Sie sie nicht Ihrer robots.txt-Datei hinzufügen. Seitenverzeichnis:

https://ihrewebsite.com/sitemap.xml

5. Crawling-Verzögerung

Die Crawling-Verzögerung kann einen Bot anweisen, das Crawlen Ihrer Website zu verlangsamen, damit Ihr Server nicht überlastet wird. Das folgende Anweisungsbeispiel fordert Yandex auf, nach jeder Crawling-Aktion auf der Website 10 Sekunden zu warten.

User-Agent: yandex

Kriechverzögerung: 10

Dies ist eine Richtlinie, mit der Sie vorsichtig sein sollten. Auf einer sehr großen Website kann es die Anzahl der täglich gecrawlten URLs stark minimieren, was kontraproduktiv wäre. Dies kann jedoch auf kleineren Websites nützlich sein, auf denen die Bots etwas zu viel besuchen. Hinweis: Crawl-Verzögerung istnicht von Google oder Baidu unterstützt . Wenn Sie ihre Crawler bitten möchten, das Crawlen Ihrer Website zu verlangsamen, müssen Sie dies tundurch ihre Werkzeuge

.

Was sind reguläre Ausdrücke und Platzhalter?

Der Musterabgleich ist eine fortschrittlichere Möglichkeit, die Art und Weise zu steuern, wie ein Bot Ihre Website mithilfe von Zeichen crawlt.

Es gibt zwei allgemeine Ausdrücke, die sowohl von Bing als auch von Google verwendet werden. Diese Anweisungen können auf E-Commerce-Websites besonders nützlich sein. Sternchen:

* wird als Platzhalter behandelt und kann eine beliebige Zeichenfolge darstellen Dollarzeichen:

$ wird verwendet, um das Ende einer URL zu kennzeichnen

Ein gutes Beispiel für die Verwendung des Platzhalters * ist das Szenario, in dem Sie verhindern möchten, dass die Suchmaschinen Seiten crawlen, die möglicherweise ein Fragezeichen enthalten. Der folgende Code weist alle Bots an, das Crawlen von URLs mit einem Fragezeichen zu ignorieren.

User-Agent: *

Verbieten: /*?

So erstellen oder bearbeiten Sie eine Robots.txt-Datei

Wenn auf Ihrem Server keine robots.txt-Datei vorhanden ist, können Sie mit den folgenden Schritten ganz einfach eine hinzufügen.
Öffnen Sie Ihren bevorzugten Texteditor, um ein neues Dokument zu erstellen. Übliche Editoren, die auf Ihrem Computer vorhanden sein können, sind Notepad, TextEdit oder Microsoft Word.
Fügen Sie die Anweisungen hinzu, die Sie dem Dokument hinzufügen möchten.
Speichern Sie die Datei unter dem Namen „robots.txt“
Testen Sie Ihre Datei wie im nächsten Abschnitt gezeigt

Laden Sie Ihre .txt-Datei per FTP oder in Ihrem CPanel auf Ihren Server hoch. Wie Sie es hochladen, hängt von der Art Ihrer Website ab.

In WordPress können Sie Plugins wie Yoast, All In One SEO, Rank Math verwenden, um Ihre Datei zu generieren und zu bearbeiten.

Sie können auch ein robots.txt-Generator-Tool verwenden, um ein Tool vorzubereiten, das Fehler minimiert.

So testen Sie eine Robots.txt-Datei

Bevor Sie den von Ihnen erstellten robots.txt-Dateicode live schalten, sollten Sie ihn durch einen Tester laufen lassen, um sicherzustellen, dass er gültig ist. Dies hilft, Probleme mit falschen Anweisungen zu vermeiden, die möglicherweise hinzugefügt wurden.

Das Testtool robots.txt ist nur in der alten Version der Google Search Console verfügbar. Wenn Ihre Website nicht mit der Google Search Console verbunden ist, müssen Sie dies zuerst tun.

Rufen Sie die Google-Supportseite auf und klicken Sie dann auf die Schaltfläche “Robots.txt-Tester öffnen”. Wählen Sie die Eigenschaft aus, auf die Sie testen möchten, und Sie werden zu einem Bildschirm wie dem folgenden weitergeleitet.

der robots.txt-Tester beim Google-Support

SEO-Starterpaket

Google will make Android ad tracking more difficult »

« Google Pixel Buds A: What you need to know

Olivia Wilde: Passionate Blogger, Web Developer, Search Engine Optimizer, Online Marketer and Advertiser. Passionate about SEOs and Digital Marketing. Helping Bloggers to learn "How to Blog".