Przykładowe pliki robots.txt dla Twojej witryny

Plik robots.txt przechowywany w katalogu głównym Twojej witryny powie robotom sieciowym, takim jak katalogi i pliki, które mogą indeksować. Łatwo jest użyć pliku robots.txt, ale jest kilka rzeczy, o których powinieneś pamiętać:

Roboty internetowe Blackhat zignorują plik robots.txt. Najczęstsze typy to boty i roboty szukające adresów e-mail do pobrania.
Niektórzy nowi programiści będą pisać roboty ignorujące plik robots.txt. Zazwyczaj robi się to przez pomyłkę.
Każdy może zobaczyć Twój plik robots.txt. Są zawsze nazywane plikami robots.txt i zawsze są przechowywane w katalogu głównym witryny.
Na koniec, jeśli ktoś łączy się z plikiem lub katalogiem wykluczonym z pliku robots.txt ze strony, która nie jest wykluczona przez plik robots.txt, wyszukiwarki mogą ją znaleźć.

Nie używaj plików robots.txt, aby ukryć coś ważnego. Zamiast tego należy umieszczać ważne informacje za bezpiecznymi hasłami lub całkowicie je ukrywać.

Jak korzystać z tych przykładowych plików

Skopiuj tekst z przykładu, który jest najbliższy temu, co chcesz zrobić, i wklej go do pliku robots.txt. Zmień nazwy robota, katalogu i pliku, aby pasowały do preferowanej konfiguracji.

Dwa podstawowe pliki Robots.txt

Agent użytkownika: *Disallow: /

Ten plik mówi, że każdy robot (

Agent użytkownika: *), który uzyskuje do niego dostęp, powinien ignorować każdą stronę na stronie (
Disallow: /).
Agent użytkownika: *Zakazać:
Ten plik mówi, że każdy robot (

Agent użytkownika: *), który uzyskuje do niego dostęp, może przeglądać każdą stronę na stronie (
Zakazać:).
Możesz to również zrobić, pozostawiając pusty plik robots.txt lub nie zawierający go w swojej witrynie.

Chroń określone katalogi przed robotami

Agent użytkownika: *Disallow: / cgi-bin /Disallow: / temp /
Ten plik mówi, że każdy robot (

Agent użytkownika: *), który uzyskuje do niego dostęp, powinien zignorować katalogi / cgi-bin / i / temp / (
Disallow: / cgi-bin / Disallow: / temp /).
Chroń określone strony przed robotami

Agent użytkownika: *Disallow: /jenns-stuff.htmDisallow: /private.php
Ten plik mówi, że każdy robot (

Agent użytkownika: *), który uzyskuje do niego dostęp, powinien zignorować pliki /jenns-stuff.htm i /private.php (
Disallow: /jenns-stuff.htm Disallow: /private.php).
Zapobieganie dostępowi do witryny przez określonego robota

Użytkownik-agent: Lycos / x.xDisallow: /
Ten plik mówi, że bot Lycos (

Użytkownik-agent: Lycos / x.x) nie jest dozwolony dostęp w dowolnym miejscu na stronie (
Disallow: /).
Zezwalaj tylko na jeden określony dostęp do robota

Agent użytkownika: *Disallow: /Użytkownik-agent: GooglebotZakazać:
Ten plik najpierw blokuje wszystkie roboty, tak jak zrobiliśmy to powyżej, a następnie wyraźnie zezwala Googlebotowi (

Użytkownik-agent: Googlebot) mają dostęp do wszystkiego (
Zakazać:).
Połącz wiele linii, aby uzyskać dokładnie wykluczenia, które chcesz

Chociaż lepiej jest użyć bardzo otwartej linii User-agent, takiej jak User-agent: *, możesz być tak dokładny, jak chcesz. Pamiętaj, że roboty odczytują plik w kolejności. Jeśli więc pierwsze linie mówią, że wszystkie roboty są zablokowane od wszystkiego, a później w pliku jest napisane, że wszystkie roboty mają dostęp do wszystkiego, roboty będą miały dostęp do wszystkiego.

Jeśli nie masz pewności, czy poprawnie zapisałeś plik robots.txt, możesz użyć Narzędzi dla webmasterów Google, aby sprawdzić plik robots.txt lub napisać nowy.