Do czego służy plik robots.txt? I czy muszę go mieć!

Czas czytania 2 minuty

Plik robots.txt tworzony jest głównie z myślą o automatach (botach, crawler takich jak np. roboty Google, Yahoo, Bing) w celach informowania ich czego nie należy robić na stronie. A tak prościej jakie elementy (pliki i katalogi) witryny mogą zostać lub nie mogą dodane do wyników wyszukiwania.

Plik ten należy do mechanizmu „Robots Exclusion Protocol” roboty będą więc odczytywały go w pierwszej kolejności.

Czy każda witryna internetowa ma plik robots.txt?

Odpowiedz brzmi NIE. Chociaż tak naprawdę powinna. Systemy CMS czasem posiadają już ten plik w pakiecie instalacyjnym. Jednak bardzo często plik ten musimy utworzyć samodzielnie (lub z pomocą twórcy strony) – uwzględniając strukturę konkretnej witryny.

Warto również pamiętać, że niektórych przypadkach w systemach CMS, a konkretnie wtyczki i dodatki są w stanie też samodzielnie go edytować dostosowując do swoich potrzeb.

Ja wygląda struktura pliku robots.txt

W zależności od tego, jaką strukturę ma nasza strona plik robots.txt będzie wyglądać nieco inaczej. Tak by ograniczać dostęp robotom (crawler’om) do bardziej wrażliwych plików (których nie powinny indeksować) i jednocześnie wskazywać im te, którymi powinny się zainteresować.

Polecenia jakie stosujemy w tym pliku to np.:

Cała strona będzie indeksowana przez roboty:

User-agent: *
Allow: /

Zezwalamy na dostęp do pliku, wraz z ścieżką dostępu:

User-agent: *
Allow: /folder-który-ukrywamy/pojedynczy-plik-ktory-pokazujemy.html

Cała strona WWW nie będzie indeksowana:

User-agent: *
Disallow: /

Zabraniamy indeksacji katalogów img oraz files

User-agent: *
Disallow: /img/
Disallow: /files/

Teraz pokażę wam jak wygląda przykładowy bardzo prosty plik robots.txt przewidziany dla czystej instalacji CMS WordPress.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

To czy automat / robot będzie przestrzegał tego co jest napisane w tym pliku to już inna bajka.

Blokowanie robotom (crawler) dostępu do naszej witryny

Aktualnie w Internecie jest wiele różnych robotów zaczytujących zawartość z różnych stron internetowych. Część z nich jak np. robot Google, Yahoo; jest pożądanym gościem jednak nie jest tak z wszystkimi. Istnieją jednak roboty, które nie przynoszą nam korzyści, a wręcz mogą nam zaszkodzić poprzez niektóre swoje działania.

W ograniczeniu ich aktywności może nam również pomóc robots.txt. Poniżej umieściłam kod jak zablokować dostęp do strony kilku automatom, których działania mogą np. spowolnić działanie naszego serwisu.

User-agent: MJ12bot
Disallow: /

# https://megaindex.com/crawler
User-agent: MegaIndex.ru
Disallow: /

User-agent: megaindex.com
Disallow: /

# http://filterdb.iss.net/crawler/
User-agent: oBot
Disallow: /

Jak sprawdzić, czy strona posiada plik robots.txt

Jest to bardzo proste wystarczy po adresie strony wpisać nazwę pliku np.

http://www.aurainweb.pl/robots.txt

W przypadku gdy strona posiada ten plik zostanie on wyświetlony.

Co jeszcze można w nim umieścić

W pliku tym można również umieścić informację, o tym że strona posiada sitemap (mapę strony). Umieszczoną w pliku sitemap.xml jest to kolejny plik tworzony specjalnie z myślą o wyszukiwarce. Informacja o niej wygląda przykładowo tak:

Sitemap: http://www.aurainweb.pl/sitemap.xml