Do czego służy plik robots.txt? I czy muszę go mieć!
Plik robots.txt tworzony jest głównie z myślą o automatach (botach, crawler takich jak np. roboty Google, Yahoo, Bing) w celach informowania ich czego nie należy robić na stronie. A tak prościej jakie elementy (pliki i katalogi) witryny mogą zostać lub nie mogą dodane do wyników wyszukiwania.
Plik ten należy do mechanizmu „Robots Exclusion Protocol” roboty będą więc odczytywały go w pierwszej kolejności.
Co znajdziesz w tym wpisie
Czy każda witryna internetowa ma plik robots.txt?
Odpowiedz brzmi NIE. Chociaż tak naprawdę powinna. Systemy CMS czasem posiadają już ten plik w pakiecie instalacyjnym. Jednak bardzo często plik ten musimy utworzyć samodzielnie (lub z pomocą twórcy strony) – uwzględniając strukturę konkretnej witryny.
Warto również pamiętać, że niektórych przypadkach w systemach CMS, a konkretnie wtyczki i dodatki są w stanie też samodzielnie go edytować dostosowując do swoich potrzeb.
Ja wygląda struktura pliku robots.txt
W zależności od tego, jaką strukturę ma nasza strona plik robots.txt będzie wyglądać nieco inaczej. Tak by ograniczać dostęp robotom (crawler’om) do bardziej wrażliwych plików (których nie powinny indeksować) i jednocześnie wskazywać im te, którymi powinny się zainteresować.
Polecenia jakie stosujemy w tym pliku to np.:
Cała strona będzie indeksowana przez roboty:
User-agent: *
Allow: /
Zezwalamy na dostęp do pliku, wraz z ścieżką dostępu:
User-agent: *
Allow: /folder-który-ukrywamy/pojedynczy-plik-ktory-pokazujemy.html
Cała strona WWW nie będzie indeksowana:
User-agent: *
Disallow: /
Zabraniamy indeksacji katalogów img oraz files
User-agent: *
Disallow: /img/
Disallow: /files/
Teraz pokażę wam jak wygląda przykładowy bardzo prosty plik robots.txt przewidziany dla czystej instalacji CMS WordPress.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
To czy automat / robot będzie przestrzegał tego co jest napisane w tym pliku to już inna bajka.
Blokowanie robotom (crawler) dostępu do naszej witryny
Aktualnie w Internecie jest wiele różnych robotów zaczytujących zawartość z różnych stron internetowych. Część z nich jak np. robot Google, Yahoo; jest pożądanym gościem jednak nie jest tak z wszystkimi. Istnieją jednak roboty, które nie przynoszą nam korzyści, a wręcz mogą nam zaszkodzić poprzez niektóre swoje działania.
W ograniczeniu ich aktywności może nam również pomóc robots.txt. Poniżej umieściłam kod jak zablokować dostęp do strony kilku automatom, których działania mogą np. spowolnić działanie naszego serwisu.
User-agent: MJ12bot
Disallow: /
# https://megaindex.com/crawler
User-agent: MegaIndex.ru
Disallow: /
User-agent: megaindex.com
Disallow: /
# http://filterdb.iss.net/crawler/
User-agent: oBot
Disallow: /
Jak sprawdzić, czy strona posiada plik robots.txt
Jest to bardzo proste wystarczy po adresie strony wpisać nazwę pliku np.
http://www.aurainweb.pl/robots.txt
W przypadku gdy strona posiada ten plik zostanie on wyświetlony.
Co jeszcze można w nim umieścić
W pliku tym można również umieścić informację, o tym że strona posiada sitemap (mapę strony). Umieszczoną w pliku sitemap.xml jest to kolejny plik tworzony specjalnie z myślą o wyszukiwarce. Informacja o niej wygląda przykładowo tak:
Sitemap: https://www.aurainweb.pl/sitemap.xml