przeglądarki internetowe

Do czego służy plik robots.txt? I czy muszę go mieć!

Czas czytania: 2 minut

Plik robots.txt tworzony jest z myślą o robotach wyszukiwarek internetowych (np. Google, Yahoo, Bing ).  Zgodnie z przyjmowanymi zasadami jest to jeden z pierwszych plików odczytywanych przez nie, co czyni  go bardzo istotnym.

Czy posiada go każda strona internetowa? NIE. Bardzo często jest on budowany na potrzeby konkretnej strony. Chociaż w przypadku systemów CMS takich jak WordPress może on być już dostępny. W niektórych przypadkach w systemach CMS wtyczki i dodatki czasami same edytują strukturę tego pliku. Takim systemem CMS jest np. wymieniony wcześniej WordPress.

Ja wygląda struktura pliku robots.txt

W zależności od tego jaką strukturę ma nasza strona plik robots.txt może wyglądać inaczej. Powodem różnic będzie oczywiście struktura witryny dla, której dodajemy go. Polecenia jakie stosujemy w tym pliku to:

Disallow: /folder-który-ukrywamy/
Disallow: /plik-ktorego-niechcemy-pokazac.html
Allow: /folder-który-ukrywamy/pojedynczy-plik-ktory-pokazujemy.html

Plik może składać się również z:

Disallow: / <- blokuje wszystko
Disallow: <- samo bez parametru daje dostęp do wszystkich plików

Jak widać jego budowa choć analogiczna w zależności od tego jak zbudowana jest strona może się bardzo różnić.

Do czego służy plik robots.txt

Jak pisałam wcześniej jest on czytany przez robota. Oznacza, że powinien on zawierać dla niego istotne informacje a mianowicie informację o tym gdzie pozwolimy mu zajrzeć. Dzięki temu plikowi możemy ograniczyć dostęp robota wyszukiwarki np. do folderu umieszczonego na stronie. A poco to? O tuż robot wyszukiwarki w przeciwieństwie do normalnego użytkownika czyta kod strony (przeprowadza proces cralwlowana) i odwiedza wszystkie linki, które w nim napotka. Przykładowo może wejść do skryptów JavaScript (pluginów) i je za indeksować tak jak by były normalnymi stronami. Co niekoniecznie musi nam odpowiadać.

Przykładowa zawartość pliku:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Blokowanie robotom dostępu do naszej witryny

Aktualnie w Internecie jest wiele różnych robotów z czytujących ( cralwlowanie) zawartość naszej strony. Część z nich jak np. robot Google jest wręcz pożądany by odwiedził naszą stronę są jednak też takie, których nie koniecznie chcemy np.

User-agent: MJ12bot
Disallow: /

# https://megaindex.com/crawler
User-agent: MegaIndex.ru
Disallow: /

User-agent: megaindex.com
Disallow: /

# http://filterdb.iss.net/crawler/
User-agent: oBot
Disallow: /

Roboty te często nie przynoszą nam żadnych korzyści a mogą spowodować np. spowolnienie serwisu.

Jak sprawdzić czy strona posiada plik robot.txt

Jest to bardzo proste wystarczy po adresie strony wpisać nazwę pliku np.

https://www.aurainweb.pl/robot.txt

Jeżeli strona posiada ten plik zostanie on wyświetlony.

Co jeszcze można w nim umieścić

W pliku tym można również umieścić informację, o tym że strona posiada sitemap (mapę strony). Umieszczoną w pliku sitemap.xml jest to kolejny plik tworzony specjalnie z myślą o wyszukiwarce. Informacja o niej wygląda przykładowo tak:

Sitemap: https://www.aurainweb.pl/sitemap.xml