Plik robots.txt tworzony jest z myślą o robotach wyszukiwarek internetowych (np. Google, Yahoo, Bing ). Zgodnie z przyjmowanymi zasadami jest to jeden z pierwszych plików odczytywanych przez nie, co czyni go bardzo istotnym.
Czy posiada go każda strona internetowa? NIE. Bardzo często jest on budowany na potrzeby konkretnej strony. Chociaż w przypadku systemów CMS takich jak WordPress może on być już dostępny. W niektórych przypadkach w systemach CMS wtyczki i dodatki czasami same edytują strukturę tego pliku. Takim systemem CMS jest np. wymieniony wcześniej WordPress.
Co znajdziesz w tym wpisie
Ja wygląda struktura pliku robots.txt
W zależności od tego jaką strukturę ma nasza strona plik robots.txt może wyglądać inaczej. Powodem różnic będzie oczywiście struktura witryny dla, której dodajemy go. Polecenia jakie stosujemy w tym pliku to:
Disallow: /folder-który-ukrywamy/ Disallow: /plik-ktorego-niechcemy-pokazac.html Allow: /folder-który-ukrywamy/pojedynczy-plik-ktory-pokazujemy.html
Plik może składać się również z:
Disallow: / <- blokuje wszystko
Disallow: <- samo bez parametru daje dostęp do wszystkich plików
Jak widać jego budowa choć analogiczna w zależności od tego jak zbudowana jest strona może się bardzo różnić.
Do czego służy plik robots.txt
Jak pisałam wcześniej jest on czytany przez robota. Oznacza, że powinien on zawierać dla niego istotne informacje a mianowicie informację o tym gdzie pozwolimy mu zajrzeć. Dzięki temu plikowi możemy ograniczyć dostęp robota wyszukiwarki np. do folderu umieszczonego na stronie. A poco to? O tuż robot wyszukiwarki w przeciwieństwie do normalnego użytkownika czyta kod strony (przeprowadza proces cralwlowana) i odwiedza wszystkie linki, które w nim napotka. Przykładowo może wejść do skryptów JavaScript (pluginów) i je za indeksować tak jak by były normalnymi stronami. Co niekoniecznie musi nam odpowiadać.
Przykładowa zawartość pliku:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Blokowanie robotom dostępu do naszej witryny
Aktualnie w Internecie jest wiele różnych robotów z czytujących ( cralwlowanie) zawartość naszej strony. Część z nich jak np. robot Google jest wręcz pożądany by odwiedził naszą stronę są jednak też takie, których nie koniecznie chcemy np.
User-agent: MJ12bot Disallow: / # https://megaindex.com/crawler User-agent: MegaIndex.ru Disallow: / User-agent: megaindex.com Disallow: / # http://filterdb.iss.net/crawler/ User-agent: oBot Disallow: /
Roboty te często nie przynoszą nam żadnych korzyści a mogą spowodować np. spowolnienie serwisu.
Jak sprawdzić czy strona posiada plik robot.txt
Jest to bardzo proste wystarczy po adresie strony wpisać nazwę pliku np.
https://www.aurainweb.pl/robot.txt
Jeżeli strona posiada ten plik zostanie on wyświetlony.
Co jeszcze można w nim umieścić
W pliku tym można również umieścić informację, o tym że strona posiada sitemap (mapę strony). Umieszczoną w pliku sitemap.xml jest to kolejny plik tworzony specjalnie z myślą o wyszukiwarce. Informacja o niej wygląda przykładowo tak:
Sitemap: https://www.aurainweb.pl/sitemap.xml