Jak zablokować stronę, plik lub katalog przed dodaniem do wyników wyszukiwania?

Nie zawsze chcemy by wszystkie pliki lub podstrony umieszczone na serwerze zostały zauważone przez roboty wyszukiwarki. Powodów takiej sytuacji może być kilka.

Spis treści

Jakie pliki i dane nie powinny znaleźć się w wynikach wyszukiwania?

Na serwerze często mamy pliki, które nie koniecznie powinny być przeglądane przez kogokolwiek innego poza nami. W wynikach wyszukiwanie nie powinny się znaleźć pliki zawierające „delikatne dane” takie jak np.

dane niezbędne do połączenia z bazą danych
pliki stron widocznych dopiero po zalogowaniu
lub nie chcemy by robot wyszukiwarki zaindeksował jedną z podstron np.
- stronę z logowaniem do CMS

Jeśli te dane zostaną zaciągnięte do bazy przez roboty przeglądarek może mieć to dla nas różne skutki. Z których chyba najłagodniejszym jest to, że dziwne programy przeglądają sobie zawartość całego naszego serwera. A to tylko wstęp do włamania przez hakera. Bo kiedy wszystkie nasze pliki są publiczne jesteśmy łatwym celem.

W jaki sposób można ograniczyć dostęp wyszukiwarkom do plików, treści?

W praktyce istnieje kilka metod kontrolowania treści. Sam wybór zaś jest zależny od tego co chcemy osiągnąć, czyli czy chcemy zakazać gdzieś dostępu lub może przenieść zainteresowane w inne miejsce:

dla katalogów lub pojedynczych plików odpowiednia dyrektywa w pliku robots.txt
a dla linków wychodzących lub niekiedy w obrębie naszego serwisu parametr nofollow
w celu wyeliminowania duplikatów treści – pomoże nam w tym meta tag (canonical, nofollow)

No dobrze, ale jak skorzystać z tych metod? Bez obawy poniżej znajdziecie nieco więcej na ten temat.

Zabezpieczenie folderu i pojedynczych plików z robots.txt

Dzięki temu plikowi możemy ograniczyć dostęp robota wyszukiwarki np. do folderu umieszczonego na naszym hostingu. A po co to? O tuż robot wyszukiwarki w przeciwieństwie do normalnego użytkownika czyta kod strony i odwiedza wszystkie linki, które w nim napotka. Przykładowo może wejść do szablonu strony i zaindeksować niektóre jego pliki tak jak by były normalnymi stronami. Co niekoniecznie musi nam odpowiadać.

Przykładowy plik wygląda tak

User-agent: * 
Disallow: /folder-który-ukrywamy/
Disallow: /plik-ktorego-niechcemy-pokazac.html
Allow: /folder-który-ukrywamy/pojedynczy-plik-ktory-pokazujemy.html

Dla WordPress plik taki może wyglądać więc tak:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/

Powyższy kod blokuje dostęp jedynie do katalogów (oraz ich zawartości) np.

katalog wp-admin i do jego całej zawartości czyli wszystkich plików wewnątrz niego
katalogi plugins i uploads w katalogu wp-content

Link kanoniczny – canonical (w nagłówku strony)

Canonical jest meta tagiem, który umieszczamy razem z innymi tagami. O tym tagu z pewnością można by dużo pisać dziś jednak ograniczę się do minimum. Głównym zadaniem tego tagu jest informowanie robotów wyszukiwarek, który adres URL jest właściwy. Brzmi dziwnie? Nie przejmujcie się jak pierwszy raz o nim usłyszałam też poczułam się zagubiona. W praktyce chodzi o to, że jeśli mamy dwie identyczne strony / podstrony to Google może uznać jedną z nich za duplikat.

budowa linka cannonical — przykładowy tag canonical w kodzie strony

Coś takiego często ma miejsce np. w sklepach internetowych kiedy różne warianty produktu mają ten sam opis lub w gdy tekst powtarza się w kategoriach produktów. W tedy z pomocą tego tagu zostaje wskazane, który adres jest „oryginalny / właściwy”. Tag ten oczywiście umieszczamy we wszystkich wariantach -> musi jednak we wszystkich wskazywać tylko na 1 konkretny adres. W wielu sklepach internetowych np. tych opartych o Shoper opcja ta domyślnie jest wyłączona (każda podstrona ma inny adres w linku canonical ) dla kategorii i ją włączyć ręcznie.

<link rel="canonical" href="https://example.com/wordpress/seo-plugin/" />

Dzięki temu tylko ten jeden adres URL będzie brany pod uwagę przez robota wyszukiwarki. W efekcie tylko strona, na którą wskazuje canonical będzie dodana do wyników wyszukiwania. Od tej reguły są wyjątki.

Co zrobić by robot nie indeksował konkretnej podstrony?

Do tego celu wykorzystywany zostać może poniższy meta tag:

<META NAME="ROBOTS" CONTENT="NOINDEX">

Informuje on robota wyszukiwarek by nie dodawały do indeksu strony lub podstrony, na której znajduje się ten tag.

Trochę inaczej działa już z kolei ten tag:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

W przeciwieństwie do poprzednika nie blokuje on możliwości dodania strony do wyszukiwarki. Jednak blokowane są wszystkie linki zamieszczone na stronie. Z punktu widzenia robota to tak jak by nie było z tej strony nigdzie przejścia.

Ustawienia te można ze sobą łączyć.

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Daje to efekt, w którym robot nie może zindeksować strony i podstron do, których linki zamieszczone są na stronie. Oczywiście jeśli znajdzie inną drogę do podstron to je zindeksuje – nie może jednak tego zrobić ze strony z takim tagiem.

Inną ciekawą opcją jest „noarchive”.

<META NAME="ROBOTS" CONTENT="noarchive">

Tym razem jednak blokujemy możliwość tworzenia kopi naszej strony w archiwum – przeglądarki.

Deklaracja znacznika META

Znacznik meta może mieć również takie wartości:

index – indeksowanie wszystkiego
noindex – brak indeksacji
follow – indeksowanie stron, do których można dotrzeć przez linki
nofollow – brak indeksacji stron, do których linki znajdują się na danej witrynie
none – odpowiednik noindex, nofollow
all – odpowiednik index, follow

Blokowanie samych linków

Jeżeli nie chcemy blokować przed robotem wszystkich linków na naszej stronie. Możemy skorzystać z:

<a href="#" rel="nofollow">link</a>

Dzięki temu Google i inne wyszukiwarki nie będą kojarzyły naszej strony z konkretnym linkiem.

Podsumowanie

Powyższe ustawienia stosowane są głównie przy pozycjonowaniu stron internetowych. Wykorzystuje się je do poprawy pozycji strony poprzez blokowanie np. duplikatów, przenoszenie części „mocy strony” na zewnętrzne (linki do zewnętrznych stron).

Rozwiązania te przydadzą się jednak również w sytuacji kiedy sami budujemy stronę! Nie chcemy przecież by wszystko co umieścimy na serwerze (np. plik z dostępem do bazy danych) zostało dodane do indeksu Google czy Yahoo. Nie ograniczając dostępu sami się prosimy o problemy. Dlatego warto znać powyższe rozwiązania.

źródła: