18 sierpnia 2016

Plik robots.txt

Wadą omawianego wcześniej metatagu robots jest fakt, że należy go indywidualnie umieścić na każdej podstronie, którą chcemy spod indeksacji wyłączyć. To dosyć niewygodne i utrudniające, gdyż zmusza do edytowania konkretnych plików, często jeden po drugim.

Opracowano, więc lepszy i wygodniejszy – zarówno dla webmasterów jak i wyszukiwarek – mechanizm. Jest nim plik robots.txt. Plik taki można utworzyć w najprostszym edytorze tekstowym lub korzystając z menagerów FTP poprzez www korzystając z formularzy do tworzenia nowych plików. Plik należy umiejscowić w głównym katalogu domeny. Jak można przeczytać w pomocy dla webmasterów opracowanej przez Google w przypadku, gdy chcemy by cały serwis podlegał indeksacji – plik robots.txtjest zbędny.

Najprostszy kod przedstawia się tak:

User-agent: *
Disallow: /

Jak widzimy zapis mieści się w dwóch linijkach. Pierwsza z nich odnosi się do tego, których wyszukiwarek i ich robotów wpis dotyczy. Po dwukropku został użyty symbol gwiazdki, czyli globalny. Dzięki temu mówimy, że wpis określony linijkę niżej dotyczy WSZYSTKICH robotów.

Druga linijka Disallow oznacza wyłączenie z indeksacji. Sam slash oznacza, że cała zawartość domeny ma podlegać dyrektywie wyłączenia. Gdy druga linijka wyglądała by tak jak poniżej, cały serwis byłby indeksowany.

Disallow:

Jeśli chcemy wyłączyć tylko dany katalog, możemy wpisać po slashu jego nazwę. Pisząc tak:

]User-agent: *
Disallow: /katalog/

Jeśli chcemy zablokować dostęp do kilku katalogów czy plików jednocześnie, nie musi powielać pierwszej linijki. Wystawczy powielać drugą oraz modyfikować nazwę pliku lub katalogu, wpis wtedy będzie wyglądał następująco:

]User-agent: *
Disallow: /katalog/
Disallow: /zdjecia/
Disallow: /plik.html

Odwrotną dyrektywą, która wskazuje robotom sieciowym by indeksowały pliki serwisu jest dyrektywaALLOW.

Można także łączyć kilka takich wpisów, na przykład wstawiając w niektórych nazwy robotów sieciowych, które można znaleźć na przykład na tej stronie: http://www.robotstxt.org/db.html. Możemy stworzyć wpis, który zablokuje indeksowanie wyszukiwarce Google zawartości katalogu sklep/ za to pozwoli na to jakiejś innej. Pomiędzy kolejnymi wpisami należy wstawić jedną wolną linijkę, co umożliwia robotom rozpoznawanie kolejnych wpisów.

User-agent: *
Allow: /

User-agent: GoogleBot
Disallow: /sklep/

Generowanie robots.txt

Specjalne narzędzie dostarczane przez wyszukiwarkę Google pozwala sprawdzać aktualny dokument robots.txt – o ile istnieje – ale także generować nowy zupełnie od postaw.

Korzystając z menu nawigacyjnego:

Generator pliku robots.txt

Należy wybrać konfigurację witryny, po czym Dostęp robotów. Wyświetli nam się odpowiednia podstrona, na której dzięki zakładkom należy wybrać „Generowanie pliku robots.txt”.

Punkt pierwszy formularza generującego pozwala nam ustalić sposób dostępności: Zablokowanie lub zezwolenie robotom wyszukiwarek. Ta deklaracja zostanie dodana na samym początku, odnosząc się do wszystkich robotów.

Następnie możemy opcjonalnie dodać dodatkowe dyrektywy blokujące dostęp wybranym z listy botom, te dyrektywy zostaną dodane poniżej dyrektywy globalnego zezwolenia/zabronienia.

Po wypełnieniu pól opcjonalnych (wpis po wpisie, należy klikać specjalny button) możemy już wygenerować plik robots.txt.

Wygenerowany plik należy zapisać na dysku lokalnym i przenieść na serwer swojego serwsu przy pomocy klienta FTP.

O tym, jak szybko i sprawnie wygenerować plik Robots.txt, dzięki narzędziu dostarczonym przez wyszukiwarkę Google, przeczytasz w następnym podrozdziale.