Indeksowanie stron

Plik robots.txt

Wadą omawianego wcześniej metatagu robots jest fakt, że należy go indywidualnie umieścić na każdej podstronie, którą chcemy spod indeksacji wyłączyć. To dosyć niewygodne i utrudniające, gdyż zmusza do edytowania konkretnych plików, często jeden po drugim.

Opracowano, więc lepszy i wygodniejszy - zarówno dla webmasterów jak i wyszukiwarek – mechanizm. Jest nim plik robots.txt. Plik taki można utworzyć w najprostszym edytorze tekstowym lub korzystając z menagerów FTP poprzez www korzystając z formularzy do tworzenia nowych plików. Plik należy umiejscowić w głównym katalogu domeny. Jak można przeczytać w pomocy dla webmasterów opracowanej przez Google w przypadku, gdy chcemy by cały serwis podlegał indeksacji – plik robots.txt jest zbędny.

Najprostszy kod przedstawia się tak:

User-agent: *
Disallow: /

Jak widzimy zapis mieści się w dwóch linijkach. Pierwsza z nich odnosi się do tego, których wyszukiwarek i ich robotów wpis dotyczy. Po dwukropku został użyty symbol gwiazdki, czyli globalny. Dzięki temu mówimy, że wpis określony linijkę niżej dotyczy WSZYSTKICH robotów.

Druga linijka Disallow oznacza wyłączenie z indeksacji. Sam slash oznacza, że cała zawartość domeny ma podlegać dyrektywie wyłączenia. Gdy druga linijka wyglądała by tak jak poniżej, cały serwis byłby indeksowany.

Disallow: 

Jeśli chcemy wyłączyć tylko dany katalog, możemy wpisać po slashu jego nazwę. Pisząc tak:

]User-agent: *
Disallow: /katalog/

Jeśli chcemy zablokować dostęp do kilku katalogów czy plików jednocześnie, nie musi powielać pierwszej linijki. Wystawczy powielać drugą oraz modyfikować nazwę pliku lub katalogu, wpis wtedy będzie wyglądał następująco:

]User-agent: *
Disallow: /katalog/
Disallow: /zdjecia/
Disallow: /plik.html

Odwrotną dyrektywą, która wskazuje robotom sieciowym by indeksowały pliki serwisu jest dyrektywa ALLOW.

Można także łączyć kilka takich wpisów, na przykład wstawiając w niektórych nazwy robotów sieciowych, które można znaleźć na przykład na tej stronie: http://www.robotstxt.org/db.html. Możemy stworzyć wpis, który zablokuje indeksowanie wyszukiwarce Google zawartości katalogu sklep/ za to pozwoli na to jakiejś innej. Pomiędzy kolejnymi wpisami należy wstawić jedną wolną linijkę, co umożliwia robotom rozpoznawanie kolejnych wpisów.

User-agent: *
Allow: /

User-agent: GoogleBot
Disallow: /sklep/

Poleć artykuł znajomym

Śledź nowości w serwisie