Indeksowanie stron
Plik robots.txt
Wadą omawianego wcześniej metatagu robots jest fakt, że należy go indywidualnie umieścić na każdej podstronie, którą chcemy spod indeksacji wyłączyć. To dosyć niewygodne i utrudniające, gdyż zmusza do edytowania konkretnych plików, często jeden po drugim.
Opracowano, więc lepszy i wygodniejszy - zarówno dla webmasterów jak i wyszukiwarek – mechanizm. Jest nim plik robots.txt. Plik taki można utworzyć w najprostszym edytorze tekstowym lub korzystając z menagerów FTP poprzez www korzystając z formularzy do tworzenia nowych plików. Plik należy umiejscowić w głównym katalogu domeny. Jak można przeczytać w pomocy dla webmasterów opracowanej przez Google w przypadku, gdy chcemy by cały serwis podlegał indeksacji – plik robots.txt jest zbędny.
Najprostszy kod przedstawia się tak:
User-agent: * Disallow: /
Jak widzimy zapis mieści się w dwóch linijkach. Pierwsza z nich odnosi się do tego, których wyszukiwarek i ich robotów wpis dotyczy. Po dwukropku został użyty symbol gwiazdki, czyli globalny. Dzięki temu mówimy, że wpis określony linijkę niżej dotyczy WSZYSTKICH robotów.
Druga linijka Disallow oznacza wyłączenie z indeksacji. Sam slash oznacza, że cała zawartość domeny ma podlegać dyrektywie wyłączenia. Gdy druga linijka wyglądała by tak jak poniżej, cały serwis byłby indeksowany.
Disallow:
Jeśli chcemy wyłączyć tylko dany katalog, możemy wpisać po slashu jego nazwę. Pisząc tak:
]User-agent: * Disallow: /katalog/
Jeśli chcemy zablokować dostęp do kilku katalogów czy plików jednocześnie, nie musi powielać pierwszej linijki. Wystawczy powielać drugą oraz modyfikować nazwę pliku lub katalogu, wpis wtedy będzie wyglądał następująco:
]User-agent: * Disallow: /katalog/ Disallow: /zdjecia/ Disallow: /plik.html
Odwrotną dyrektywą, która wskazuje robotom sieciowym by indeksowały pliki serwisu jest dyrektywa ALLOW.
Można także łączyć kilka takich wpisów, na przykład wstawiając w niektórych nazwy robotów sieciowych, które można znaleźć na przykład na tej stronie: http://www.robotstxt.org/db.html. Możemy stworzyć wpis, który zablokuje indeksowanie wyszukiwarce Google zawartości katalogu sklep/ za to pozwoli na to jakiejś innej. Pomiędzy kolejnymi wpisami należy wstawić jedną wolną linijkę, co umożliwia robotom rozpoznawanie kolejnych wpisów.
User-agent: * Allow: / User-agent: GoogleBot Disallow: /sklep/

