Robots Exclusion ProtocolRobots Exclusion Protocol (REP) – mechanizm informowania automatów o tym, czego nie powinny robić na stronie WWW[1]. Dotyczy to przede wszystkim działających automatycznie programów indeksujących serwisy WWW dla wyszukiwarek, które podążając za hiperłączami, indeksują całą zawartość danego serwisu do katalogu wyszukiwarki, ale również programów innego typu, np. automatycznych mirrorów[2]. Protokół REP nigdy nie stał się oficjalnym standardem i jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. System ten jest generalnie przestrzegany, gdyż w niczyim interesie nie leży łamanie jego zasad[2]. Wstępną wersję standardu opracował w 1994 roku Martijn Koster (również webmaster), gdy roboty indeksujące przeciążały jego witrynę[2]. Od momentu utworzenia protokół REP nie był aktualizowany pod kątem dzisiejszych sytuacji granicznych[2]. Powody stosowania
MechanizmyIstnieją dwa mechanizmy Robots Exclusion Protocol: robots.txt[1] i znaczniki meta. robots.txtNajważniejszym mechanizmem jest plik robots.txt umieszczony w katalogu głównym serwera. Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:
Opis pól[3]:
Niektóre boty rozumieją też inne pola, np. ograniczające liczbę pobrań ze strony na minutę. PrzykładyCała witryna będzie indeksowana przez roboty (tak jakby nie było pliku robots.txt): User-agent: * Disallow: Cała witryna nie będzie indeksowana: User-agent: * Disallow: / Indeksowane nie będą tylko foldery „images” i „private” w katalogu głównym strony: User-agent: * Disallow: /images/ Disallow: /private/ Indeksowany nie będzie tylko plik „file.html” w katalogu „directory”: User-agent: * Disallow: /directory/file.html Znaczniki metaJest też możliwe podawanie dyrektyw dla robotów w znacznikach HTML:
X może być złożone z jednego, dwóch lub trzech powyższych słów rozdzielonych przecinkiem (np. Znaczniki meta wymagają analizy HTML-a, więc są używane o wiele rzadziej niż robots.txt Przypisy
|