robots.txt
Plik robots.txt umieszczany w głównym katalogu serwisu WWW umożliwia zdefiniowanie części serwisu, kt
óre nie powinny być odwiedzane przez programy wyszukiwarek indeksujących zasoby sieci Internet.
Zawartość pliku robots.txt może przedstawiać się następująco:
User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
Zdefiniowany w ten sposób plik informuje wszystkie programy wyszukiwarek, że katalogi cgi-bin oraz private nie powinny być indeksowane.
Przykłady definicji plików robots.txt:
- wykluczenie całego serwisu z indeksacji przez wszyskie programy wyszukiwarek:
User-agent: *
Disallow: /
- wykluczenie części serwisu z indeksacji przez wszyskie programy wyszukiwarek:
User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
- wykluczenie całego serwisu z indeksacji przez jeden program wyszukiwarki:
User-agent: WebCrawler
Disallow: /
Aby umożliwić wszystkim programom wyszukiwarek indeksację całego serwisu można postąpić następ
ująco:
- zdefiniować pusty plik robots.txt,
- zdefiniować plik robots.txt następująco:
User-agent: *
Disallow:
Alternatywa
W przypadku braku możliwości utworzenia pliku robots.txt wynikającego np. z charakterystyki posiadane
go konta, analogincze możliwości sterowania programami wyszukiwarek daje odpowiednie zastosowanie znaczników META.
|