Robot internetowy

(Przekierowano z WebCrawler)

Robot internetowy, robot indeksującyprogram zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie[1]. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej:

  • badają zawartość witryny,
  • sprawdzają kod strony,
  • zbierają dodatkowe informacje o stronie,
  • monitorują aktualizacje,
  • tworzą mirrory stron.

W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących „Google's fresh crawl” i „Google's deep crawl” lub „Google's main crawl”. „Fresh crawl” jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, „deep crawl” głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu[2].

Nazwy używane wymiennie

  • bot indeksujący
  • pająk, spider
  • pełzacz, web crawler
  • web wanderer — od pierwszego robota indeksującego hipertekst: www wanderera

Blokada dostępu dla robota internetowego

Administrator strony internetowej może zablokować dostęp robotom indeksującym. Wówczas adres URL nie zostanie zeskanowany, co oznacza, że nie będzie widoczny w indeksie oraz wynikach wyszukiwania wyszukiwarki, takiej jak Google. Blokada dostępu dla robota odbywa się poprzez konfigurację pliku robots.txt[3].

Przypisy

Linki zewnętrzne