Robot internetowy

Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie^[1]. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej:

badają zawartość witryny,
sprawdzają kod strony,
zbierają dodatkowe informacje o stronie,
monitorują aktualizacje,
tworzą mirrory stron.

W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących „Google's fresh crawl” i „Google's deep crawl” lub „Google's main crawl”. „Fresh crawl” jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, „deep crawl” głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu^[2].

Nazwy używane wymiennie

bot indeksujący
pająk, spider
pełzacz, web crawler
web wanderer — od pierwszego robota indeksującego hipertekst: www wanderera

Blokada dostępu dla robota internetowego

Administrator strony internetowej może zablokować dostęp robotom indeksującym. Wówczas adres URL nie zostanie zeskanowany, co oznacza, że nie będzie widoczny w indeksie oraz wynikach wyszukiwania wyszukiwarki, takiej jak Google. Blokada dostępu dla robota odbywa się poprzez konfigurację pliku robots.txt^[3].

Przypisy

Linki zewnętrzne

The Web Robots FAQ (ang.)
Robots Exclusion Opis zasad sterowania robotem na własnej stronie (ang.)
The Web Robots Database Lista aktywnych działających robotów sieciowych (ang.)

[1]

[2]

[3]

Search

Robot internetowy

Spis treści

Nazwy używane wymiennie

Blokada dostępu dla robota internetowego

Przypisy

Linki zewnętrzne