...

Crawler

Čo je crawler?

Crawler je internetový program navrhnutý na systematické prehľadávanie internetu. Crawlery sa najčastejšie používajú ako prostriedok pre vyhľadávače na objavovanie a spracovanie stránok pre indexovanie a zobrazovanie ich vo výsledkoch vyhľadávania. Okrem crawlerov, ktoré spracovávajú HTML, sa niektoré špeciálne crawly používajú aj na indexovanie obrázkov a videí. V reálnom svete sú hlavnými webovými crawlermi tie ktoré používajú najlepšie vyhľadávače sveta: Googlebot, Bingbot, Yandex Bot a Baidu Spider.

Ako rozoznať dobrý a zlý crawler? Dobrý crawler je ako bot, ktorý môže pomôcť vašej webovej stránke, hlavne tým, že pridá váš obsah do vyhľadávacieho indexu alebo vám pomôže auditovať vašu webovú stránku. Ďalšie znaky dobrého crawlera sú, že sa identifikuje, nasleduje vaše pokyny a prispôsobuje svoju rýchlosť prehliadania, aby sa zabránilo preťaženiu vášho servera.

Zlý crawler je bot, ktorý neposkytuje žiadnu hodnotu majiteľovi webovej stránky a môže mať zákerný zámer. Nastavenia webu v súbore robots.txt komunikujú, či chcú, aby sa stránky prehliadali a indexovali. Napriek tomu zlý crawler môže zámerne zlyhať pri identifikácii, obísť vaše pokyny, vytvoriť zbytočné zaťaženie na serveroch a dokonca realizovať krádež obsahu a údajov.

Typy crawlerov
Existujú dva hlavné typy crawlerov:

Crawleri s konštantným prehliadaním vykonávajú prehliadku 24/7 na objavenie nových stránok a prehliadanie starších (napríklad Googlebot).
Na požiadanie budú crawleri prehliadať obmedzený počet stránok a prehliadku vykonajú iba na požiadanie (napríklad bot ScreamingFrog).