Robots.txt

Čo je Robots.txt

Súbor robots.txt definuje webové crawler-y, ako sú samotné boty vyhľadávačov, ako by mali pristupovať k určitým URL adriesám na webovej stránke. Taktiež ho možno použiť na prispôsobenie rýchlosti crawlingu pre niektoré webové crawler-y. Všetky „dobré“ webové crawler-y sa riadia pravidlami stanovenými v súbore robots.txt. Avšak existujú „zlé“ nezaregistrované crawly, ktoré sa často využívajú na scrapovanie, a úplne ignorujú súbor robots.txt. Súbor robots.txt by sa mal používať na zmiernenie/optimalizáciu prevádzky crawler-a na webovej stránke a nemal by sa používať na kontrolu indexovania webových stránok. Aj keď je adresa URL zakázaná v súbore robots.txt, môže byť stále indexovaná spoločnosťou Google, ak je objavená prostredníctvom externého odkazu.

Syntax súboru robots.txt obsahuje nasledujúce polia:

user-agent: názov crawlera, na ktorého sa pravidlá vzťahujú
disallow: cesta, ktorá nesmie byť prehliadaná
allow: cesta, ktorá môže byť prehliadaná (voliteľné)
sitemap: umiestnenie súboru sitemap (voliteľné)
crawl-delay: riadi rýchlosť crawlingu (voliteľné a nie je podporované GoogleBot-om)

Prečo je súbor robots.txt dôležitý?
Súbor robots.txt je dôležitý, pretože umožňuje správcom webových stránok kontrolovať správanie crawler-ov na svojich webových stránkach, optimalizovať rozpoznávacie prostriedky a obmedzovať crawling častí webových stránok, ktoré nie sú určené pre verejný prístup. Mnoho majiteľov webových stránok sa rozhoduje neindexovať určité stránky, ako sú stránky autorov, prihlasovacie stránky alebo stránky v rámci stránok so členstvom. Môžu tiež blokovať crawling a indexovanie uzamknutých zdrojov, ako sú PDF alebo videá, ktoré vyžadujú e-mailový opt-in na prístup. Ak používate správcu obsahu (CMS) ako WordPress, prihlasovacia stránka /wp-admin/ je automaticky blokovaná pred indexáciou crawler-ov.

Čo sa stane, ak nemám súbor robots.txt?
Väčšina webových stránok nevyžaduje disponovať súborom robots.txt. Účelom súboru robots.txt je komunikovať špecifické pokyny vyhľadávacím botom, ale to nemusí byť potrebné, ak máte menšiu webovú stránku alebo stránku bez veľa podstránok, ktoré by ste chceli zablokovať pred vyhľadávacími crawler-mi. Neexistuje žiadny dôvod, prečo by ste nemali vytvoriť súbor robots.txt a umiestniť ho na svoju webovú stránku. To vám umožní jednoduché pridávanie pokynov, ak je to v budúcnosti potrebné.

Môžem skryť stránku pred vyhľadávacími robotmi pomocou súboru robots.txt?
Áno. Skrývanie stránok pred vyhľadávacími motormi je jednou z hlavných funkcií súboru robots.txt. Môžete to urobiť pomocou parametra disallow a URL adresy, ktorú chcete zablokovať. Je však dôležité poznamenať, že jednoduché skrytie URL adresy pred Googlebotom pomocou súboru robots.txt nezaručuje, že nebude indexovaná. V niektorých prípadoch môže byť URL adresa stále indexovaná na základe faktorov, ako je samotný text URL – „anchor text“ použitý v externých odkazoch a kontext externého miesta, kde bola URL adresa objavená.

Ako môžem otestovať môj súbor robots.txt?
Môžete overiť súbor robots.txt a otestovať, ako pokyny fungujú na konkrétnych URL adresách pomocou nástroja robots.txt tester v Google Search Console alebo pomocou externých validatorov.