Mi az a robots.txt?

A robots.txt egy szöveges fájl, amely tájékoztatja a keresőmotorokat a webhely indexeléséről. Meghatározza a keresőrobotok/robotok webhelyéhez való hozzáférésének korlátozásait.

Mi az a bot? Ezek olyan robotok, amelyek keresőmotorokat használnak a webes prezentációk és azok tartalmának feltérképezésére. A böngészés alapján módosítják a keresési indexeket, és információkat adnak a kereséshez.

A fájl normál .TXT szövegformátumban jön létre, ezért bármilyen szövegszerkesztőben létrehozható. Ez az első fájl, amelyet a bot felkeres a webhelyén. Ha ez a fájl nem létezik, a bot továbbra is feltérképezi összes aloldalt.
A Robots.txt fájlt leggyakrabban az egyes oldalakhoz való hozzáférés korlátozására használják, vagy a kéretlen indexelés miatt, vagy például azért, mert érzékeny oldalról van szó, mint például a rendszeradminisztráció.

A robots.txt felépítése

User-agent: Ezek az adatok az első sorban jelennek meg. Meghatározható benne, hogy a korlátozások kinek szólnak.
Disallow: Ez annak az oldalnak a relatív elérési útja, amelyhez nem szeretné, hogy a User-agent hozzáférjen.
Allow: Ezzel a paranccsal engedélyezheti a felhasználók hozzáférését például egy aloldalhoz, még akkor is, ha annak szülőoldala korlátozott hozzáféréssel rendelkezik.
Sitemap: Itt adhatja meg a webhelytérkép elérési útját, hogy a robot a lehető leggyorsabban megtalálja.

Példák a robots.txt fájlra

User-agent: * 
Disallow:

A fenti példában a robots.txt fájl egyik leggyakoribb bejegyzése látható. Ez azt jelenti, hogy minden bot (*-gal jelölt) hozzáfér az összes oldalhoz.

User-agent: * 
Disallow: /

Ez pont az ellenkezője az előző esetnek. Ez a bejegyzés letiltja a bot hozzáférését az összes oldalhoz.

User-agent: Googlebot 
Disallow: /administration/

Ez a bejegyzés csak a Google keresőrobotjára vonatkozik. Ebben az esetben az /adminisztráció/ URL-címmel rendelkező oldalak nem engedélyezettek.

A robots.txt működésének ellenőrzése

Ha tesztelnie kell a robots.txt fájlban lévő bejegyzéseinek működőképességét, használhatja a Google teszt eszközét. Az eszköz működéséhez a domaint hozzá kell adni a Google Search Console-hoz.