A robots.txt egy szöveges fájl, amely tájékoztatja a keresőmotorokat a webhely indexeléséről. Meghatározza a keresőrobotok/robotok webhelyéhez való hozzáférésének korlátozásait.
Mi az a bot? Ezek olyan robotok, amelyek keresőmotorokat használnak a webes prezentációk és azok tartalmának feltérképezésére. A böngészés alapján módosítják a keresési indexeket, és információkat adnak a kereséshez.
A fájl normál .TXT szövegformátumban jön létre, ezért bármilyen szövegszerkesztőben létrehozható. Ez az első fájl, amelyet a bot felkeres a webhelyén. Ha ez a fájl nem létezik, a bot továbbra is feltérképezi összes aloldalt.
A Robots.txt fájlt leggyakrabban az egyes oldalakhoz való hozzáférés korlátozására használják, vagy a kéretlen indexelés miatt, vagy például azért, mert érzékeny oldalról van szó, mint például a rendszeradminisztráció.
A robots.txt felépítése
User-agent: Ezek az adatok az első sorban jelennek meg. Meghatározható benne, hogy a korlátozások kinek szólnak.
Disallow: Ez annak az oldalnak a relatív elérési útja, amelyhez nem szeretné, hogy a User-agent hozzáférjen.
Allow: Ezzel a paranccsal engedélyezheti a felhasználók hozzáférését például egy aloldalhoz, még akkor is, ha annak szülőoldala korlátozott hozzáféréssel rendelkezik.
Sitemap: Itt adhatja meg a webhelytérkép elérési útját, hogy a robot a lehető leggyorsabban megtalálja.
Példák a robots.txt fájlra
User-agent: *
Disallow:
A fenti példában a robots.txt fájl egyik leggyakoribb bejegyzése látható. Ez azt jelenti, hogy minden bot (*-gal jelölt) hozzáfér az összes oldalhoz.
User-agent: *
Disallow: /
Ez pont az ellenkezője az előző esetnek. Ez a bejegyzés letiltja a bot hozzáférését az összes oldalhoz.
User-agent: Googlebot
Disallow: /administration/
Ez a bejegyzés csak a Google keresőrobotjára vonatkozik. Ebben az esetben az /adminisztráció/ URL-címmel rendelkező oldalak nem engedélyezettek.
A robots.txt működésének ellenőrzése
Ha tesztelnie kell a robots.txt fájlban lévő bejegyzéseinek működőképességét, használhatja a Google teszt eszközét. Az eszköz működéséhez a domaint hozzá kell adni a Google Search Console-hoz.