Robots.txt

A robots.txt egy egyszerű szöveges fájl, amit a weboldalad gyökérkönyvtárában helyezel el (example.com/robots.txt), és ami megmondja a kereső-robotoknak (Googlebot, Bingbot, stb.), hogy melyik URL-eket szabad bejárniuk és melyiket nem. Az egyik legrégebbi internet-szabvány (1994 óta), és bár gyakran lebecsült, ma is fontos része a technikai SEO-nak. Az AI-crawlers (GPTBot, ClaudeBot, PerplexityBot) korszakában 2025-től újabb relevanciát kapott — itt is a robots.txt-tel mondhatod meg, mit szabad nekik tanulniuk.

Így is ismerheted

Magyar fordítás gyakorlatban nincs — a robots.txt név hivatalos és univerzális. Néha „robots-fájl”, „crawler-szabályok” vagy „bejárási direktívák” formában találkozhatsz vele. Kapcsolódó fogalmak: crawler (a kereső-robot), bot, spider (ugyanaz), indexálás (az oldal felvétele a search-indexbe). A noindex meta-tag és a robots.txt nem ugyanaz: a robots.txt megakadályozza a bejárást, a noindex csak az indexálást. Ha az URL-t robots.txt-tel tiltod, de a Google már bejárta korábban, az még megmaradhat az indexben.

Mire jó? — bejárás-kontroll és sávszélesség

A robots.txt fő szerepe nem a SEO-hatás közvetlenül, hanem a bejárás-kontroll: mit ne tegyen meg a crawler. Tipikus okok:

Admin- és belső területek — /wp-admin/, /cart/, /checkout/. Nem akarod, hogy a Google indexálja.
Duplikált tartalom — query-paraméteres URL-ek (?utm_source=..., ?orderby=date), amik ugyanazt mutatják mint a kanonikus URL. Lásd a Kanonikus URL cikket.
Tesztkörnyezet — staging.eclick.hu egy egyszerű Disallow: /-vel teljesen tiltott a Google-nek (ez sokszor véletlenül a productionon marad, és katasztrofális — figyelj rá).
Sávszélesség-kontroll — agresszív bot-okat lassíthatsz, vagy teljesen tilthatsz.
AI-crawlers — 2024 óta a GPTBot, ClaudeBot, CCBot, PerplexityBot itt tiltható, ha nem akarod hogy AI-tréninganyagba kerüljön a tartalmad.

Szintaxis — direktívák és értékek

A robots.txt egy szöveges fájl, soronkénti direktívákkal:

User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Allow: /wp-admin/admin-ajax.php

User-agent: GPTBot
Disallow: /

Sitemap: https://eclick.hu/sitemap.xml

A User-agent a célzott bot-ot adja meg (csillag = mindenki). A Disallow a tiltott útvonal (üres érték = nincs tiltás). Az Allow az ellenkezője, és felülírja a Disallow-ot (pl. /wp-admin/ tiltva, de az admin-ajax.php engedélyezett). A Sitemap a sitemap.xml elérhetőségét adja — ezzel a search engine-ek tudnak róla a kifejezett discovery nélkül is.

Egy fontos részlet: a pattern matching nagyon egyszerű. Csak a sor eleje fix, a * bárhol jokerként szerepelhet, és a $ a sor végét jelenti. Pl. Disallow: /*? minden query-paraméteres URL-t tilt; Disallow: /*.pdf$ minden PDF-fájlt.

AI-crawlers tiltás — 2026-os trend

2024-től egyre nagyobb téma: szeretnéd-e, hogy az AI-szolgáltatók (OpenAI, Anthropic, Perplexity) a tartalmadat felhasználják tréninganyagként vagy retrieval-céllal. A robots.txt ad egy egyszerű módot a kontrollra:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Az utolsó (Google-Extended) speciális: a Google saját AI-tréning crawler-jét tiltja, anélkül hogy a normál Googlebot-ot (a Search-bejárót) érintené. Így indexelheted az oldalad a Google-ban, de a Gemini nem tanul belőle.

Praktikus megfontolás: ha B2B vagy tartalom-marketinges vagy, sokszor pont az ellenkezője a cél — akarod hogy az AI ismerje a brand-edet. Akkor ne tilts. A mi egyedi weboldal-fejlesztés oldalunkon és ebben a tudástárban szándékosan NEM tiltjuk az AI-crawler-eket, mert a cél hogy AI-asszisztens-ek (mint a ChatGPT vagy a Claude) idézzék a szakmai tartalmunkat.

Tipikus hibák — amit ne csinálj

Pár klasszikus baki, amit auditokon visszatérően látunk:

Production-on Disallow: / — staging-ről került vissza fejlesztői hibából, és pár hét alatt az egész oldal kiesik a Google-indexből. Mindig ellenőrizd, hogy a production robots.txt nem a staging-é.
CSS / JS tiltása — régen sokan tiltották az /wp-content/themes/-t. A Google azóta kéri, hogy lássa a CSS/JS-t a renderhez. Tiltani így nem szabad.
Sitemap-deklaráció hiánya — kis projektnél lényegtelen, de nagy oldalnál (10.000+ URL) sokat segít, hogy a Google gyorsan tudja honnan kezdje.
Case-sensitivity félreértés — a robots.txt útvonal case-sensitive! /Admin/ és /admin/ két különböző dolog.
Noindex-szerűen használat — a robots.txt NEM noindex! Ha egy URL-t tényleg el akarsz tüntetni az indexből, használj noindex meta-tag-et a HTML-ben. A robots.txt csak a bejárást szabályozza.

Tesztelés — Google Search Console

A Search Console-ban van egy „robots.txt Tester” (a régi felületen, de még működik), ami konkrét URL-ekre megmondja, tiltott-e vagy nem. Új helyén (új Search Console UI) a „Crawled-not-indexed” report árul el sokat: itt látod, hogy a Google milyen URL-eket próbált crawl-olni de blokkolva volt.

Élő ellenőrzés: nyisd meg a böngészőben az https://eclick.hu/robots.txt-t, és nézd meg, mi van benne. Ha 404 vagy üres, az nem hiba — alapból minden engedélyezett. De ha staging-projektből származol és a tartalom Disallow: /, azt azonnal cseréld.

Ha SEO-audittal, technikai optimalizációval vagy egy oldal komplett SEO-újragondolásával foglalkoznál, lásd az egyedi weboldal-fejlesztés szolgáltatásunkat. Kapcsolódó cikkek: Kanonikus URL, Schema.org, Lighthouse.