Az AI chatbot betanítása az a folyamat, amely során a saját céges adataidat (termékek, szabályzatok, GYIK, ügyfél-adatok) beépíted a chatbotba, hogy azzal tudjon válaszolni — nem általánosan a webről. A „betanítás” szó kicsit félrevezető: a modern (2026-os) gyakorlatban szinte sosem trénírod nulláról a modellt — vagy RAG-architektúrát használsz (a céges adatok kérdés-időben „beszúrva” a promptba), vagy egy meglévő modellt fine-tuningolsz (kis-finomhangolás). Mindkettő olcsóbb és gyorsabb mint a klasszikus tréning.
Így is ismerheted
Magyarul chatbot tanítása, AI bot oktatása, chatbot adatra szabása. Angolul training a chatbot, customizing a chatbot, fine-tuning, RAG setup. A „tanítás” itt nem szigorúan értelmezve „a modell tényleges trénírése” — sokszor a tudásbázis-építést és prompt-tervezést is ezen a néven futtatják.
Mi a betanítás három fő módja?
A 2026-os állapotban három módon „tanítható” egy chatbot a saját adataidra:
1. Prompt-engineering — a leg-egyszerűbb. A rendszerpromptba beépítesz minden fontos információt: ki a cég, mit kínál, milyen tone-of-voice. Nem kell külön DB, nem kell fine-tuning. Limitáció: a prompt mérete (tokenek), és nem skálázódik 50+ doksi feletti tudásra.
2. RAG (Retrieval Augmented Generation) — a leggyakoribb modern megközelítés. A céges dokumentumokat egy vektoradatbázisba tárolod, és kérdés-időben a releváns szakaszokat „beszúrod” a promptba. Skálázódik tetszőleges mennyiségű dokumentumra, és könnyű frissíteni. Részletesen a RAG chatbot cikkben.
3. Fine-tuning — a leg-mélyebb. Veszel egy alapmodellt (pl. Llama 3 vagy GPT-4o-mini), és a saját adatodon „továbbtréníred”. Drágább, lassabb (akár hetekig tart), de stilisztikai és viselkedési mintákat tanít meg a modellnek. Ritkán kell — a 80%-os esetre a RAG elég.
Mikor melyiket válaszd?
A választás-szempontok:
- Kis tudás (1-10 doksi, <50 oldal) → prompt-engineering elég.
- Közepes-nagy tudás (10-1000+ doksi) → RAG.
- Speciális stílus vagy formátum (pl. jogi szöveg generálása egy konkrét struktúrában) → fine-tuning + RAG.
- Domain-specifikus szókincs (orvosi, jogi, ipari szakszótár) → fine-tuning sokat javít.
- Költség / sebesség kritikus → fine-tuningolt kisebb modell a saját adaton sokszor olcsóbb mint nagy modell + RAG.
A 90%-os esetre a magyar középvállalati chatbotnál a RAG-architektúra a jó választás. Az alap-tudás (GYIK, termékek, szabályzatok) megy a tudásbázisba, és a chatbot ebből válaszol.
Hogyan néz ki egy RAG-alapú betanítás lépésről lépésre?
A klasszikus folyamat:
- Forrás-dokumentumok összegyűjtése — Google Drive, SharePoint, Notion, PDF-ek, e-mailek. Egy 100 fős cégnél tipikusan 50-500 dokumentum, 500-5000 oldal.
- Tisztítás és frissítés — elavult anyagok elenyhítése, duplikációk kiszedése, hiányzó címek pótlása. 1-2 hetes munka.
- Felbontás chunkokra — ~300-500 szavas darabok, 20-50 szavas átfedéssel.
- Embedding-generálás — minden chunk-hoz vektor (embedding).
- Vektoradatbázis-tárolás — Qdrant, Pinecone, pgvector.
- Prompt-tervezés — a chatbot rendszerprompt-jának megírása, ami a tudásbázis használatát szabályozza.
- Tesztelés — 50-100 reprezentatív kérdés-válasz pár, ellenőrizve, mit ad a chatbot.
- Iteratív finomítás — 3-5 körön át, mire éles minőséget kapsz.
- Élesítés — a webhelyen vagy belső felületen.
- Folyamatos finomítás — heti / havi monitorozás, új doksik betöltése, prompt-finomítás.
Fine-tuning specifikus folyamata
Ha fine-tuningot is csinálsz (ritka, de néha indokolt):
- Adat-gyűjtés — 100-10000 példa-pár (bemenet / kívánt kimenet). Pl. „kérdés a vásárlótól” → „ideális válasz”.
- Adat-formázás — a fine-tuning szolgáltató formátumába (OpenAI JSON-L, Anthropic, vagy önhostolt).
- Tréning futtatása — OpenAI fine-tuning API, vagy önhostolt környezet (HuggingFace, Cohere). 1-24 óra.
- Tesztelés — a fine-tunelt modell összevetése az alapmodellel egy benchmark-halmazon.
- Élesítés — a kódban a fine-tunelt modell-azonosítóra váltás.
Költség: $100-5000 attól függően, mekkora a modell és mennyi az adat. Időbeliség: pár nap-pár hét.
Példa: egy egyszerű ügyfélszolgálati chatbot betanítása
Tegyük fel, hogy egy webshopnak akarunk chatbotot építeni. A betanítás:
- Forrás-anyagok: 50 termékleírás, 20 GYIK, 1 ÁSZF, 5 belső szabályzat (visszáru, szállítás, garancia).
- Tisztítás: néhány termékleírás hiányos, egy GYIK 2 éve nem frissült. 1-2 nap.
- Embedding + vektoradatbázis: 2-3 órás munka.
- Prompt-tervezés: 1-2 napos iteráció.
- Tesztelés: 30 kérdéssel. 1 nap.
- Élesítés és monitoring: folyamatos.
Összesen ~1-2 hetes munka. A költség: 500 ezer-2 millió forint.
Mire figyelj?
Az első tipp: adat-minőség kritikus. Egy elavult vagy ellentmondásos forrás-anyagon a chatbot rossz választ ad. Nem az LLM hibázik, hanem az inputod.
A második: iteráció. Az első verzió szinte sosem tökéletes. 3-5 finomítási kör kell, mire éles minőséget kapsz.
A harmadik: frissítés-folyamat. Új doksi → automatikusan kerüljön a tudásbázisba. Heti / havi batch-szel, ne csak egyszeri import-tal.
A negyedik: hallucinációs védelem. A prompt szóljon az LLM-nek: ha nem találsz releváns chunk-ot, mondd meg, ne találgass. Részletesen az AI hallucination cikkben.
Az ötödik: GDPR. Az ügyfél-adatok vagy belső dokumentumok érzékenyek. Európai régió, jogosultság-szabályozás, audit-naplók. Részletesen az AI adatbiztonság cikkben.
A hatodik: tesztelés reprezentatív kérdéseken. Készíts egy 30-100 elemes „benchmark”-halmazt a valós kérdésekből. Minden új verzió előtt fuss végig rajta — regresszió-tesztelés.
A hetedik: monitorozás éles használatban. Heti / havi szúrópróba: helyes válaszokat ad a chatbot? Hol bukik? Mit kell finomítani?
Ha cégednél chatbot-betanítást tervezel, a chatbot fejlesztés szolgáltatásunk teljes folyamatot biztosít: forrás-feltárás, tudásbázis-építés, prompt-tervezés, élesítés. Egy átfogóbb AI-rendszerhez (több chatbot + asszisztens + workflow) az AI és automatizáció az induló pont.