A szemantikus keresés az a keresési mód, amely a tartalom jelentése alapján találja meg a releváns dokumentumokat — nem csak a pontos szó-egyezésre épít, mint a klasszikus „kulcsszavas” keresés. Ha azt írod, „hogyan engedhetek el egy munkavállalót?”, egy szemantikus kereső megtalálja a „munkaviszony-megszüntetési eljárás” szabályzatot — annak ellenére, hogy a megfogalmazás teljesen más. A háttérben embedding-modellek dolgoznak, amelyek a szöveget matematikai vektorrá alakítják, és a vektorok közelsége méri a jelentés-hasonlóságot.
Így is ismerheted
Magyarul jelentés-alapú keresés, vektoros keresés, AI-alapú keresés. Angolul semantic search, vector search, neural search. Rokon fogalmak: full-text search (klasszikus, kulcsszó-alapú), fuzzy search (elgépelés-toleráns, de még mindig kulcsszó), hybrid search (kulcsszó + szemantikus kombinálva).
Miért fontos cégeknek?
Néhány tipikus üzleti hatás:
Belső kereshetőség: a céges dokumentumok (szabályzatok, GYIK, projekt-doksik) érthetőbben válnak kereshetővé. A kollégák nem keresgélnek SharePointon — kérdést tesznek fel természetes nyelven.
Ügyfél-kereső: webshop, dokumentációs portál. Ha a vásárló „nagyobb laptop táskát” keres, a szemantikus kereső megtalál egy „17 colos hordtáskát” akkor is, ha a leírásban nem szerepel a „nagy” szó.
RAG-architektúra: a modern AI-asszisztensek (RAG) háttérréteg-ként szemantikus keresést használnak.
Tartalom-ajánló: blog-cikkek, e-commerce termékek között hasonlóság-alapú ajánlás.
Hogyan működik a szemantikus keresés?
A klasszikus 4 lépés:
- Indexálás: a dokumentumokat felbontjuk chunk-okra, és minden chunk-ra generálunk egy embedding-vektort.
- Tárolás: a vektorokat egy vektoradatbázisban (Qdrant, Pinecone, pgvector) tároljuk.
- Lekérdezés: a felhasználói kérdést is embedding-be alakítjuk.
- Keresés: a kérdés-vektor és a tárolt vektorok közül a legközelebbieket (cosine similarity) választjuk ki — ezek a legrelevánsabb dokumentum-szeletek.
Szemantikus vs. klasszikus keresés
Mikor melyik?
Klasszikus full-text (Elasticsearch, MySQL FULLTEXT, Algolia):
- Pontosan a kulcsszót tartalmazó dokumentumok kellenek.
- Termék-katalógus pontos termék-keresés (kód, név).
- Strukturált adatban (filterekkel) keresel.
- Gyors és olcsó indexálás.
Szemantikus:
- Természetes nyelvű kérdés.
- A felhasználó másképp fogalmazza meg, mint a dokumentum.
- Hosszabb szövegben kell jelentés-alapon keresni.
- AI-asszisztens-háttér (RAG).
Hibrid keresés (kombinálva): a két módszer eredményeit fuzionálva. Sokszor a legjobb minőséget hozza — mindkét világ előnyeit ötvözi.
Mibe kerül egy szemantikus kereső?
A költségelemek:
- Embedding-generálás: ~$0.02 / millió token (OpenAI text-embedding-3-small).
- Vektoradatbázis: Pinecone $70/hó kezdő, Qdrant önhostolva ~$10-50/hó.
- Lekérdezés-költség: tipikusan elhanyagolható (egy kérdés = 1 embedding-hívás = pár fillér).
- Fejlesztés: 500 ezer-2 millió forint kezdő setup.
Egy 10000 dokumentumos belső tudásbázis tipikus indexálási költsége: $5-50 egyszer, plus havi $30-150 üzemeltetés.
Mire figyelj?
Az első tipp: chunk-stratégia. Túl rövid darab (50-100 szó) → elveszik a kontextus. Túl hosszú (2000+) → elhomályosul a jelentés. Klasszikus ajánlás: 300-500 szó.
A második: magyar nyelv támogatás. Sok embedding-modell elsősorban angolra trénelt; magyarul mérhetően rosszabb. Az OpenAI text-embedding-3-small jól dolgozik magyarul, a Sentence Transformers paraphrase-multilingual is jó választás.
A harmadik: frissítés. Új dokumentum → új embedding → vektoradatbázisba. Incremental ingest kell.
A negyedik: hibrid keresés. Sok esetben kulcsszó + szemantikus kombinációja a legjobb. Az Elasticsearch, Qdrant, Pinecone is támogatja.
Az ötödik: relevancia-tuning. A „top 10 találat” sorrendje finomítható (re-ranker modellek, súlyozás). Heti A/B-tesztelés.
Ha cégednél szemantikus keresőt szeretnél bevezetni — belső dokumentum-kereső, ügyfél-oldali keresés, AI-asszisztens-háttér —, az AI és automatizáció szolgáltatásunkból induljunk. Kapcsolódó: embedding, vektoradatbázis, RAG.