Szemantikus keresés jelentése

A szemantikus keresés az a keresési mód, amely a tartalom jelentése alapján találja meg a releváns dokumentumokat — nem csak a pontos szó-egyezésre épít, mint a klasszikus „kulcsszavas” keresés. Ha azt írod, „hogyan engedhetek el egy munkavállalót?”, egy szemantikus kereső megtalálja a „munkaviszony-megszüntetési eljárás” szabályzatot — annak ellenére, hogy a megfogalmazás teljesen más. A háttérben embedding-modellek dolgoznak, amelyek a szöveget matematikai vektorrá alakítják, és a vektorok közelsége méri a jelentés-hasonlóságot.

Így is ismerheted

Magyarul jelentés-alapú keresés, vektoros keresés, AI-alapú keresés. Angolul semantic search, vector search, neural search. Rokon fogalmak: full-text search (klasszikus, kulcsszó-alapú), fuzzy search (elgépelés-toleráns, de még mindig kulcsszó), hybrid search (kulcsszó + szemantikus kombinálva).

Miért fontos cégeknek?

Néhány tipikus üzleti hatás:

Belső kereshetőség: a céges dokumentumok (szabályzatok, GYIK, projekt-doksik) érthetőbben válnak kereshetővé. A kollégák nem keresgélnek SharePointon — kérdést tesznek fel természetes nyelven.

Ügyfél-kereső: webshop, dokumentációs portál. Ha a vásárló „nagyobb laptop táskát” keres, a szemantikus kereső megtalál egy „17 colos hordtáskát” akkor is, ha a leírásban nem szerepel a „nagy” szó.

RAG-architektúra: a modern AI-asszisztensek (RAG) háttérréteg-ként szemantikus keresést használnak.

Tartalom-ajánló: blog-cikkek, e-commerce termékek között hasonlóság-alapú ajánlás.

Hogyan működik a szemantikus keresés?

A klasszikus 4 lépés:

Indexálás: a dokumentumokat felbontjuk chunk-okra, és minden chunk-ra generálunk egy embedding-vektort.
Tárolás: a vektorokat egy vektoradatbázisban (Qdrant, Pinecone, pgvector) tároljuk.
Lekérdezés: a felhasználói kérdést is embedding-be alakítjuk.
Keresés: a kérdés-vektor és a tárolt vektorok közül a legközelebbieket (cosine similarity) választjuk ki — ezek a legrelevánsabb dokumentum-szeletek.

Szemantikus vs. klasszikus keresés

Mikor melyik?

Klasszikus full-text (Elasticsearch, MySQL FULLTEXT, Algolia):

Pontosan a kulcsszót tartalmazó dokumentumok kellenek.
Termék-katalógus pontos termék-keresés (kód, név).
Strukturált adatban (filterekkel) keresel.
Gyors és olcsó indexálás.

Szemantikus:

Természetes nyelvű kérdés.
A felhasználó másképp fogalmazza meg, mint a dokumentum.
Hosszabb szövegben kell jelentés-alapon keresni.
AI-asszisztens-háttér (RAG).

Hibrid keresés (kombinálva): a két módszer eredményeit fuzionálva. Sokszor a legjobb minőséget hozza — mindkét világ előnyeit ötvözi.

Mibe kerül egy szemantikus kereső?

A költségelemek:

Embedding-generálás: ~$0.02 / millió token (OpenAI text-embedding-3-small).
Vektoradatbázis: Pinecone $70/hó kezdő, Qdrant önhostolva ~$10-50/hó.
Lekérdezés-költség: tipikusan elhanyagolható (egy kérdés = 1 embedding-hívás = pár fillér).
Fejlesztés: 500 ezer-2 millió forint kezdő setup.

Egy 10000 dokumentumos belső tudásbázis tipikus indexálási költsége: $5-50 egyszer, plus havi $30-150 üzemeltetés.

Mire figyelj?

Az első tipp: chunk-stratégia. Túl rövid darab (50-100 szó) → elveszik a kontextus. Túl hosszú (2000+) → elhomályosul a jelentés. Klasszikus ajánlás: 300-500 szó.

A második: magyar nyelv támogatás. Sok embedding-modell elsősorban angolra trénelt; magyarul mérhetően rosszabb. Az OpenAI text-embedding-3-small jól dolgozik magyarul, a Sentence Transformers paraphrase-multilingual is jó választás.

A harmadik: frissítés. Új dokumentum → új embedding → vektoradatbázisba. Incremental ingest kell.

A negyedik: hibrid keresés. Sok esetben kulcsszó + szemantikus kombinációja a legjobb. Az Elasticsearch, Qdrant, Pinecone is támogatja.

Az ötödik: relevancia-tuning. A „top 10 találat” sorrendje finomítható (re-ranker modellek, súlyozás). Heti A/B-tesztelés.

Ha cégednél szemantikus keresőt szeretnél bevezetni — belső dokumentum-kereső, ügyfél-oldali keresés, AI-asszisztens-háttér —, az AI és automatizáció szolgáltatásunkból induljunk. Kapcsolódó: embedding, vektoradatbázis, RAG.

Szemantikus keresés