Az OCR (Optical Character Recognition) az a technológia, ami egy képből vagy szkennelt PDF-ből gépileg olvasható szöveget készít. A modern OCR-ok már magyarul, ékezetekkel és kézírással is jól dolgoznak — különösen, ha AI-LLM-mel kombináljuk.
Tipikus felhasználási esetek
- Számla-feldolgozás — szállítói számla → automatikus átemelés könyvelési rendszerbe.
- Szerződés-digitalizáció — szkennelt szerződések kereshetővé tétele, lényegi pontok kiemelése.
- Személyi okmányok — KYC, regisztrációs folyamatok automatizálása (jogosítvány, igazolvány).
- Régi archívumok — papír-alapú dokumentumok kereshető adatbázissá alakítása.
- Recept és bizonylat — egészségbiztosítás vagy költségelszámolás automatizálása.
Klasszikus OCR vs. AI-augmented OCR
- Klasszikus (Tesseract, ABBYY) — csak szöveg-felismerés, sok hiba az ékezeteknél.
- Cloud OCR (Google Vision, AWS Textract) — pontosabb, bizonyos mezőtípusokat felismer.
- LLM-aug. (GPT-4 Vision, Claude) — meg is érti, mi a számla összege, ki a kibocsátó.
- Hibrid pipeline — OCR + LLM ellenőrzés — best of both worlds.
- Saját finomhangolt modell — speciális dokumentumtípushoz (pl. egészségügyi formok).
Mire figyelj az OCR-pipeline építésekor?
- Képminőség — minimum 300 DPI szkennelés vagy 8MP fotó; rossz inputra nem segít a legjobb modell sem.
- Nyelvi modellek — magyar és angol külön betanítás (vagy LLM-mel kerülhető).
- Confidence-score — minden mezőhöz tartson bizonytalansági értéket, kétes esetben emberi ellenőrzés.
- GDPR és adatkezelés — érzékeny dokumentumokat ne küldj külső API-ra titkosítatlanul.
- Audit log — minden feldolgozott dokumentum eredetijét tartsd meg verziókövetve.
Ha OCR + AI-folyamatot építenénk be a céges working flow-dba, nézd meg az AI automatizáció szolgáltatásunkat. Lásd még a RAG, n8n és integráció cikkeket.