OCR jelentése — eClick Tudástár

Az OCR (Optical Character Recognition) az a technológia, ami egy képből vagy szkennelt PDF-ből gépileg olvasható szöveget készít. A modern OCR-ok már magyarul, ékezetekkel és kézírással is jól dolgoznak — különösen, ha AI-LLM-mel kombináljuk.

Tipikus felhasználási esetek

Számla-feldolgozás — szállítói számla → automatikus átemelés könyvelési rendszerbe.
Szerződés-digitalizáció — szkennelt szerződések kereshetővé tétele, lényegi pontok kiemelése.
Személyi okmányok — KYC, regisztrációs folyamatok automatizálása (jogosítvány, igazolvány).
Régi archívumok — papír-alapú dokumentumok kereshető adatbázissá alakítása.
Recept és bizonylat — egészségbiztosítás vagy költségelszámolás automatizálása.

Klasszikus OCR vs. AI-augmented OCR

Klasszikus (Tesseract, ABBYY) — csak szöveg-felismerés, sok hiba az ékezeteknél.
Cloud OCR (Google Vision, AWS Textract) — pontosabb, bizonyos mezőtípusokat felismer.
LLM-aug. (GPT-4 Vision, Claude) — meg is érti, mi a számla összege, ki a kibocsátó.
Hibrid pipeline — OCR + LLM ellenőrzés — best of both worlds.
Saját finomhangolt modell — speciális dokumentumtípushoz (pl. egészségügyi formok).

Mire figyelj az OCR-pipeline építésekor?

Képminőség — minimum 300 DPI szkennelés vagy 8MP fotó; rossz inputra nem segít a legjobb modell sem.
Nyelvi modellek — magyar és angol külön betanítás (vagy LLM-mel kerülhető).
Confidence-score — minden mezőhöz tartson bizonytalansági értéket, kétes esetben emberi ellenőrzés.
GDPR és adatkezelés — érzékeny dokumentumokat ne küldj külső API-ra titkosítatlanul.
Audit log — minden feldolgozott dokumentum eredetijét tartsd meg verziókövetve.

Ha OCR + AI-folyamatot építenénk be a céges working flow-dba, nézd meg az AI automatizáció szolgáltatásunkat. Lásd még a RAG, n8n és integráció cikkeket.

OCR

Tipikus felhasználási esetek

Klasszikus OCR vs. AI-augmented OCR

Mire figyelj az OCR-pipeline építésekor?

Beszéljünk a Projektedről

Weboldalak, webappok és mobil appok fejlesztése