A mélytanulás (deep learning, DL) a gépi tanulás egy alfaja, amely több rétegű neurális hálókat használ, hogy bonyolult mintázatokat ismerjen fel adatban. A „mély” itt arra utal, hogy a hálózat sok réteget tartalmaz (10-1000 vagy több), és minden réteg egyre absztraktabb reprezentációt épít az adatról. Ez a megközelítés robbantotta fel az AI-t 2012-től kezdve: a képosztályozás, beszédfelismerés, gépi fordítás, és az újabb generatív modellek (ChatGPT, DALL-E) mind a mélytanulásra építenek.
Így is ismerheted
Magyarul mély tanulás, mély neurális háló-alapú tanulás. Angolul deep learning, deep neural networks (DNN). A 2010-es évek elején még megkülönböztették a „shallow learning”-tól (egyrétegű neurális hálók); ma a mélytanulás dominál annyira, hogy a köznyelvben sokszor a „gépi tanulás” és a „mélytanulás” szinonimaként szerepel — bár pontosabban: a gépi tanulás tágabb, a mélytanulás egy alesete.
Miért fontos az üzleti életben?
A mélytanulás kifejezetten ott jó, ahol a klasszikus szoftver nem boldogul: kép- és hang-felismerésben, nyelvi feldolgozásban, mintázat-keresésben hatalmas adatban. Néhány konkrét üzleti alkalmazás:
Ügyfél-kommunikáció: a modern AI chatbot a háttérben egy mélytanuló nyelvi modellt használ. Anélkül, hogy bármilyen szabályt kódolt volna valaki, a chatbot „érti” a kérdést és válaszol rá. Lásd AI chatbot.
Dokumentum-feldolgozás: PDF-számlák, szerződések, kézi-írott formok automatikus feldolgozása. A mélytanuló modellek a kép-pixeleken keresztül szöveget olvasnak (OCR), és értelmezik a tartalmat.
Vizuális ellenőrzés: gyártócégeknél a gyártósor mellett kamerák figyelik a termékeket, és a mélytanuló modell észleli, ha valami hibás (karc, méret-eltérés, szín-anomália). Több magyar gyártó használja ezt.
Hang-átirat és -elemzés: call center beszélgetések automatikus szöveggé alakítása, érzelem-detekció, kulcs-mondatok kiemelése. Az OpenAI Whisper egy mélytanuló modell, ami ezt nyitottá tette.
Csalás-detekció: bankoknál a mélytanuló modellek 100x pontosabban észlelik a gyanús tranzakciókat, mint a régi szabály-alapú szűrők.
Hogyan különbözik a klasszikus gépi tanulástól?
A klasszikus gépi tanulásban (random forest, support vector machine, logisztikus regresszió) a szakember szépen kidolgozza, milyen jellemzőket (features) használjon az algoritmus. Egy spam-szűrőnél pl. „van-e benne sok nagybetű”, „mennyi felkiáltójel”, „ismert spam-domain-ről jött-e”. Aztán a modell ezeken a kézzel készített jellemzőkön tanul.
A mélytanulás ezzel szemben nyers adaton dolgozik — pl. közvetlenül a kép pixelein, a hang hullámformáján, a szöveg tokenjein —, és a hálózat maga „tanulja meg”, milyen jellemzőket érdemes kinyerni. Az első rétegek alacsony-szintű jellemzőket (kép esetén: élek, sarkok) észlelnek, a középső rétegek közepes-szintűeket (formák, mintázatok), a magasabb rétegek pedig absztrakt fogalmakat (arc, autó, kutya).
Ez kétféle előnyt ad: (1) bonyolultabb mintázatokat is megtanul, mint amit ember kézzel ki tudna „dolgozni” jellemzőként; (2) sokféle területen ugyanaz a megközelítés működik (kép, hang, szöveg) — a klasszikus ML-ben mindenhez más-más módszer kellett.
Mit kell hozzá: adat és számítási kapacitás
A mélytanulás két dolgot követel meg: rengeteg adatot és komoly számítási kapacitást. Egy kép-osztályozó modell tréningjéhez tipikusan 10 ezer-1 millió címkézett kép szükséges; egy nyelvi modellnek (LLM) milliárd-trillió szó. A számítási oldalon GPU-kat (videókártya-számítást) vagy speciális TPU-kat (tensor processing unit) használnak; egy közepes modell tréningje napoktól-hetekig tarthat, és többszáz-többezer dolláros felhő-számlát kitehet.
Egy átlagos magyar középvállalatnak nem kell ezt házilag csinálni: az „előtrénelt” modelleket (OpenAI GPT, Google Imagen, Meta Llama) lehet használni, vagy egy speciális részfeladatra finomhangolni — ami már másodszor nagyságrenddel olcsóbb és gyorsabb.
Mire jó és mire nem?
A mélytanulás akkor a jó választás:
- Sok adat van — minimum 10 ezer minta, ideálisan 100 ezer+ a tréningre (vagy előtrénelt modellt használsz finomhangolásra).
- Mintázat-felismerés a fő feladat — kép, hang, szöveg, idősor.
- Nagy pontosság kell — ahol a klasszikus megközelítés is működne, de hibahatára nagy.
- A bemenet nyers, többdimenziós — pixelek, hangmintok, tokenek.
Akkor NEM ideális választás:
- Kevés adat — pár száz minta esetén a klasszikus ML jobban általánosít.
- Magyarázhatóság kritikus — a mélytanuló modellek „fekete dobozok”. Pénzügyi, jogi, egészségügyi területen ez akadály lehet.
- Egyszerű, jól strukturált probléma — pl. egy Excel-táblán „ha A oszlop > B oszlop” — itt logikai kód olcsóbb és pontosabb.
- Költség-kritikus — egy mélytanuló modell tréningje és üzemeltetése drágább lehet, mint egy klasszikus ML-modell.
Mibe kerül egy cégnek?
A klasszikus megoldás 2026-ban: nem önállóan trénelsz modellt nulláról, hanem egy előtrénelt modellt finomhangolsz a saját feladatodra. A költség így sokkal kezelhetőbb:
- API-használat: $30-1000 / hó kis-közepes forgalom mellett (OpenAI, Anthropic, Google).
- Finomhangolás (fine-tuning): egyszeri $100-5000 költség, attól függően mekkora a modell és mekkora a tréning-adat.
- Önhostolt megoldás (Llama, Mistral) saját GPU-szerveren: havi $500-5000 hardver/cloud.
Egy átlagos magyar középvállalat AI-projektje (chatbot, dokumentum-feldolgozó, asszisztens) jellemzően nem építkezik nulláról — az előtrénelt modelleket használja, és az alkalmazási réteget (saját adatok, RAG, integrációk) építi köré. Ez teljesen átviszi a költséget a beruházási kapacitás-szintre, ami a klasszikus magyar SME-nek is megengedhető.
Mire figyelj?
Az első: realista céllal vágj bele. A mélytanulás nem varázspálca — egy rossz adathalmazon még a legfejlettebb modell is rosszul teljesít. Az adat minősége a kritikus tényező.
A második: használj előtrénelt modelleket. Saját modell nulláról trénírni 2026-ban egy középvállalatnál szinte sosem éri meg. Az OpenAI, Anthropic, Google modelleket finomhangolva, vagy „prompt-engineering”-gel sokszor jobban jársz.
A harmadik: monitorozz. A mélytanuló modellek hibázhatnak meglepő módon (pl. egy macska képét „guacamole”-nak látják, ha egy speciális pixel-zaj ráteszed). Heti random ellenőrzés, és valós felhasználói visszajelzés kell.
A negyedik: GDPR és adatvédelem. Ha érzékeny adatot dolgoz fel a mélytanuló modell (egészségügyi, pénzügyi), gondold át, hol fut a modell, ki látja az adatot, mit naplóz. Részletesebben az AI adatbiztonság és GDPR és AI cikkekben.
Ha mélytanulás-alapú megoldást szeretnél a cégednél — chatbot, OCR, vizuális ellenőrzés, ajánlórendszer —, az AI és automatizáció szolgáltatásunkból induljunk: probléma-feltárás, megfelelő modell-választás, prototípus, élesítés. Egy ügyféloldali AI-megjelenéshez a chatbot fejlesztés az induló pont.