Anonimizálás és adatmaszkolás jelentése

Az anonimizálás és adatmaszkolás az a technika, amellyel a személyes vagy érzékeny adatokat eltávolítjuk vagy elrejtjük egy adathalmazból, mielőtt AI-rendszer, harmadik féllel megosztott adat-csere, vagy nyilvános elemzés céljára felhasználnánk. A GDPR és más szabályozások szigorúan korlátozzák a személyes adatok kezelését — az anonimizálás az egyik fő megfelelőségi technika. A klasszikus eset: egy ChatGPT-hívás előtt az ügyfél-adatokat anonimizálod, és csak utána küldöd a modellnek.

Így is ismerheted

Magyarul anonimizálás, adatmaszkolás, személyes adatok elrejtése, pszeudonimizálás. Angolul anonymization, data masking, pseudonymization, de-identification. Fontos megkülönböztetni: az anonimizálás visszafordíthatatlan; a pszeudonimizálás visszafordítható (a kulcs ismeretében az eredeti adat visszanyerhető).

Miért fontos cégeknek?

Három fő ok:

GDPR és AI: a személyes adatok harmadik fél (OpenAI, Anthropic) szerverére küldése jogi kockázat. Ha anonimizáltad, sok kérdés megszűnik. Részletesen a GDPR és AI cikkben.

Üzleti titok-védelem: nemcsak személyes adat, hanem üzleti információ is — ügyfél-cégek nevei, szerződés-értékek. Anonimizálva biztonságosabb a feldolgozás.

Adatmegosztás: ha külső féllel (kutató, ügyvéd, partnercég) megosztasz adatot, az anonimizálás csökkenti a kockázatot.

Anonimizálás vs. pszeudonimizálás

Anonimizálás: az adat olyan formába kerül, hogy nem visszanyerhető a személyazonosság. „Kovács János” → „SZEMÉLY_1″. Nincs kulcs, ami visszafejtené. GDPR-szempontból ez „nem személyes adat”.

Pszeudonimizálás: az adat egy „pszeudonim”-mel helyettesítve, és van egy kulcs-táblázat, ami visszafejti. „Kovács János” → „USER_4738″, és külön DB-ben: USER_4738 = Kovács János. GDPR-szempontból ez még személyes adat — csak fokozott védelemmel.

A különbség kritikus: az anonimizált adat szabadon használható, a pszeudonimizált csak korlátozottan.

Mit szoktunk anonimizálni?

Név (kereszt + vezeték).
E-mail cím.
Telefonszám.
Cím.
Adószám / TAJ-szám / személyi szám.
Bankkártya / IBAN.
IP-cím (a GDPR szerint személyes adat).
Születési dátum.
Egyéb azonosító (sorszám, ügyfél-ID).

Anonimizálási technikák

Néhány klasszikus módszer:

Helyettesítés (substitution): a valós érték helyett placeholder. „Kovács János” → „[NAME]”. Egyszerű, gyors.

Hash-elés: az érték kriptográfiai hash-e (SHA-256). Reprodukálható, de nem visszafejthető (kivéve brute-force).

Tokenizáció: az érték egy random tokennel cserélve. Egy kulcstáblában tárolva (pszeudonimizálás).

Általánosítás: az érték kevésbé pontos formára cserélve. „1980-03-15″ → „1980-as évek”. „Budapest, 1056″ → „Budapest”.

Zaj-hozzáadás: szám-értékekhez random zaj. „45 év” → „47 év” (3 év szórással).

K-anonimitás: az adat olyan formába kerül, hogy minden rekord legalább K-1 másikkal egyforma. Ezzel a sorozott visszafejtés megnehezedik.

AI-specifikus anonimizálás (prompt előtt)

A klasszikus AI-felhasználási eset: egy ChatGPT-hívás előtt az ügyfél-adatokat anonimizálod. Két megközelítés:

1. Sablon-helyettesítés: a saját kódod regex-szel kiveszi a neveket, e-maileket, és placeholder-rel cseréli.

2. Named Entity Recognition (NER): egy speciális AI-modell felismeri a személyes entitásokat, és kicseréli. spaCy, HuggingFace-modellek erre.

3. LLM-alapú: egy első LLM-hívás csak az anonimizálásra. Drágább, de pontosabb a komplex eseteknél.

Tool-ok

Microsoft Presidio — open-source PII-detekció és anonimizáció.
Amazon Comprehend — AWS-szolgáltatás, PII-detekció.
Google DLP API — Data Loss Prevention.
Custom regex + NER — saját megoldás specifikus formátumokra.

Mire figyelj?

Az első tipp: NE legyen reverzibilis anonimizálás ha valódi anonimitás kell. Egy könnyen visszafejthető séma látszólag anonimizál, de GDPR-szempontból nem az.

A második: kontextus is azonosító lehet. „A budapesti webfejlesztő ügynökség, ami 2018-ban alapult” — sokszor egyetlen céget azonosít. A k-anonimitás-elv az általánosítást is ajánlja.

A harmadik: tesztelj reális adatokon. Az anonimizáció hatékonysága iparág-specifikus. Egészségügyi adatokon más kihívás mint pénzügyi.

A negyedik: AI-output sem szabad PII-t tartalmazzon. Ha a modell véletlenül felidéz egy nevet, ami a tréning-adatban volt, az adat-szivárgás.

Az ötödik: GDPR megfelelőség folyamatos. Az anonimizálás-szabványok változnak (lásd Article 29 Working Party Opinion, ENISA-irányelvek). Negyedévente felülvizsgálat.

Ha cégednél AI-rendszert vezetsz be és anonimizálási réteget szeretnél tervezni, az AI és automatizáció szolgáltatásunkba beépítve segítünk. Kapcsolódó: GDPR és AI, AI adatbiztonság.

Anonimizálás és adatmaszkolás