Lokal modell från OpenAI maskar persondata innan ChatGPT ser dem
Klistrar du in kundlistan i ChatGPT skickar du persondata till USA. OpenAI släpper nu en liten lokal modell som maskar uppgifterna först. Räcker det för att lösa AI:s GDPR-problem?

Det är ett scenario som upprepas tusentals gånger varje dag på svenska kontor. Någon laddar upp en kundlista i ChatGPT för att få hjälp att skriva nyhetsbrev. Någon klistrar in mejlkonversationer för att sammanfatta veckan. Någon ber Claude analysera ett rekryteringsunderlag.
Varje gång lämnar persondata Sverige, och varje gång är det troligen oförenligt med GDPR.
OpenAI har ett bud på lösningen. Den 22 april släppte de Privacy Filter, en liten språkmodell som hittar och maskar persondata i text. Den körs lokalt på din laptop eller direkt i webbläsaren, och den är öppen källkod under Apache 2.0.
Tanken är enkel. Du kör texten genom Privacy Filter först. Modellen ersätter namn, adresser, telefonnummer och annan identifierande information med platshållare. Sen skickar du den maskade texten vidare till ChatGPT, Claude eller någon annan tjänst där datan annars hade läckt.
Liten modell körs lokalt
Privacy Filter är en så kallad mixture-of-experts-modell med 1,5 miljarder parametrar totalt, varav bara 50 miljoner är aktiva för varje förfrågan. Storleken gör att den kan köras på en vanlig laptop, eller till och med i webbläsaren via WebGPU.
Modellen identifierar åtta kategorier persondata: namn, adresser, e-postadresser, telefonnummer, URL:er, datum, kontonummer och hemligheter som lösenord och API-nycklar. På OpenAI:s eget benchmark, PII-Masking-300k, når den 96 procent F1-score, alltså en bra balans mellan att hitta rätt och att inte över-maska.
Modellen är publicerad fritt. Inget API behövs, ingen molnkoppling, ingen kostnad per token.
Inget mirakel ändå
Det låter för bra för att vara sant, och det är det också, åtminstone delvis.
Tonic.ai testade modellen direkt efter releasen och hittade betydande luckor. Tonic säljer själva en konkurrerande PII-lösning, så benchmarken ska läsas med det i bakhuvudet, men metodiken är transparent och siffrorna stämmer med vad andra har rapporterat. På verklig data, alltså texter som inte ser ut som benchmarken, sjönk F1-värdet till mellan 0,18 och 0,65 beroende på domän. Modellen missade vanliga formuleringar som "Visa ending in 4427" och internationella telefonnummerformat. På samma test nådde Tonics egen lösning, Textual, mellan 0,92 och 0,99.
OpenAI är själva tydliga med begränsningarna.
"Privacy Filter does not provide any legal guarantee of anonymization."
Modellen presterar sämre på icke-engelsk text, vilket är direkt relevant för svenska företag. Den missar oftare sällsynta namn. I känsliga branscher som vård, juridik och finans rekommenderar OpenAI mänsklig granskning innan något skickas vidare.
Med andra ord, en bra startpunkt men inte en färdig produktionslösning.
Konkurrensen som redan finns
Privacy Filter är inte först ut på marknaden. Det här fältet har funnits länge.
Microsoft Presidio är förmodligen den etablerade open source-jätten. Den kombinerar regelbaserad detektion med språkmodeller, vanligen spaCy, och kan hantera både text, bilder och strukturerad data. Många europeiska företag vi pratar med har Presidio någonstans i sin pipeline.
Tonic Textual är den kommersiella tungviktaren, byggd för enterprise-bruk där produktionsdata behöver de-identifieras till syntetisk data. Inte öppen källkod, inte kostnadsfri, men ofta överlägset på precision. Philter och OpenPipe är två andra alternativ värda att titta på, det första för PHI och juridik, det andra för team som vill ha en mindre LLM-baserad lösning med MIT-licens.
Det som gör Privacy Filter intressant är inte att den slår de andra på prestanda. Det gör den inte. Det som gör den intressant är paketet, en liten modell, lokal körning, öppen licens och en arkitektur som många kan finetuna på egen data.
Domstolarna gör det redan
Domstolsverket lanserade i juni 2024 en AI-tjänst som maskerar sekretessbelagda uppgifter i handlingar som ska lämnas ut. Tjänsten föreslår vad som ska maskas, en domare godkänner. Den används av Sveriges 80 domstolar.
Principen är densamma som Privacy Filter bygger på. AI föreslår, människan godkänner. Skillnaden är att Domstolsverkets lösning är central och specialbyggd, medan Privacy Filter är öppen och kan köras på vilken laptop som helst. Båda visar samma sak: PII-maskering är inte framtidsteknik utan något som redan körs i produktion.
Vad det betyder för dig
För de flesta verksamheter ändrar inte Privacy Filter spelreglerna idag. Men den är värd att hålla koll på av tre skäl.
För det första öppnar den dörren för en mer realistisk pipeline. Idag står många GDPR-medvetna företag med valet att antingen blockera AI-verktyg helt, eller att försöka utbilda anställda i vad som får skickas. Båda fungerar dåligt. En lokal maskeringsmodell mellan användare och molntjänst är ett tredje alternativ som faktiskt skalar.
För det andra signalerar releasen att OpenAI ser GDPR-friktionen som ett affärsproblem. När en aktör som lever på molnbruk släpper ett lokalt verktyg under Apache-licens är det inte välgörenhet. Det är ett försök att hålla kvar europeiska företag som annars börjar leta efter Mistral, Claude eller lokala alternativ.
För det tredje sänker den tröskeln för fine-tuning. En 1,5-miljardersmodell är liten nog att finetuna på en RTX 4090 över en helg. Det betyder att svenska företag kan träna modellen på just sin domän, sina interna kodord, sina kundregister. Tonic.ai konstaterar själva att "the model is the easy part" och att skillnaden ligger i träningsdata. Den datan har du.
Så testar du själv
Vill du prova kostar det dig en kvart. Privacy Filter ligger som öppen modell på Hugging Face och kan köras med två rader Python eller direkt i webbläsaren via Transformers.js.
Börja med en konkret fråga. Vilka av dina nuvarande AI-arbetsflöden har persondata som inte borde lämna huset? Listan brukar bli längre än chefer tror, och kortare än jurister fruktar.
Frågan är inte längre om du ska maska persondata innan du använder AI. Frågan är hur fort du kommer igång.
