Skip to main content

Configuration

Omgevingsvariabelen

Kopieer .env.example naar .env voor lokale development:

cp .env.example .env
VariabeleStandaardBeschrijving
DEBUGtrueDebug-modus (zet false in productie)
UVICORN_SERVER_MODEdevelopmentdevelopment | staging | production
DEFAULT_LANGUAGEnlTaalcode voor PII-detectie
DEFAULT_NLP_ENGINEspacyNLP engine: alleen spacy
DEFAULT_SPACY_MODELnl_core_news_mdSpaCy-model naam
LOG_DIRlogsMap voor applicatielogs

SpaCy-modellen

ContextModelHoe geladen
Lokale dev (venv)nl_core_news_lgVia uv sync (pyproject.toml)
Container / productienl_core_news_mdBaked in via Dockerfile

De modelkeuze wordt bepaald door DEFAULT_SPACY_MODEL. De twee modellen zijn functioneel equivalent voor NER; _lg is groter (hogere recall), _md is compacter (geschikt voor containers).

Anonymization strategies

StrategieResultaat
replaceVervangt door <ENTITY_TYPE> (standaard)
redactVerwijdert de waarde (lege string)
hashSHA-256 hash van de originele waarde
maskMaskeert eerste 6 tekens met *

Pattern recognizers

Alle Nederlandse pattern recognizers staan in src/api/utils/patterns.py. Ze zijn Presidio PatternRecognizer subclasses op basis van reguliere expressies.

KlasseEntity typeConfidenceBeschrijving
DutchPhoneNumberRecognizerPHONE_NUMBER0.60NL mobiel en vast
DutchIBANRecognizerIBAN0.55–0.60NL IBAN (0.60) + internationaal niet-NL (0.55)
EmailRecognizerEMAIL0.60E-mailadressen
DutchBSNRecognizerBSN0.60Burgerservicenummer (9 cijfers)
DutchVATRecognizerVAT_NUMBER0.60BTW-nummer (NLxxxxxxxBxx)
DutchPassportIdRecognizerID_NO0.55–0.60Paspoort/ID-kaart
CaseNumberRecognizerCASE_NO0.40–0.60Zaak-/dossiernummers (meerdere patronen)
DutchDateRecognizerDATE_TIME0.45–0.50Datumnotaties (dd-mm-yyyy e.v.)
DutchLicensePlateRecognizerLICENSE_PLATE0.50Nederlandse kentekens
IPv4RecognizerIP_ADDRESS0.50IPv4-adressen
DutchDriversLicenseRecognizerDRIVERS_LICENSE0.45Rijbewijsnummer (10 cijfers)
DutchKvKRecognizerKVK_NUMBER0.45KvK-nummer (8 cijfers)

Helm values (selectie)

Zie charts/openanonymiser/values.yaml voor de volledige lijst.

image:
repository: mwest2020/openanonymiser
tag: latest
pullPolicy: IfNotPresent

app:
env:
uvicornServerMode: "production"
defaultLanguage: "nl"
defaultNlpEngine: "spacy"
defaultSpacyModel: "nl_core_news_md"

persistence:
enabled: false

resources:
requests:
cpu: 500m
memory: 2Gi
limits:
cpu: 1500m
memory: 4Gi