Cristin-prosjekt-ID: 2198640
Sist endret: 17. juli 2020 17:53

Cristin-prosjekt-ID: 2198640
Sist endret: 17. juli 2020 17:53
Prosjekt

Machine Learning for the Anonymisation of Unstructured Personal Data (CLEANUP)

prosjektleder

Pierre Lison
ved Statistisk analyse, maskinlæring og bildeanalyse SAMBA ved Norsk Regnesentral

prosjekteier / koordinerende forskningsansvarlig enhet

  • Norsk Regnesentral

Klassifisering

Vitenskapsdisipliner

Rettsinformatikk • Annen informasjonsteknologi • Informasjons- og kommunikasjonsteknologi

Emneord

Personvern • Språkteknologi • Maskinlæring

Kategorier

Prosjektkategori

  • Anvendt forskning

Kontaktinformasjon

Telefon
96799812
Sted
Pierre Lison

Tidsramme

Aktivt
Start: 1. februar 2020 Slutt: 31. desember 2023

Beskrivelse Beskrivelse

Tittel

Machine Learning for the Anonymisation of Unstructured Personal Data (CLEANUP)

Populærvitenskapelig sammendrag

Mange offentlig etater og private bedrifter har utfordringer med personlige data som de behandler, samler inn eller produserer. Slike data kan beskrive pasienter, kunder, mottakere av velferdstjenester eller til og med tiltalte i rettssaker. Databaser med slike data er ofte svært verdifulle, også for samfunnet som helhet. Pasientjournaler er for eksempel essensielt for biomedisinsk forskning. Tilsvarende er rettsavgjørelser en viktig kilde for jurister, mens kundedata kan brukes for å forbedre en bedrifts tjenester og kundeopplevelse.

Samtidig må data som kan inneholde personlig informasjon behandles i henhold til gjeldende personvernregler, som den nye europeiske personvernforordningen (GDPR). Den sier blant annet at persondata ikke kan utleveres til en tredjepart (eller bli brukt for andre formål enn det dataene ble samlet inn for) uten rettslig grunn, for eksempel gjennom å han innhentet samtykke fra de berørte individene. En løsning er å benytte anonymiseringsteknikker for å beskytte personvernet til de registrerte individene. Dagens anonymiseringsteknikker fungerer dessverre ikke godt nok for ustrukturerte data, slik som tekst. Dette er en stor utfordring, siden dataene i mange saksbehandlingssystemer i stor grad består av tekst (som for eksempel pasientjournaler). Manuell anonymisering er dessuten svært kostbart, følsomt for menneskelige feil og vil være inkonsistent. Manuell anonymisering er i praksis ikke mulig å benytte for store mengder tekst.

I CLEANUP-prosjektet vil vi være med og tette dette teknologiske gapet og utvikle nye maskinlæringsmodeller for å automatisk anonymisere tekstdokumenter. CLEANUP vil også utvikle nye metoder for å evaluere kvaliteten til de nye tekstanonymiseringsteknikkene og samordne disse krav fra lover og reguleringer. Til sist vil CLEANUP undersøke hvordan de teknologiske løsningene kan integreres i de ulike organisasjonene, spesielt hvordan kvalitetskontroll bør gjennomføres og tilpasses behovene til den enkelte dataeier.

Vitenskapelig sammendrag

The project sets out to develop new computational models and processing techniques to automatically anonymise unstructured data containing personal information, with a specific focus on text documents.

The project's key idea is to combine approaches from natural language processing and data privacy to design a new generation of text anonymisation techniques that simultaneously:

-Take advantage of state-of-the-art natural language processing techniques (based on deep neural architectures) to derive fine-grained records of the individuals referred to in a given document ;

- Connect these individual records to principled measures of disclosure risk and data utility, with the goal of modifying text documents in a way that prevents the disclosure of personal information while preserving as closely as possible the internal coherence and semantic content of the documents.

The project will also design dedicated evaluation methods to assess the empirical performance of text anonymisation mechanisms, and examine how these metrics are to be interpreted from a legal perspective, in particular with respect to how privacy risk assessments should be conducted on large amounts of text data. Finally, the project will investigate how these technological solutions can be integrated into organisational processes - in particular how quality control can be performed in direct interaction with text anonymisation tools, and how the level and type of anonymisation can be parametrised to meet the specific needs of the data owner.

To achieve these objectives, the project brings together a consortium of researchers with expertise in machine learning, natural language processing, computational privacy, statistical modelling, health informatics and IT law. In addition, external partners from the public and private sector (covering the fields of insurance, welfare, healthcare and legal publishing) will also contribute to the research objectives with their data and domain knowledge.

prosjektdeltakere

prosjektleder
Aktiv cristin-person

Pierre Lison

  • Tilknyttet:
    Prosjektleder
    ved Statistisk analyse, maskinlæring og bildeanalyse SAMBA ved Norsk Regnesentral

Milen Kouylekov

  • Tilknyttet:
    Prosjektdeltaker
    ved Universitetets senter for informasjonsteknologi ved Universitetet i Oslo

Norunn Ahdell Wankell

  • Tilknyttet:
    Prosjektdeltaker
    ved DnB NOR

Mikkel Hinnerichsen

  • Tilknyttet:
    Prosjektdeltaker
    ved Gjensidige Forsikring ASA

Glenn Hornset

  • Tilknyttet:
    Prosjektdeltaker
    ved Arkivverket - Riksarkivet og statsarkivene
1 - 5 av 14 | Neste | Siste »