Cristin-resultat-ID: 2041266
Sist endret: 14. desember 2022, 19:10
NVI-rapporteringsår: 2022
Resultat
Vitenskapelig Kapittel/Artikkel/Konferanseartikkel
2022

Bootstrapping Text Anonymization Models with Distant Supervision

Bidragsytere:
  • Anthi Papadopoulou
  • Pierre Lison
  • Lilja Øvrelid og
  • Ildikó Pilán

Bok

Proceedings of the Thirteenth Language Resources and Evaluation Conference
ISBN:
  • 979-10-95546-72-6

Utgiver

European Language Resources Association
NVI-nivå 1

Om resultatet

Vitenskapelig Kapittel/Artikkel/Konferanseartikkel
Publiseringsår: 2022
Sider: 4477 - 4487
ISBN:
  • 979-10-95546-72-6

Klassifisering

Fagfelt (NPI)

Fagfelt: Lingvistikk
- Fagområde: Humaniora

Beskrivelse Beskrivelse

Tittel

Bootstrapping Text Anonymization Models with Distant Supervision

Sammendrag

We propose a novel method to bootstrap text anonymization models based on distant supervision. Instead of requiring manually labeled training data, the approach relies on a knowledge graph expressing the background information assumed to be publicly available about various individuals. This knowledge graph is employed to automatically annotate text documents including personal data about a subset of those individuals. More precisely, the method determines which text spans ought to be masked in order to guarantee k-anonymity, assuming an adversary with access to both the text documents and the background information expressed in the knowledge graph. The resulting collection of labeled documents is then used as training data to fine-tune a pre-trained language model for text anonymization. We illustrate this approach using a knowledge graph extracted from Wikidata and short biographical texts from Wikipedia. Evaluation results with a RoBERTa-based model and a manually annotated collection of 553 summaries showcase the potential of the approach, but also unveil a number of issues that may arise if the knowledge graph is noisy or incomplete. The results also illustrate that, contrary to most sequence labeling problems, the text anonymization task may admit several alternative solutions.

Bidragsytere

Anthi Papadopoulou

  • Tilknyttet:
    Forfatter
    ved Forskningsgruppen for språkteknologi ved Universitetet i Oslo
Aktiv cristin-person

Pierre Lison

  • Tilknyttet:
    Forfatter
    ved Avdeling for statistisk analyse og maskinlæring for brukermotiverte anvendelser SAMBA ved Norsk Regnesentral

Lilja Øvrelid

  • Tilknyttet:
    Forfatter
    ved Forskningsgruppen for språkteknologi ved Universitetet i Oslo

Ildikó Pilán

  • Tilknyttet:
    Forfatter
    ved Avdeling for statistisk analyse og maskinlæring for brukermotiverte anvendelser SAMBA ved Norsk Regnesentral
1 - 4 av 4

Resultatet er en del av Resultatet er en del av

Proceedings of the Thirteenth Language Resources and Evaluation Conference.

Calzolari, Nicoletta; Béchet, Frédéric; Blache, Philippe; Choukri, Khalid; Cieri, Christopher; Declerck, Thierry; Goggi, Sara; Isahara, Hitoshi; Maegaard, Bente; Mariani, Joseph mfl.. 2022, European Language Resources Association. Vitenskapelig antologi/Konferanseserie
1 - 1 av 1