Cristin-resultat-ID: 2151508
Sist endret: 16. februar 2024, 14:45
NVI-rapporteringsår: 2023
Resultat
Vitenskapelig Kapittel/Artikkel/Konferanseartikkel
2023

Generation of Replacement Options in Text Sanitization

Bidragsytere:
  • Annika Willoch Olstad
  • Anthi Papadopoulou og
  • Pierre Lison

Bok

Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa)
ISBN:
  • 978-99-1621-999-7

Utgiver

University of Tartu
NVI-nivå 0

Serie

NEALT Proceedings Series
ISSN 1736-8197
e-ISSN 1736-6305
NVI-nivå 1

Om resultatet

Vitenskapelig Kapittel/Artikkel/Konferanseartikkel
Publiseringsår: 2023
Volum: 52
Hefte: 1
Sider: 292 - 300
ISBN:
  • 978-99-1621-999-7

Klassifisering

Fagfelt (NPI)

Fagfelt: Lingvistikk
- Fagområde: Humaniora

Beskrivelse Beskrivelse

Tittel

Generation of Replacement Options in Text Sanitization

Sammendrag

The purpose of text sanitization is to edit text documents to mask text spans that may directly or indirectly reveal personal information. An important problem in text sanitization is to find less specific, yet still informative replacements for each text span to mask. We present an approach to generate possible replacements using a combination of heuristic rules and an ontology derived from Wikidata. Those replacement options are hierarchically structured and cover various types of personal identifiers. Using this approach, we extend a recently released text sanitization dataset with manually selected replacements. The outcome of this data collection shows that the approach is able to suggest appropriate replacement options for most text spans.

Bidragsytere

Annika Willoch Olstad

  • Tilknyttet:
    Forfatter
    ved Institutt for informatikk ved Universitetet i Oslo

Anthi Papadopoulou

  • Tilknyttet:
    Forfatter
    ved Forskningsgruppen for språkteknologi ved Universitetet i Oslo
Aktiv cristin-person

Pierre Lison

  • Tilknyttet:
    Forfatter
    ved Avdeling for statistisk analyse og maskinlæring for brukermotiverte anvendelser SAMBA ved Norsk Regnesentral
1 - 3 av 3

Resultatet er en del av Resultatet er en del av

Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa).

Alumäe, Tanel; Fishel, Mark. 2023, University of Tartu. TÜ, TALTECHVitenskapelig antologi/Konferanseserie
1 - 1 av 1