Cristin-resultat-ID: 1359276
Sist endret: 13. februar 2017, 18:34
NVI-rapporteringsår: 2016
Resultat
Vitenskapelig Kapittel/Artikkel/Konferanseartikkel
2016

OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles

Bidragsytere:
  • Pierre Lison og
  • Jörg Tiedemann

Bok

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)
ISBN:
  • 978-2-9517408-9-1

Utgiver

European Language Resources Association
NVI-nivå 1

Om resultatet

Vitenskapelig Kapittel/Artikkel/Konferanseartikkel
Publiseringsår: 2016
Sider: 923 - 929
ISBN:
  • 978-2-9517408-9-1
Open Access

Klassifisering

Fagfelt (NPI)

Fagfelt: Medier og kommunikasjon
- Fagområde: Humaniora

Beskrivelse Beskrivelse

Tittel

OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles

Sammendrag

We present a new major release of the OpenSubtitles collection of parallel corpora. The release is compiled from a large database of movie and TV subtitles and includes a total of 1689 bitexts spanning 2.6 billion sentences across 60 languages. The release also incorporates a number of enhancements in the preprocessing and alignment of the subtitles, such as the automatic correction of OCR errors and the use of meta-data to estimate the quality of each subtitle and score subtitle pairs.

Bidragsytere

Aktiv cristin-person

Pierre Lison

  • Tilknyttet:
    Forfatter
    ved Forskningsgruppen for språkteknologi ved Universitetet i Oslo

Jörg Tiedemann

  • Tilknyttet:
    Forfatter
    ved Helsingin yliopisto / Helsingfors universitet
1 - 2 av 2

Resultatet er en del av Resultatet er en del av

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016).

Calzolari, Nicoletta; Choukri, Khalid; Declerck, Thierry; Grobelnik, Marko; Maegaard, Bente; Mariani, Joseph; Moreno, Asunción; Odijk, Jan; Piperidis, Stelios. 2016, European Language Resources Association. HELLAS, CNR, SLOVENIA, UPC, KU, TYSKLAND, NEDERLAND, FRANKRIKEVitenskapelig antologi/Konferanseserie
1 - 1 av 1