Sammendrag
Det er bred enighet om at en fremtidig norsk språkbank bør inneholde et syntaktisk annotert korpus. Et slikt korpus vil ha flere bruksområder, men for de fleste som jobber med analyse av norsk språk, vil det viktigste være at man raskt og effektivt vil kunne finne frem til autentiske eksempler av bestemte grammatiske konstruksjoner i moderne norsk. Istedenfor å måtte søke på bestemte ord, vil man for eksempel kunne søke på konstruksjoner som setningskløyving eller presentering.
En av de største utfordringene for syntaktisk korpusannotasjon er flertydighet. Setningene i korpuset må derfor ikke bare analyseres syntaktisk, de må også disambigueres, og de valgte analysene må lagres i en såkalt trebank. Prosjektet TREPIL, som inngår i Norges forskningsråds KUNSTI-program, har som mål å utvikle metoder og verktøy for semiautomatisk bygging av en norsk trebank.
I dette foredraget vil vi vise hvordan verktøyene utviklet i TREPIL håndterer leksikalsk og syntaktisk flertydighet. Vi har en webbasert, interaktiv annotasjonsplattform som støtter disambiguering gjennom beregning av alle individuelle forskjeller mellom ulike analyser, bl.a. ulike ordkategorier, oppdeling i fraser osv. Vi vil også vise hvordan vår tilnærming fører til en gjensidig berikelse av den lingvistiske informasjonen i korpus, leksikon og grammatikk.
Vis fullstendig beskrivelse