Prosjektets hovedmål er å lage et system basert på kunstig intelligens, som kan gjenkjenne historisk norsk håndskrift som systemet ikke har sett før og ikke er inkludert i treningen. Dette målet passer svært godt med Nasjonalbibliotekets rolle som et senter for kulturarvsdigitalisering, som inkluderer håndskriftsgjenkjenning, for norske gallerier, biblioteker, arkiver og museer (GLAM).
Selv om det har vært en rivende utvikling i kunstig intelligens, datalingvistikk og nevrale nett finnes det ikke et slikt generelt håndskriftsgjenkjenningssystem for norsk i dag. Det finnes bare spesialiserte systemer som bare kan gjenkjenne håndskrift fra skribenter i treningssettet med tilstrekkelig kvalitet. Delmål er å bedre spesiell gjenkjenning for skribenter i treningssettet, øke antall skribenter brukt i treningssettene og automatisere treningsprosessen i så stor grad som mulig. Følgende trinn vil bli brukt å oppnå målene: -Lage et robust layout-analysesystem ut fra eksisterende systemer, som også kan tilpasses til en skribentstil. Layout-analyse, det vil si å finne tekstlinjer og deres rekkefølge, er et viktig trinn i gjenkjenningsprosessen. -Bruke og adaptere state-of-the-art nevral nettverksteknologi for ord og tegngjenkjenning. -Benytte avansert datalingvistikk for historisk norsk for å bedre gjenkjenningen. -Integrere nye teknikker som å lage kunstige dokumenter som etterligner håndskriften til en skribent (ved å bruke GAN-nettverk), men med et kjent innhold som kan brukes til trening uten manuelt arbeid. Videre benytte en trenbar egenskapsbasert metode (?Zero-shot word spotting?) for å gjenkjenne ord og koble sammen med resultater fra andre metoder. -Generere et stort treningssett med ulike skriftstiler og forsøke å minimere manuelt arbeid i forbindelse med transkriberingen. Prosjektet vil i stor grad vektlegge testing og analyse av testresultater i hele utviklingsprosessen for å følge progresjonen og finne problemer som krever spesielle tiltak.