Takk til her Moshagen for ein veldig interessant e-post. Her er nokre kommentar få kommentarar.
Her òg er det mogleg å rekna precision/recall. Grunninnsikten er at den aktuelle korrigeringa bør koma som fyrste forslag, eller nær toppen, og at irrelevante forslag er støy, og jo mindre støy, jo betre. Både Hunspell og Aspell er svært dårlege når det gjeld støynivået - eg får ofte lange lister med forslag, der dei fleste er irrelevante.
Kan dette ha noko å gjera med korleis ordlistene vert genererte, altso at dei ikkje er spesielt tilpassa norsk ordlaging? Eg har ikkje brukt hunspell eller aspell særlig med dei norske ordlistene før, men har brukt dei engelske ordlistene ein del, og har stikk motsett erfaring. Eg har vore imponert over kor gode forslaga ved skrivefeil har vore, veldig ofte med rett forslag på førsteplass, sjølv når feilstavinga er heller ekstrem (slik ho av og til vert viss eg skriv for fort).
Hunspell står på Wikipedia omtalt som «a spell checker and morphological analyzer designed for languages with rich morphology and complex word compounding or character encoding», noko som kan indikera at hunspell kan spesialtilpassast til norsk mykje betre enn er gjort til no.
Eg ser for eksempel at den engelske affiks-fila inneheld ein regel som seier at stavekontrollen skal prøva «f» viss eit ord inneheld «ph» (og vise versa). For norsk kan ein lett tenka seg andre reglar (for eksempel -ang på slutten av ord kan bli -ant, som i restaurant og departement). Eg reknar med både inngåande kjennskap til norsk som språk, samt ei korpus over vanlige skrivefeil (vil vera nyttig her. Spesielt eit korpus basert på elevtekstar hadde vore fint å hatt.
Oppdaga forresten at Nynorskordboka og Bokmålsordboka på nett har ei oversikt over dei mest søkte orda, med informasjon om kva ord som ikkje er med i ordbøkene. Iallfall desse bør rett forslaga komma opp på første plass for. Eksempel: desverre, narcissist, potensiale, nyskjerrig, blandt, ansinitet, hovedsaklig (denne visste ikkje eg var feil!), paralell, forøvrig, værre, kontigent, alikevel, interesant.
For nynorsk kan -het → -heit, -leik eller -skap gje gode forslag. Og -lge/- lga → -lgje/-lgja vil retta velge → veljge og følge → følgje, som er vanlige feilsøk i Nynorskordboka.
Det kan verka som forslagsmekanismen i hunspell er veldig meir avansert enn aspell, og då vil eg tru det er uheldig å bruka dei gamle affiksfilene.
Kort sagt, forslaga er brukargrensesnittet til stavekontrollen, og jo oftare brukaren opplever at stavekontrollen kjem med relevante/ korrekte forslag, jo meir positivt opplever brukaren stavekontrollen, og omvendt. Med mange irrelevante forslag vil den subjektive/opplevde kvaliteten til stavekontrollen typisk gå ned.
Det er klart. Eg hadde ikkje tenkt over dette før, men innser no at dette er ein veldig viktig del av ein god stavekontroll.
og hvis vi hadde en måte å kvantivisere opplevd kvalitet så hadde vi en målestokk som kunne brukes for å se om vi klarer å forbedre stavekontrollen eller ikke.
Ja, det hadde vore flott å få til.
- de samlar inn korpus for norsk (nb og nn), tekstane bør helst vera
public domain, og ikkje korrekturlesne tidlegare, heller ikkje med stavekontroll
Det hørest vanskelig ut, spesielt sidan teksten må vera elektronisk, og er han elektronisk, er han ofte sjekka med stavekontroll før. Unntak er kanskje e-postar, der det er mindre vanlig å bruka stavekontroll (eller lesa nøye gjennom før ein trykkjer «send»).
På lengre sikt arbeider eg i lag med Arbeidsgruppa for språkteknologi i Norden, ei arbeidsgruppe i Nordisk språkråd, med å få til meir systematiske og jamførande testar av ulike språkkontrollverkty, i fyrste omgang stavekontrollar, på tvers av språk, og for fleire parallelle verkty for kvart språk. Det er altså eit mål å få ein uavhengig og jamførande test av t.d. norske stavekontrollar: MS Word, Aspell, Hunspell, iSpell, m.fl. - alle som finst tilgjengelege.
Det hørest fantastisk ut å få til.