Sjur Nørstebø Moshagen:
Hunspell-formalismen er ikkje ein god formalisme for å halda ved like og byggja ut eit stort leksikon ("ordliste") for avansert korrektursjekking.
Har du synspunkt på kva ein god formalisme for å laga eit slik leksikon for norsk (nynorsk og bokmål) vil vera, og korleis datagrunnlaget til Ordbanken kan inngå? Eg tenkjer i første omgang på hunspell-ordlister som sluttproduktet.
Vi i Divvun-prosjektet har generert stavekontrollordlister for Hunspell for nord- og lulesamisk, men resultatet er ikkje bra nok, og det er store problem med å få samansette ord til å fungera som dei skal.
Er hovudproblemet overgenerering av samansette ord, eller det motsette? Eller noko anna?
med i ordbøkene. Iallfall desse bør rett forslaga komma opp på første plass for. Eksempel: desverre, narcissist, potensiale, nyskjerrig, blandt, ansinitet, hovedsaklig (denne visste ikkje eg var feil!), paralell, forøvrig, værre, kontigent, alikevel, interesant.
Dette er det enkelt å få til.
Du tenker no på eigne reglar for akkurat desse orda, eller på utvikling av generelle reglar som òg handterer desse?
For nynorsk kan -het → -heit, -leik eller -skap gje gode forslag.
Med tyngde på *kan*. Eg har ein gong prøvd det same (berre sjekk med eit -het-ord i den nynorske stavekontrollen i MS Word) - i dag er eg ikkje stolt over resultatet. Med ei konservativ (i teknisk meining, ikkje språkpolitisk) tilnærming kan det fungera.
Eg har ikkje MS Word, so eg kan ikkje sjekka dette. Kva var problemet? Og kva er den konservative tilnærminga du tenker på?
Det kan verka som forslagsmekanismen i hunspell er veldig meir avansert enn aspell, og då vil eg tru det er uheldig å bruka dei gamle affiksfilene.
Det er ingen direkte samanheng mellom forslagsmekanismen, og affiksfilene (bortsett frå at "lokale", dvs språkspesifikke tilpassingar til forslagsmekanismen som oftast står i starten av affiksfila, sjølv om dei ikkje har noko med affiksa å gjera).
Eg har no sett litt hunspell, og innsett dette (sjølv om eg ikkje var heilt sikker før eg las det du skreiv). Men er ikkje dei lokale tilpassingane for forslagsmekanismen ganske omfattande, då? Det ser iallfall slik ut ut frå manualsida. I tillegg er det mulig å legga inn informasjon om grunnordet, som i:
feet st:foot is:plural mice st:mouse is:plural teeth st:tooth is:plural
Men det er ikkje heilt klart (for meg) korleis slik informasjon vert brukt.
Eg er heller ikkje spesielt imponert over forslagsmekanismen til Hunspell
- han er heilt ok, men heller ikkje meir. Derimot vart vi svært
imponerte over forslagsmekanismen til underleverandøren vår for MS Office-versjonen, Polderland. *Utan* tilpassingar til samisk gav han eit langt over forventa resultat.
Hm. Synd forslaga til hunspell som standard ikkje er gode nok. Men det er so vidt eg veit det einaste aktuelle frie rammeverket for stavekontroll. Og med tilpassingar bør me forhåpentligvis kunna gjera forbetringar.
Ja, det hadde vore flott å få til.
Jf forslaget om å bruka testbenken vår. Han er framleis under utvikling, men er meir enn bra nok no til å gjennomføra slike testar.
Eg er absolutt interessert i å bruka testbenken til stavekontrollen eg ønskjer å utvikla.
Det hørest vanskelig ut, spesielt sidan teksten må vera elektronisk, og er han elektronisk, er han ofte sjekka med stavekontroll før. Unntak er kanskje e-postar, der det er mindre vanlig å bruka stavekontroll (eller lesa nøye gjennom før ein trykkjer «send»).
Forslaget om e-post var bra, det hadde eg ikkje tenkt på sjølv. Dei er offentlege, dei er ofte ikkje korrekturlesne som du nemner, og finst ferdige i elektronisk form. Men eit e-postkorpus vil ha ei slagside mot korte ord, slik at ein i mindre grad utfordrar evna til å handtera samansette ord. Det er likevel *mykje* betre enn ingenting.
Ei anna kjelde kan vera omsettingsfilene våre til KDE på bokmål og nynorsk. Det negative her kan vera overvekt av tekniske omgrep, og til dels «ikkje- norske» ord (namn på teknologiar, programnamn på engelsk, osv.). Men det vil absolutt vera mange nysamansette ord (som ikkje finst i Ordbanken), som vil vera ei god utfordring for stavekontrollen.