On Tue, 2011-01-25 at 18:59 +0100, Axel Bojer wrote:
Et annet spørsmål vi ikke på straksen visste var om det finnes detaljerte regler nedskrevet for ordsammensetninger på norsk?
I så fall, hvor finner man dem? De bør man jo kunne bruke som et utgangspunkt.
Høres bra ut.
Vi bør også bestemme lisens så fort som mulig.
Regler for bøyning av ulike ord og ordklasser finnes det jo lister for, og de bør jo tas med. Eller kanskje Hunspell allerede gjør dette, Arno?
Ja, til en viss grad. Hunspell har regler for bøying i .aff-filen sin, men bare per ord. Samsvarsbøyning (flerE rødE bilER) må ordnes med grammatikkontroll. I hunspell's .aff kan det for eksempel stå (litt forenklet):
SFX V 3 <div tall > e et e # fortid; skrell en E og legg til ET <div tall > e ede e # adjektiv; hentEDE, skrell en E og legg til EDE <div tall > e s e # verb; henteS, skrell en E og legg til ES
så inneholder .dic-filen bare hente/V poste/V
flagget V forteller hunspell at ordet kan behandles/bøyes som under seksjon V i .aff-filen.
Dermed godtar hunspell 6 ord selv om .dic bare inneholder 2: hente (rotord) hentet hentede hentes poste (rotord) postet postede postes
osv. Veldig bra for språk med mye regelrett bøying. Quichua har for eksempel [minst] 34 bøyninger av hvert verb, så med bare _ett_ rot-verb godtar hunspell 35 forskjellige ord:)
Spansk er også fint her, 16 tider av verbet × 6 personer = 96 varianter av hvert verb. Ett rotord->97 aksepterte varianter.
Norsk er litt verre fordi det ikke er så regelrett, men jeg tror nok det hjelper en del med hunspell uansett.
Selvfølgelig er det ikke bare verb som kan bøyes, men et hvilket som helst ord.
Arno