Sjur Nørstebø Moshagen wrote:
Hunspell, derimot, har laga eit skikkeleg rammeverk for å handtera og formalisera både bøying, avleiing og samansetjing, og er så godt som perfekt for norsk - vi treng ikkje meir. (Derimot er det ikkje godt nok for språk som finsk og samisk, sjølv om det er mogleg å koma rundt dei relevante manglane.)
Datafilene frå norsk ordbank inneheld diverre ikkje informasjon om samansetjing, men når Lars Nygaard har valt å bruka hunspell framfor aspell tolkar eg det som at han ser framover, og det er eg svært glad for. Dette er verkeleg det vi treng:)
Det neste vi treng er å byggja ut dataa frå norsk ordbank til å inkludera informasjon om samansetjing for å utnytta styrken til hunspell for å få betre dekning.
Det stemmer, ja. Hunspell har gode sammensetningshåndteringsmuligheter, men det er en utfordring å bruke disse mulighetene til å lage en sammensetningsmodul med en god balanse mellom presisjon og funnrate (altså som aksepterer alle korrekte sammensetninger, men ikke tror at feilstavede ord er sammensetninger). Jeg har lagt til flagget "/root" for ord som er i grunnform; det er ment som en hjelp for sammensetningsmodulen.
Her er det altså behov for frivillige ...
mvh, lars nygaard