lars nygaard skrev:
Sjur Nørstebø Moshagen wrote:
Hunspell, derimot, har laga eit skikkeleg rammeverk for å handtera og formalisera både bøying, avleiing og samansetjing, og er så godt som perfekt for norsk - vi treng ikkje meir. (Derimot er det ikkje godt nok for språk som finsk og samisk, sjølv om det er mogleg å koma rundt dei relevante manglane.)
Datafilene frå norsk ordbank inneheld diverre ikkje informasjon om samansetjing, men når Lars Nygaard har valt å bruka hunspell framfor aspell tolkar eg det som at han ser framover, og det er eg svært glad for. Dette er verkeleg det vi treng:)
Det neste vi treng er å byggja ut dataa frå norsk ordbank til å inkludera informasjon om samansetjing for å utnytta styrken til hunspell for å få betre dekning.
Det stemmer, ja. Hunspell har gode sammensetningshåndteringsmuligheter, men det er en utfordring å bruke disse mulighetene til å lage en sammensetningsmodul med en god balanse mellom presisjon og funnrate (altså som aksepterer alle korrekte sammensetninger, men ikke tror at feilstavede ord er sammensetninger). Jeg har lagt til flagget "/root" for ord som er i grunnform; det er ment som en hjelp for sammensetningsmodulen.
Her er det altså behov for frivillige ...
mvh, lars nygaard
Men hvorfor to prosjekter? Vi har jo allerede no.speling. org, som har de gamle ordlistene, der vi også skal legge inn ordbankens ord (de vi ikke har) of kvalitetssikre de bare vi har. Hva er fordelen med en egen plassering / et eget prosjekt for Hunspell?
Mvh Axel Bojer