Den 26. mai. 2007 kl. 17.37 skrev Karl Ove Hufthammer:
Tysdag 22. mai 2007 skreiv lars nygaard:
Dette kan være av interesse:
Absolutt. Kva er grunnen til hunspell i staden for aspell?
Eg veit ikkje kvifor Lars Nygaard har valt hunspell, men ville ha gjort det same sjølv. Heilt kort oppsummert kan ein seia det slik at for eit språk som norsk, er det på tide å kasta aspell på historias skraphaug, og hunspell er det beste alternativet som finst tilgjengeleg som open kjeldekode.
Litt meir detaljert om desse bastante påstandane:
Norsk har, som mange andre språk, (meir eller mindre) fri samansetjing, og eit bøyingssystem som er ein god del meir komplekst enn engelsk (men som likevel er latterleg enkelt jf med mange andre språk). Og norsk har ein litt brukandes avleiing (i hop utgjer desse tre fenomena grovt sett det ein kallar morfologi i språkvitskapen). Aspell er innanfor visse grenser i stand til å handtera bøying og avleiing, men er fullstendig sjanselaus når det gjeld ein fornuftig og korrekt formalisering av samansetjing - det vesle som finst er berre tull. Dette betyr i praksis at Aspell-baserte stavekontrollar for norsk for dei fleste brukarar *alltid* vil koma til kort, og ikkje bli eit fullgodt verkty.
Hunspell, derimot, har laga eit skikkeleg rammeverk for å handtera og formalisera både bøying, avleiing og samansetjing, og er så godt som perfekt for norsk - vi treng ikkje meir. (Derimot er det ikkje godt nok for språk som finsk og samisk, sjølv om det er mogleg å koma rundt dei relevante manglane.)
Datafilene frå norsk ordbank inneheld diverre ikkje informasjon om samansetjing, men når Lars Nygaard har valt å bruka hunspell framfor aspell tolkar eg det som at han ser framover, og det er eg svært glad for. Dette er verkeleg det vi treng:)
Det neste vi treng er å byggja ut dataa frå norsk ordbank til å inkludera informasjon om samansetjing for å utnytta styrken til hunspell for å få betre dekning. Aspell-støtta burde endrast til å bli eit derivat frå hunspellversjonen utan samansetjingsinfo (som Aspell ikkje kan bruka), og som dermed berre inneheld dei orda som er eksplisitt innlagde. Ein slik stavekontroll har òg viktige bruksområde, men for fleirtalet brukarar er ein god og presis samansetjingsmodell i stavekontrollen det einaste fornuftige.
Beste helsing Sjur