Sjur Nørstebø Moshagen skreiv:
Det neste vi treng er å byggja ut dataa frå norsk ordbank til å inkludera informasjon om samansetjing for å utnytta styrken til hunspell for å få betre dekning.
Kan du skissera kva for informasjon som trengst? Eg har prøvd meg fram (og lese litt), og har ein viss idé om kva som må til:
Det er enkelt å opna for fri samansetjing (slik at ord som «sykkelbutikk» blir godtekne). Det er òg enkelt å leggja visse føringar på bruken av -e- og -s- (reglane 35, 22, 40 og 42 i Johannessen og Hauglin (1996) [1]).
Det er ikkje fullt så lett å innskrenka dekninga til desse reglane. Visse ord ser ut til å krevja -e-, eller -s-, eller ingenting:
«slott» tek *alltid* -s-: slottsball, slottshage, slottseigar, slottsferie
Det nesten likelydande ordet «flått» kan derimot *ikkje* ta -s-: flåttbitt, flåttinfeksjon, flåttangrep
«fisk» tek *alltid* -e-: fisketur, fiskegarn, fiskeslo, fiskebåt
Går det an å forutsjå slikt, eller er det informasjon som må leggjast til kvart enkelt ord?
[1] http://folk.uio.no/jannebj/Scan.Conf.Turku-96.ps
Med helsing, Gaute Hvoslef Kvalnes