[Petter Reinholdtsen]
Så vidt jeg kan se er ikke fullformsomrdlisten egnet som direkte kilde for stavekontrollen. Den har endelig merkelige oppføringer (f.eks. "a-", hva alle dager er det for et ord?), og mangler en god del oppføringer (alle genitivsformer, samt en god del sammensatte ord). Den kan dermed ikke mates direkte til stavekontrollsysteme, og det må ekstra arbeid til. I dag har vi kun et fungerende opplegg for å styre dette arbeidet, og det er no.speling.org.
Da har statistikken og no.speling.org-filene blitt oppdatert med ordbank-ordene. Jeg er veldig overrasket over at alle disse ser ut til a automatisk ha havnet på nivå 4. Antagelig burde jeg ha lagt dem inn på en annen måte, da det vel kun er normerte ord som skal inn som nivå-4-ord.
Uansett, nå kan en i stavekontrollkildekodekatalogen kjøre 'make speling-new.nb speling-new.nn' for å sammenligne stavekontrollen med no.speling.ord-dataene. Der ser jeg:
nye på speling.no: 392670 speling-new.nb mangler på speling.no: 2 speling-missing.nb omstridt på speling.no: 267 speling-disputed.nb
nye på speling.no: 337507 speling-new.nn mangler på speling.no: 10 speling-missing.nn omstridt på speling.no: 43 speling-disputed.nn
Det er altså mellom 300 og 400 tusen nye ord.
En rask titt i speling-new.nb og speling-new.nn viser at det er svært mange ord som ikke bør være med i stavekontrollen. F.eks. er følgende øverst i nb-filen: $ % & 'kke 'n -abel -abelt -able -ablere -ablest -ableste -akter -aktere -akteren -akterer -akterne -aktig -aktige -aktigere. Disse er øverst i nn-filen: $ % & 'n + -abel -abelt -ablare -ablast -ablaste -able -aktar -aktarane -aktarar -aktaren -aktig -aktigare.
Jeg er litt usikker på hvordan vi bør håndtere disse, i og med at alle ordene ble klassifisert som nivå-4-ord.
Vennlig hilsen,