Trond Trosterud wrote:
Troligen behövs det mellan 15.000 och 20.000 lemma i ordlistan.
Ja, absolutt, minst. Og det føreset samansetjingar.
Förtydligande: Nu menade jag för att uppnå 97% täckning av Ibsens "Samlede værker" i 10 bind, det som kräver minst 30.000 ordformer, utan automatiska sammansättningar. Det borde gå att klara med 20.000 lemma + böjningar.
För att få en generellt användbar norsk stavningsordlista krävs givetvis en mycket större ordlista än 20.000 lemma.
Det intressanta ur den här diskussionen är givetvis inte att stavningskontrollera Ibsen, utan att få till en mätning eller uppskattning (estimat) av hur stor täckning de nuvarande stavningsordlistorna har.
Min gissning är att den nuvarande svenska (från 1997, med 24.489 lemma) har en täckning runt 94% och det menar jag är för lågt. En ny svensk ordlista (DSSO 1.22 från december 2006) har 44.000 lemma, som expanderar till 242.000 ordformer.
Det vore intressant att höra om någon har konkret nytta av de norska frekvensordlistorna ur Projekt Runeberg, http://runeberg.org/words/frekvens-20070122.html eller om nyttan kan ökas genom förbättringar av metoden? Jag ser detta som en prototyp till hur jag kunde göra liknande listor för danska och svenska.