Trond Trosterud wrote:
Både ordformlister og lemmalister kan vere interessante, men for å lage t.d. ei ispell-liste, er det lemmaliste (+ bøyingsklasseinformasjon) er det lemmaliste som trengst.
Ispell-listan behöver egentligen bara innehålla ordet "fiskar", den behöver inte veta om det är härlett av fisk eller av fiskare. Men det vanliga är ju att man lägger till alla tillåtna former, när man lägger till ett ord.
Ett mått (en målestokk) på en ispell-ordlistas duglighet är hur stor "täckning" den har. Om jag skriver en text med 100 ord, alla med korrekt stavning, hur många blir då (i medeltal) rödmarkerade på grund av att ordet saknades i ordlistan? Man kan förmodligen inte förvänta sig att komma över 99 procent. Men om man inte klarar att komma upp i 95 procent, så framstår listan som dålig.
Täckningen är inte det enda måttet på kvalitet i ordlistan, men det är ett mått som går att mäta (som lar sig måles). Ibsens "Samlede værker" i 10 bind (no-1900.top i det arkiv jag offentliggjorde tidigare idag) innehåller 773446 ord, varav 16762 eller 2,2 % är "og". Om min ordlista består enbart av ordet "og" blir täckningen alltså 2,2 %. De 500 vanligaste ordformerna ger tillsammans 63% täckning. 10.000 ordformer ger 91% och 30.000 ordformer ger 97% täckning, vilket är fullt acceptabelt.
Men denna ordlista över 30.000 ordformer (från Ibsen) innehåller inte ord som "radio" och "telefon". Ordlistan är inte generellt acceptabel, utan bara för stavningskontroll av just denna korpus. Ibsen använder faktiskt 3 "telegram", 2 "telegrammet" och 2 "telegraferet", men inte "telegrams" och "telegrammets". När man lägger till ordet telegram i en ispell-ordlista, lägger man vanligen också till alla giltiga ordformer, men det är bara några få av dem som väsenligt bidrar till "täckningen".
Svenska och norska har i medeltal cirka 5 ordformer för varje lemma. Men de 30.000 ordformer som krävs för att nå 97% täckning (i Ibsens Samlede værker) kan inte skapas från 6.000 lemma. Troligen behövs det mellan 15.000 och 20.000 lemma i ordlistan.
Och för att få en generellt acceptabel ordlista, behöver vi en mycket stor textkorpus, med både "radio" och "telefon" och "iPhone". Man kunde tänka att norska sökföretag som FAST, Alltheweb, Kvasir och Sesam kunde ha en stor textkorpus i de webbtexter de har samlat in och arkiverat. Någon som vet?
Några som gjort analyser av det här slaget är ungrarna Géza Németh and Csaba Zainkó, "Multilingual Statistical Text Analysis, Zipf's Law and Hungarian Speech Generation", http://www.nslij-genetics.org/wli/zipf/nemeth02.pdf