Re: [i18n-no] Møte i stavekontrollprosjektet samt noen nye ord?

22 Jan 2007


      Trond Trosterud wrote:
...
Både ordformlister og lemmalister kan vere interessante, men for 
å lage t.d. ei ispell-liste, er det lemmaliste (+ 
bøyingsklasseinformasjon) er det lemmaliste som trengst.
Ispell-listan behöver egentligen bara innehålla ordet "fiskar", 
den behöver inte veta om det är härlett av fisk eller av fiskare.
Men det vanliga är ju att man lägger till alla tillåtna former, 
när man lägger till ett ord.
Ett mått (en målestokk) på en ispell-ordlistas duglighet är hur 
stor "täckning" den har.  Om jag skriver en text med 100 ord, alla 
med korrekt stavning, hur många blir då (i medeltal) rödmarkerade 
på grund av att ordet saknades i ordlistan?  Man kan förmodligen 
inte förvänta sig att komma över 99 procent.  Men om man inte 
klarar att komma upp i 95 procent, så framstår listan som dålig.
Täckningen är inte det enda måttet på kvalitet i ordlistan, men 
det är ett mått som går att mäta (som lar sig måles).  Ibsens 
"Samlede værker" i 10 bind (no-1900.top i det arkiv jag 
offentliggjorde tidigare idag) innehåller 773446 ord, varav 16762 
eller 2,2 % är "og". Om min ordlista består enbart av ordet "og" 
blir täckningen alltså 2,2 %.  De 500 vanligaste ordformerna ger 
tillsammans 63% täckning.  10.000 ordformer ger 91% och 30.000 
ordformer ger 97% täckning, vilket är fullt acceptabelt.
Men denna ordlista över 30.000 ordformer (från Ibsen) innehåller 
inte ord som "radio" och "telefon".  Ordlistan är inte generellt 
acceptabel, utan bara för stavningskontroll av just denna korpus.  
Ibsen använder faktiskt 3 "telegram", 2 "telegrammet" och 2 
"telegraferet", men inte "telegrams" och "telegrammets".  När man 
lägger till ordet telegram i en ispell-ordlista, lägger man 
vanligen också till alla giltiga ordformer, men det är bara några 
få av dem som väsenligt bidrar till "täckningen".
Svenska och norska har i medeltal cirka 5 ordformer för varje 
lemma.  Men de 30.000 ordformer som krävs för att nå 97% täckning 
(i Ibsens Samlede værker) kan inte skapas från 6.000 lemma.  
Troligen behövs det mellan 15.000 och 20.000 lemma i ordlistan.
Och för att få en generellt acceptabel ordlista, behöver vi en 
mycket stor textkorpus, med både "radio" och "telefon" och 
"iPhone".  Man kunde tänka att norska sökföretag som FAST, 
Alltheweb, Kvasir och Sesam kunde ha en stor textkorpus i de 
webbtexter de har samlat in och arkiverat.  Någon som vet?
Några som gjort analyser av det här slaget är ungrarna Géza Németh 
and Csaba Zainkó, "Multilingual Statistical Text Analysis, Zipf's 
Law and Hungarian Speech Generation", 
http://www.nslij-genetics.org/wli/zipf/nemeth02.pdf
-- 
  Lars Aronsson (lars@aronsson.se)
  Aronsson Datateknik - http://aronsson.se

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

Re: [i18n-no] Møte i stavekontrollprosjektet samt noen nye ord?