Lars Aronsson kirjoitti 22. jan. 2007 kello 22.47:
Trond Trosterud wrote:
Både ordformlister og lemmalister kan vere interessante, men for å lage t.d. ei ispell-liste, er det lemmaliste (+ bøyingsklasseinformasjon) er det lemmaliste som trengst.
Ispell-listan behöver egentligen bara innehålla ordet "fiskar", den behöver inte veta om det är härlett av fisk eller av fiskare. Men det vanliga är ju att man lägger till alla tillåtna former, när man lägger till ett ord.
Poenget er at du i ei ispelliste vil ha fisk/x fiskar/x
der /x er ein peikar til leksikonet -/s/en/ens/ar/ars/ane/anes
Alternativt kan du bruke ei ordformliste og ikkje morfologi i det heile., og då kan "fiskar" representere både eintalsforma, fleirtalsforma og verbforma.
Troligen behövs det mellan 15.000 och 20.000 lemma i ordlistan.
Ja, absolutt, minst. Og det føreset samansetjingar.
Och för att få en generellt acceptabel ordlista, behöver vi en mycket stor textkorpus, med både "radio" och "telefon" och "iPhone". Man kunde tänka att norska sökföretag som FAST, Alltheweb, Kvasir och Sesam kunde ha en stor textkorpus i de webbtexter de har samlat in och arkiverat. Någon som vet?
Det største er aviskorpuset i Bergen. Eg veit ikje om dei vil gje frå seg ordlister. Men det dei har er ikkje korrekturlest, så det er ei anna feilkjelde.
Några som gjort analyser av det här slaget är ungrarna Géza Németh and Csaba Zainkó, "Multilingual Statistical Text Analysis, Zipf's Law and Hungarian Speech Generation", http://www.nslij-genetics.org/wli/zipf/nemeth02.pdf
Som sagt, det beste ville vere å kunne gå ut frå ei leksemliste med informasjon om bøying.
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------