Petter Reinholdtsen kirjoitti 22. jan. 2007 kello 14.09:
Finns det något liknande för norska ordfrekvenser?
Merk skilnaden mellom ordform-frekvensar og lemma-frekvensar. Den første er lett å lage: Ta ei tekstsamling, del opp i ord-per-line, og sorter etter frekvens. For den andre trengst det grammatisk analyse som reduserer dei ulike ordformene til same leksem, eller lemma (ha, har, hadde, hatt => HA; fisk, fisken, fiskar, fiskane, fisks, fiskens, fiskars, fiskanes => FISK, fiskar, fiskaren, fiskarar, fiskarane, fiskars, fiskarens, fiskarars, fiskaranes => FISKAR) (merk særleg "fiskar", som kan høyre til to ulike klasser).
Både ordformlister og lemmalister kan vere interessante, men for å lage t.d. ei ispell-liste, er det lemmaliste (+ bøyingsklasseinformasjon) er det lemmaliste som trengst.
Evt. er det sjølvsagt viktig å køyre frekvensordformslister mot stavekontrollar, for å sjå når det tar til å butte imot.
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------