ons, 04,.01.2006 kl. 23.24 +0100, skrev Petter Reinholdtsen:
<frekvenstall> = -9 + 15 * log(1+log(<antall forekomster i corpus>));
Frekvenstallet vil dermed variere med størrelsen på corpus, og jeg tror derfor at formelen bør endres til å bruke f.eks. prosentandel i corpus i stedet.
Grunnen til at det brukes en logaritmisk skala kan være at mange hyppig brukte ord som «en» og «i» brukes så mye at andre, mindre brukte ord, som «notar» og «pons» drukner i sammenhengen. Man skal i det minste ha ganske stor presisjon på tallene hvis man bruker prosentandeler og skal finne ut at «notar» skal være med i en ordliste mens «pons» ikke skal det. Bruker man en logaritmisk skala kan man ta høyde for de virkelig mye brukte ordene, samtidig som man kan skille mellom «lite brukt» og «sjeldenhet» / «fagterminologi», uten å måtte bruke så alt for høy presisjon på tallene.
Forresten: Hvis du bruker en «float» skulle det gå bra. Presisjonen på «float» er logaritmisk allerede i utgangspunktet.
Harald