Re: [i18n-no] Oppdatere frekvensinformasjonen i bokmålsordlisten?

6 Jan 2006


      ons, 04,.01.2006 kl. 23.24 +0100, skrev Petter Reinholdtsen:
...
<frekvenstall> = -9 + 15 * log(1+log(<antall forekomster i corpus>));
Frekvenstallet vil dermed variere med størrelsen på corpus, og jeg
tror derfor at formelen bør endres til å bruke f.eks. prosentandel i
corpus i stedet.
Grunnen til at det brukes en logaritmisk skala kan være at mange hyppig
brukte ord som «en» og «i» brukes så mye at andre, mindre brukte ord,
som «notar» og «pons» drukner i sammenhengen.
Man skal i det minste ha ganske stor presisjon på tallene hvis man
bruker prosentandeler og skal finne ut at «notar» skal være med i en
ordliste mens «pons» ikke skal det.
Bruker man en logaritmisk skala kan man ta høyde for de virkelig mye
brukte ordene, samtidig som man kan skille mellom «lite brukt» og
«sjeldenhet» / «fagterminologi», uten å måtte bruke så alt for høy
presisjon på tallene.
Forresten: Hvis du bruker en «float» skulle det gå bra. Presisjonen på
«float» er logaritmisk allerede i utgangspunktet.
Harald

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

Re: [i18n-no] Oppdatere frekvensinformasjonen i bokmålsordlisten?