[Jacob Sparre Andersen]
Jeg vil gætte på at det har noget at gøre med at tallene der opgives på en eller anden måde er udregnet som logaritmen til ordhyppighederne (ti-tals-logaritmen skrives normalt »log« i matematik, mens den naturlige logaritme skrives »ln«).
Joda, så langt hadde jeg også kommet med mine gjett. Deretter ble det vanskelig. Jeg fikk privat svar fra Rune med beskjed om at tallet er resultat av følgende formel
<frekvenstall> = -9 + 15 * log(1+log(<antall forekomster i corpus>));
Frekvenstallet vil dermed variere med størrelsen på corpus, og jeg tror derfor at formelen bør endres til å bruke f.eks. prosentandel i corpus i stedet.
Hvilke stavekontrolprogrammer kan bruge ordhyppigheder til noget? Og hvordan?
Byggesystemet for spell-norwegian bruker i dag ordhyppigheten til å bestemme om ordet skal bli med i ordlistene eller ikke. Ta en titt CVS-en tilgjengelig fra URL:https://alioth.debian.org/projects/spell-norwegian/ for å lære mer. Jeg er ikke sikker på om det er slik det bør være i framtiden. Jeg antar opplegget blir helt forandret når vi kan bruke resultatet av korrekturlesningen i stedet for å flikke på det vi har i dag.
Myspell (OOo og Mozilla) bruger bogstavfrekvenser på en eller anden måde. »TRY«-feltet i affiksfilen bør i det mindste indeholde bogstaverne ordnet efter hyppighed.
Jeg aner ikke om det blir gjort i dag, da jeg ikke helt har forstått hvordan stavekontroll-biten av byggingen fungerer. Rekkefølgen i TRY-blokken i nb_NO.myheader er i alle fall ikke alfabetisk, så jeg håper de er sortert i frekvensrekkefølge. :)