Ta jeg tittet på lenkesiden til stavekontrollen, så kom jeg på at vi jo har tilgang til endel frekvensinformasjon for norske ord fra URL:http://helmer.aksis.uib.no/nta/. Der er blant annet en frekvensliste med 465.000 ord. Den bør kunne brukes til å oppdatere frekvenstallene i norsk.words, men etter å ha tittet på dette en stund så stopper det hele opp. Hva betyr egentlig frekvenstallet i norsk.words? Hvordan oversetter jeg fra frekvensinformasjonen tilgjengelig i f.eks. URL:http://torvald.aksis.uib.no/nta/ord10k.txt, der forekomsten er oppgitt i promille og over til tallet som brukes i norsk.words? Det ser ut til å være et tall i området 0-31.
Det eneste jeg finner for å forklare hva dette tallet representerer er følgende kommentar i toppen av filen:
Each word is hyphenated at compound points, and has a frequency indicator essentially of log log type.
Hva betyr 'log log type' her, og hvordan oversetter jeg fra frekvens i prosent eller promille og til denne 'log log type'?
Noen som vet?
Cc til den forrige vedlikeholderen av ordlisten, i tilfelle han husker noe.