Re: [i18n-no] Oppdatere frekvensinformasjonen i bokmålsordlisten?

4 Jan 2006


      [Jacob Sparre Andersen]
...
Jeg vil gætte på at det har noget at gøre med at tallene der opgives
på en eller anden måde er udregnet som logaritmen til
ordhyppighederne (ti-tals-logaritmen skrives normalt »log« i
matematik, mens den naturlige logaritme skrives »ln«).
Joda, så langt hadde jeg også kommet med mine gjett.  Deretter ble det
vanskelig.  Jeg fikk privat svar fra Rune med beskjed om at tallet er
resultat av følgende formel
<frekvenstall> = -9 + 15 * log(1+log(<antall forekomster i corpus>));
Frekvenstallet vil dermed variere med størrelsen på corpus, og jeg
tror derfor at formelen bør endres til å bruke f.eks. prosentandel i
corpus i stedet.
...
Hvilke stavekontrolprogrammer kan bruge ordhyppigheder til noget?
Og hvordan?
Byggesystemet for spell-norwegian bruker i dag ordhyppigheten til å
bestemme om ordet skal bli med i ordlistene eller ikke. Ta en titt
CVS-en tilgjengelig fra
URL:https://alioth.debian.org/projects/spell-norwegian/ for å lære
mer.  Jeg er ikke sikker på om det er slik det bør være i framtiden.
Jeg antar opplegget blir helt forandret når vi kan bruke resultatet av
korrekturlesningen i stedet for å flikke på det vi har i dag.
...
Myspell (OOo og Mozilla) bruger bogstavfrekvenser på en eller anden
måde.  »TRY«-feltet i affiksfilen bør i det mindste indeholde
bogstaverne ordnet efter hyppighed.
Jeg aner ikke om det blir gjort i dag, da jeg ikke helt har forstått
hvordan stavekontroll-biten av byggingen fungerer.  Rekkefølgen i
TRY-blokken i nb_NO.myheader er i alle fall ikke alfabetisk, så jeg
håper de er sortert i frekvensrekkefølge. :)

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

Re: [i18n-no] Oppdatere frekvensinformasjonen i bokmålsordlisten?