Torsdag 13. september 2007 skreiv Karl Ove Hufthammer:
Eg kan henta ut oversikt og frekvensordlister over alle orda me har brukt i omsettingane våre (bokmål, nynorsk og nordsamisk). Det vert nok nokon hundre tusen ord …
Eg har no lagt til eit skript for å gjera dette. De finn det i SVN i
skolelinux/i18n/skript/frekvens-ordliste.sh
Å kjøra det på omsettingane våre går overraskande kjapt (35 sekund på mi *ganske* gamle maskin).
Litt info:
Det vert ikkje skild mellom store og små bokstavar (ord som begynner med stor forbokstav er oftast ein setningsstartar og sjeldnare eit særnamn).
Alt som ikkje er bokstavar vert handtert som teiknsetting, slik at for eksempel «HTML-dokument» og «e-post» vert tolka som dei fire orda «html», «dokument», «e» og «post».
Kort og/eller lågfrekvente ord vert filtrerte vekk. Som standard vert ord på to eller færre bokstavar, eller som berre førekjem éin gong filtrert vekk. Dette er lett å endra på; sjå i fila.
Skriptet kan òg ha feil og andre manglar!
Elles kan ein ikkje rekna med at frekvensinfoen er representativ for noko anna enn omsetting av KDE-programvare. For eksempel er ord som «konqueror» eller «gaute» overrepresentert i forhold til nynorsk elles. :)
Til orientering: Her er dei aller mest brukte orda i nynorskomsettinga av KDE 4 (venstre kolonne viser kor mange gongar kvart ord er brukt):
6950 til 6042 for 4689 ikkje 4021 som 3751 kan 2678 med 2536 det 2453 ein 2422 vil 2083 denne 2001 eit 1951 dette 1939 eller 1759 vert 1749 vel 1711 ved 1686 skal 1670 frå 1640 kde 1449 den 1435 vis 1293 opp 1252 har 1221 endra 1205 inn 1203 alle 1185 dei 1175 bruk 1045 dersom