[i18n-no] Re: Oppdatere frekvensinformasjonen i bokmålsordlisten?

14 Jan 2006


      [Petter Reinholdtsen]
...
Cc til den forrige vedlikeholderen av ordlisten, i tilfelle han
husker noe.
Jeg fikk endel verdifulle innspill fra Rune, som her gjengis i sin
helhet med hans aksept.
Jeg er ikke spesielt effektiv som videresender, så jeg kommer ikke til
å fungere som mellommann i denne utvekslingen veldig ofte. :)
From: Rune Kleveland
Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten?
To: Petter Reinholdtsen
Date: Wed, 04 Jan 2006 10:19:10 +0100
Petter Reinholdtsen pere@hungry.com writes:
...
Ta jeg tittet på lenkesiden til stavekontrollen, så kom jeg på at vi
jo har tilgang til endel frekvensinformasjon for norske ord fra
URL:http://helmer.aksis.uib.no/nta/.  Der er blant annet en
frekvensliste med 465.000 ord.  Den bør kunne brukes til å oppdatere
frekvenstallene i norsk.words, men etter å ha tittet på dette en stund
så stopper det hele opp.  Hva betyr egentlig frekvenstallet i
norsk.words?  Hvordan oversetter jeg fra frekvensinformasjonen
tilgjengelig i
f.eks. URL:http://torvald.aksis.uib.no/nta/ord10k.txt, der
forekomsten er oppgitt i promille og over til tallet som brukes i
norsk.words?  Det ser ut til å være et tall i området 0-31.
Det eneste jeg finner for å forklare hva dette tallet representerer er
følgende kommentar i toppen av filen:
Each word is hyphenated at compound points, and has a frequency
  indicator essentially of log log type.
Hva betyr 'log log type' her, og hvordan oversetter jeg fra frekvens i
prosent eller promille og til denne 'log log type'?
Noen som vet?
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt.  Kanskje du bør
multiplisere s med en konstant for å så det til å 'passe'.
Hvilke tekster er din frekvensordliste generert fra?
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med
lengde mer enn 1000 tegn og 'få' spesielle ord.  Ut fra dette har jeg
generert en liste med 100 000 forslag til nye rotord delt med gamle
orddelingsmønstre.  Men jeg har ikke tid til å gå gjennom listen og
rette feil manuelt.
Ser det er et initiativ på http://no.speling.org/dokumentasjon.html om
å klassifisere ord som substandtiv etc.  Det er flott.
Men hvis dere skal lykkes med dette bør dere forsøke å generere
informasjon i dette formatet automatisk først.  Det er også en stor
fordel med tilgang til store frekvensordlister når man sjekker ord for
å unngå feil og for å generere forslag til bøyningsmønstre.  Jeg tror
det vil gi dårlige/tilfeldige resultater hvisfolk sitter med en editor
og behandler ett og ett ord uten stadardiserte hjelpemidler.  Og dere
må tenke ut en bedre måte å representere orddelingsregler.
From: Petter Reinholdtsen
Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten?
To: Rune Kleveland
Date: Thu, 5 Jan 2006 18:24:13 +0100
Jeg fikk ikke noe svar på om du mente å sende din mail til listen
eller kun til meg, så jeg antar du ikke vil ha dette ut på listene og
sender det derfor kun til deg.
[Rune Kleveland]
...
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt.  Kanskje du bør
multiplisere s med en konstant for å så det til å 'passe'.
OK.  Hvor stort utvalg tar formelen og de gjeldende tallene
utgangspunkt i?  Antall ganger et ord forekommer vil jo være avhengig
av hvor mange ord en totalt har tatt utgangspunkt i.
...
Hvilke tekster er din frekvensordliste generert fra?
Det eneste jeg har av info om dette er fra
URL:http://helmer.aksis.uib.no/nta/ som bare sier 14.6 millioner
ord.
...
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med
lengde mer enn 1000 tegn og 'få' spesielle ord.  Ut fra dette har
jeg generert en liste med 100 000 forslag til nye rotord delt med
gamle orddelingsmønstre.  Men jeg har ikke tid til å gå gjennom
listen og rette feil manuelt.
Kan du sjekke det inn på Alioth eller legge det på web en eller annen
plass, så vi har den tilgjengelig alle sammen?
...
Men hvis dere skal lykkes med dette bør dere forsøke å generere
informasjon i dette formatet automatisk først.
Noen ide om hvordan vi kan få det til?
...
Det er også en stor fordel med tilgang til store frekvensordlister
når man sjekker ord for å unngå feil og for å generere forslag til
bøyningsmønstre.  Jeg tror det vil gi dårlige/tilfeldige resultater
hvisfolk sitter med en editor og behandler ett og ett ord uten
stadardiserte hjelpemidler.
Mulig.  Jeg tror tanken er å motvirke dette problemet ved å sende
samme ord til flere personer for korrekturlesning.  Danskene har fått
dette til, så jeg tror det er mulig. :)
...
Og dere må tenke ut en bedre måte å representere orddelingsregler.
Hva er problemet med den som er foreslått.
From: Rune Kleveland
Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten?
To: Petter Reinholdtsen
Date: Thu, 05 Jan 2006 20:57:44 +0100
Petter Reinholdtsen pere@hungry.com writes:
...
Jeg fikk ikke noe svar på om du mente å sende din mail til listen
eller kun til meg, så jeg antar du ikke vil ha dette ut på listene og
sender det derfor kun til deg.
Det blir fort mye tilfeldig støy på lister.
...
[Rune Kleveland]
...
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt.  Kanskje du bør
multiplisere s med en konstant for å så det til å 'passe'.
OK.  Hvor stort utvalg tar formelen og de gjeldende tallene
utgangspunkt i?  Antall ganger et ord forekommer vil jo være avhengig
av hvor mange ord en totalt har tatt utgangspunkt i.
Dette kommer essensielt fra frekvensordlisten til Atekst, og jeg tror
det ikke er antall forekomster av ordet totalt, men antall artikler
ordet forekommer i.  Husker ikke antallet, men det er jo bare å prøve
med ulike konstanter foran s og se hvor store klassene blir.  Eneste
grunn til at jeg fant på den var at klassene skulle bli passelig
store.
...
...
Hvilke tekster er din frekvensordliste generert fra?
Det eneste jeg har av info om dette er fra
URL:http://helmer.aksis.uib.no/nta/ som bare sier 14.6 millioner
ord.
Det er nøyaktig 1% av grunnlaget for min frekvensordliste -)
...
...
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med
lengde mer enn 1000 tegn og 'få' spesielle ord.  Ut fra dette har
jeg generert en liste med 100 000 forslag til nye rotord delt med
gamle orddelingsmønstre.  Men jeg har ikke tid til å gå gjennom
listen og rette feil manuelt.
Kan du sjekke det inn på Alioth eller legge det på web en eller annen
plass, så vi har den tilgjengelig alle sammen?
Her er filen jeg har generert og jobbet med.
http://euler.opoint.com/nyeord.txt.gz
Ta en kikk og få et inntrykk av problemet, så kan vi finne ut hvordan
folk kan jobbe smart med denne.  Det er mange rare ord her, men de
brukes faktisk alle sammen.
Jeg har kommet til ord som slutter på e.  Når jeg har jobbet med filen
har jeg brukt et hjelpeprogram som kommer med forslag til flagg basert
på frekvensordlisten.  Disse kalle automatisk fra emacs når markøren
står over et ord.
./getnear -e 'doping-razzia/A'
dopingrazzia/                              507
dopingrazzia/A     dopingrazziaen          204
                   dopingrazziaens           0
-----------------
E       7 dopingrazziaer
Vi hadde flagget A og systemet foreslår E i tillegg.
./getnear -e 'doping-razzia/AE'
dopingrazzia/                              507
dopingrazzia/A     dopingrazziaen          204
                   dopingrazziaens           0
dopingrazzia/E     dopingrazziaer           15
Kvaliteten på arbeidet som blir gjort blir høyere med dette
hjelpemiddelet -)
Her er eksempel på ord som ligger nær mer vanlige ord.  Det er nyttig
for å finne ut om et ord er skrivefeil og om det skal være med i lista
selv om det er et lovlig ord.
select word,near,near_expl from word where near>"" limit 30000,10;
+-------------+---------+-------------------------------------------------------------------------------+
| word        | near    | near_expl                                                                     |
+-------------+---------+-------------------------------------------------------------------------------+
| Högbom      |    3975 | Hegbom (-2286)                                                                |
| tjore       |    1653 | tjære (-5651)                                                                 |
| Inderbø     |   30548 | Indrebø (-2182)                                                               |
| familieband |    9008 | familiebånd (-2767)                                                           |
| Hermands    |    6726 | Hermans (-1009)                                                               |
| Benthe      |    5536 | Bente (-86164)                                                                |
| Wisner      |     552 | Eisner (-2926)                                                                |
| kalrt       | 1113742 | klart (-581510) kalt (-129314) kaldt (-64766) kart (-40193)                   |
| Müsli       |     987 | Mosli (-1259)                                                                 |
| kurret      |   66952 | kurset (-37402) surret (-10121) purret (-7695) karret (-4360) kurert (-3617)  |
+-------------+---------+-------------------------------------------------------------------------------+
Det man etter mitt syn burde gjøre var å utvikle en web-applikasjon
for å behandle ord med tilgang til et verktøy som for eksempel
getnear-programmet, vise utnitt av ordlisten sortert på ulike måter
etc.  Med ajax-teknologi kan man lage mye kult.  Men jeg vet ikke om
dere har folk som kan få til det.
...
...
Men hvis dere skal lykkes med dette bør dere forsøke å generere
informasjon i dette formatet automatisk først.
Noen ide om hvordan vi kan få det til?
Man kan ta utgangspunkt i bøyningsflaggene etter at ordlisten har gått
gjennom munchlist.  Ord som har flaggene /AEG er for eksempel alltid(?)
substandtiver.
Det er også lurt å sortere ordlisten på siste del av rotordet for å
behandle sammensatte ord ord med samme sisteord samtidig.
Til slutt er det alle ord med mange flagg eller spesielle
flaggkombinasjoner.  Men da er det i hvert fall en kortere liste å gå
gjennom.
...
...
Det er også en stor fordel med tilgang til store frekvensordlister
når man sjekker ord for å unngå feil og for å generere forslag til
bøyningsmønstre.  Jeg tror det vil gi dårlige/tilfeldige resultater
hvisfolk sitter med en editor og behandler ett og ett ord uten
stadardiserte hjelpemidler.
Mulig.  Jeg tror tanken er å motvirke dette problemet ved å sende
samme ord til flere personer for korrekturlesning.  Danskene har fått
dette til, så jeg tror det er mulig. :)
Men det føles bedre om man jobber smart mens man får ting til...
...
...
Og dere må tenke ut en bedre måte å representere orddelingsregler.
Hva er problemet med den som er foreslått.
At man ikke klarer å dele alle ordene riktig og konsekvent, og det
blir altfor mange bindestreker i lange sammensatte ord.  Jeg tror
dessuten ikke det er nødvendig å ha noe tegn for ulovlig deling fordi
det er ikke lov å dele der det ikke er en strek.  Et mulig unntak er
tilfeldige komiske delinger som oppstår når et av delordene deles rett
men det ser rart ut: sydame-rikaner etc, men det klarer man ikke å se
uten hjelpemidler.
Del sammensatte ord i sammensetning, for eksempel
barnehage-assistent
barne-hage
som det er gjort i dag. Del ett nivå...
Lag en egen fil som inneholder ikke-sammensatte ord og hvordan de
deles og generer enkeltord-patterns fra denne, og la en med peiling på
orddeling ta seg av den.  Det er en vanskelig jobb!  Bruk scriptene i
ordlistepakken for å generere orddelingsmønstre.

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

[i18n-no] Re: Oppdatere frekvensinformasjonen i bokmålsordlisten?