[Petter Reinholdtsen]
Cc til den forrige vedlikeholderen av ordlisten, i tilfelle han husker noe.
Jeg fikk endel verdifulle innspill fra Rune, som her gjengis i sin helhet med hans aksept.
Jeg er ikke spesielt effektiv som videresender, så jeg kommer ikke til å fungere som mellommann i denne utvekslingen veldig ofte. :)
From: Rune Kleveland Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten? To: Petter Reinholdtsen Date: Wed, 04 Jan 2006 10:19:10 +0100
Petter Reinholdtsen pere@hungry.com writes:
Ta jeg tittet på lenkesiden til stavekontrollen, så kom jeg på at vi jo har tilgang til endel frekvensinformasjon for norske ord fra URL:http://helmer.aksis.uib.no/nta/. Der er blant annet en frekvensliste med 465.000 ord. Den bør kunne brukes til å oppdatere frekvenstallene i norsk.words, men etter å ha tittet på dette en stund så stopper det hele opp. Hva betyr egentlig frekvenstallet i norsk.words? Hvordan oversetter jeg fra frekvensinformasjonen tilgjengelig i f.eks. URL:http://torvald.aksis.uib.no/nta/ord10k.txt, der forekomsten er oppgitt i promille og over til tallet som brukes i norsk.words? Det ser ut til å være et tall i området 0-31.
Det eneste jeg finner for å forklare hva dette tallet representerer er følgende kommentar i toppen av filen:
Each word is hyphenated at compound points, and has a frequency indicator essentially of log log type.
Hva betyr 'log log type' her, og hvordan oversetter jeg fra frekvens i prosent eller promille og til denne 'log log type'?
Noen som vet?
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt. Kanskje du bør multiplisere s med en konstant for å så det til å 'passe'.
Hvilke tekster er din frekvensordliste generert fra?
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med lengde mer enn 1000 tegn og 'få' spesielle ord. Ut fra dette har jeg generert en liste med 100 000 forslag til nye rotord delt med gamle orddelingsmønstre. Men jeg har ikke tid til å gå gjennom listen og rette feil manuelt.
Ser det er et initiativ på http://no.speling.org/dokumentasjon.html om å klassifisere ord som substandtiv etc. Det er flott.
Men hvis dere skal lykkes med dette bør dere forsøke å generere informasjon i dette formatet automatisk først. Det er også en stor fordel med tilgang til store frekvensordlister når man sjekker ord for å unngå feil og for å generere forslag til bøyningsmønstre. Jeg tror det vil gi dårlige/tilfeldige resultater hvisfolk sitter med en editor og behandler ett og ett ord uten stadardiserte hjelpemidler. Og dere må tenke ut en bedre måte å representere orddelingsregler.
From: Petter Reinholdtsen Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten? To: Rune Kleveland Date: Thu, 5 Jan 2006 18:24:13 +0100
Jeg fikk ikke noe svar på om du mente å sende din mail til listen eller kun til meg, så jeg antar du ikke vil ha dette ut på listene og sender det derfor kun til deg.
[Rune Kleveland]
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt. Kanskje du bør multiplisere s med en konstant for å så det til å 'passe'.
OK. Hvor stort utvalg tar formelen og de gjeldende tallene utgangspunkt i? Antall ganger et ord forekommer vil jo være avhengig av hvor mange ord en totalt har tatt utgangspunkt i.
Hvilke tekster er din frekvensordliste generert fra?
Det eneste jeg har av info om dette er fra URL:http://helmer.aksis.uib.no/nta/ som bare sier 14.6 millioner ord.
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med lengde mer enn 1000 tegn og 'få' spesielle ord. Ut fra dette har jeg generert en liste med 100 000 forslag til nye rotord delt med gamle orddelingsmønstre. Men jeg har ikke tid til å gå gjennom listen og rette feil manuelt.
Kan du sjekke det inn på Alioth eller legge det på web en eller annen plass, så vi har den tilgjengelig alle sammen?
Men hvis dere skal lykkes med dette bør dere forsøke å generere informasjon i dette formatet automatisk først.
Noen ide om hvordan vi kan få det til?
Det er også en stor fordel med tilgang til store frekvensordlister når man sjekker ord for å unngå feil og for å generere forslag til bøyningsmønstre. Jeg tror det vil gi dårlige/tilfeldige resultater hvisfolk sitter med en editor og behandler ett og ett ord uten stadardiserte hjelpemidler.
Mulig. Jeg tror tanken er å motvirke dette problemet ved å sende samme ord til flere personer for korrekturlesning. Danskene har fått dette til, så jeg tror det er mulig. :)
Og dere må tenke ut en bedre måte å representere orddelingsregler.
Hva er problemet med den som er foreslått.
From: Rune Kleveland Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten? To: Petter Reinholdtsen Date: Thu, 05 Jan 2006 20:57:44 +0100
Petter Reinholdtsen pere@hungry.com writes:
Jeg fikk ikke noe svar på om du mente å sende din mail til listen eller kun til meg, så jeg antar du ikke vil ha dette ut på listene og sender det derfor kun til deg.
Det blir fort mye tilfeldig støy på lister.
[Rune Kleveland]
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt. Kanskje du bør multiplisere s med en konstant for å så det til å 'passe'.
OK. Hvor stort utvalg tar formelen og de gjeldende tallene utgangspunkt i? Antall ganger et ord forekommer vil jo være avhengig av hvor mange ord en totalt har tatt utgangspunkt i.
Dette kommer essensielt fra frekvensordlisten til Atekst, og jeg tror det ikke er antall forekomster av ordet totalt, men antall artikler ordet forekommer i. Husker ikke antallet, men det er jo bare å prøve med ulike konstanter foran s og se hvor store klassene blir. Eneste grunn til at jeg fant på den var at klassene skulle bli passelig store.
Hvilke tekster er din frekvensordliste generert fra?
Det eneste jeg har av info om dette er fra URL:http://helmer.aksis.uib.no/nta/ som bare sier 14.6 millioner ord.
Det er nøyaktig 1% av grunnlaget for min frekvensordliste -)
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med lengde mer enn 1000 tegn og 'få' spesielle ord. Ut fra dette har jeg generert en liste med 100 000 forslag til nye rotord delt med gamle orddelingsmønstre. Men jeg har ikke tid til å gå gjennom listen og rette feil manuelt.
Kan du sjekke det inn på Alioth eller legge det på web en eller annen plass, så vi har den tilgjengelig alle sammen?
Her er filen jeg har generert og jobbet med.
http://euler.opoint.com/nyeord.txt.gz
Ta en kikk og få et inntrykk av problemet, så kan vi finne ut hvordan folk kan jobbe smart med denne. Det er mange rare ord her, men de brukes faktisk alle sammen.
Jeg har kommet til ord som slutter på e. Når jeg har jobbet med filen har jeg brukt et hjelpeprogram som kommer med forslag til flagg basert på frekvensordlisten. Disse kalle automatisk fra emacs når markøren står over et ord.
./getnear -e 'doping-razzia/A'
dopingrazzia/ 507 dopingrazzia/A dopingrazziaen 204 dopingrazziaens 0 ----------------- E 7 dopingrazziaer
Vi hadde flagget A og systemet foreslår E i tillegg.
./getnear -e 'doping-razzia/AE' dopingrazzia/ 507 dopingrazzia/A dopingrazziaen 204 dopingrazziaens 0 dopingrazzia/E dopingrazziaer 15
Kvaliteten på arbeidet som blir gjort blir høyere med dette hjelpemiddelet -)
Her er eksempel på ord som ligger nær mer vanlige ord. Det er nyttig for å finne ut om et ord er skrivefeil og om det skal være med i lista selv om det er et lovlig ord.
select word,near,near_expl from word where near>"" limit 30000,10; +-------------+---------+-------------------------------------------------------------------------------+ | word | near | near_expl | +-------------+---------+-------------------------------------------------------------------------------+ | Högbom | 3975 | Hegbom (-2286) | | tjore | 1653 | tjære (-5651) | | Inderbø | 30548 | Indrebø (-2182) | | familieband | 9008 | familiebånd (-2767) | | Hermands | 6726 | Hermans (-1009) | | Benthe | 5536 | Bente (-86164) | | Wisner | 552 | Eisner (-2926) | | kalrt | 1113742 | klart (-581510) kalt (-129314) kaldt (-64766) kart (-40193) | | Müsli | 987 | Mosli (-1259) | | kurret | 66952 | kurset (-37402) surret (-10121) purret (-7695) karret (-4360) kurert (-3617) | +-------------+---------+-------------------------------------------------------------------------------+
Det man etter mitt syn burde gjøre var å utvikle en web-applikasjon for å behandle ord med tilgang til et verktøy som for eksempel getnear-programmet, vise utnitt av ordlisten sortert på ulike måter etc. Med ajax-teknologi kan man lage mye kult. Men jeg vet ikke om dere har folk som kan få til det.
Men hvis dere skal lykkes med dette bør dere forsøke å generere informasjon i dette formatet automatisk først.
Noen ide om hvordan vi kan få det til?
Man kan ta utgangspunkt i bøyningsflaggene etter at ordlisten har gått gjennom munchlist. Ord som har flaggene /AEG er for eksempel alltid(?) substandtiver.
Det er også lurt å sortere ordlisten på siste del av rotordet for å behandle sammensatte ord ord med samme sisteord samtidig.
Til slutt er det alle ord med mange flagg eller spesielle flaggkombinasjoner. Men da er det i hvert fall en kortere liste å gå gjennom.
Det er også en stor fordel med tilgang til store frekvensordlister når man sjekker ord for å unngå feil og for å generere forslag til bøyningsmønstre. Jeg tror det vil gi dårlige/tilfeldige resultater hvisfolk sitter med en editor og behandler ett og ett ord uten stadardiserte hjelpemidler.
Mulig. Jeg tror tanken er å motvirke dette problemet ved å sende samme ord til flere personer for korrekturlesning. Danskene har fått dette til, så jeg tror det er mulig. :)
Men det føles bedre om man jobber smart mens man får ting til...
Og dere må tenke ut en bedre måte å representere orddelingsregler.
Hva er problemet med den som er foreslått.
At man ikke klarer å dele alle ordene riktig og konsekvent, og det blir altfor mange bindestreker i lange sammensatte ord. Jeg tror dessuten ikke det er nødvendig å ha noe tegn for ulovlig deling fordi det er ikke lov å dele der det ikke er en strek. Et mulig unntak er tilfeldige komiske delinger som oppstår når et av delordene deles rett men det ser rart ut: sydame-rikaner etc, men det klarer man ikke å se uten hjelpemidler.
Del sammensatte ord i sammensetning, for eksempel
barnehage-assistent barne-hage
som det er gjort i dag. Del ett nivå...
Lag en egen fil som inneholder ikke-sammensatte ord og hvordan de deles og generer enkeltord-patterns fra denne, og la en med peiling på orddeling ta seg av den. Det er en vanskelig jobb! Bruk scriptene i ordlistepakken for å generere orddelingsmønstre.