Ta jeg tittet på lenkesiden til stavekontrollen, så kom jeg på at vi jo har tilgang til endel frekvensinformasjon for norske ord fra URL:http://helmer.aksis.uib.no/nta/. Der er blant annet en frekvensliste med 465.000 ord. Den bør kunne brukes til å oppdatere frekvenstallene i norsk.words, men etter å ha tittet på dette en stund så stopper det hele opp. Hva betyr egentlig frekvenstallet i norsk.words? Hvordan oversetter jeg fra frekvensinformasjonen tilgjengelig i f.eks. URL:http://torvald.aksis.uib.no/nta/ord10k.txt, der forekomsten er oppgitt i promille og over til tallet som brukes i norsk.words? Det ser ut til å være et tall i området 0-31.
Det eneste jeg finner for å forklare hva dette tallet representerer er følgende kommentar i toppen av filen:
Each word is hyphenated at compound points, and has a frequency indicator essentially of log log type.
Hva betyr 'log log type' her, og hvordan oversetter jeg fra frekvens i prosent eller promille og til denne 'log log type'?
Noen som vet?
Cc til den forrige vedlikeholderen av ordlisten, i tilfelle han husker noe.
Petter Reinholdtsen skrev:
Det eneste jeg finner for å forklare hva dette tallet representerer er følgende kommentar i toppen av filen:
Each word is hyphenated at compound points, and has a frequency indicator essentially of log log type.
Hva betyr 'log log type' her, og hvordan oversetter jeg fra frekvens i prosent eller promille og til denne 'log log type'?
Jeg vil gætte på at det har noget at gøre med at tallene der opgives på en eller anden måde er udregnet som logaritmen til ordhyppighederne (ti-tals-logaritmen skrives normalt »log« i matematik, mens den naturlige logaritme skrives »ln«).
Hvilke stavekontrolprogrammer kan bruge ordhyppigheder til noget? Og hvordan?
Myspell (OOo og Mozilla) bruger bogstavfrekvenser på en eller anden måde. »TRY«-feltet i affiksfilen bør i det mindste indeholde bogstaverne ordnet efter hyppighed.
Jacob
[Jacob Sparre Andersen]
Jeg vil gætte på at det har noget at gøre med at tallene der opgives på en eller anden måde er udregnet som logaritmen til ordhyppighederne (ti-tals-logaritmen skrives normalt »log« i matematik, mens den naturlige logaritme skrives »ln«).
Joda, så langt hadde jeg også kommet med mine gjett. Deretter ble det vanskelig. Jeg fikk privat svar fra Rune med beskjed om at tallet er resultat av følgende formel
<frekvenstall> = -9 + 15 * log(1+log(<antall forekomster i corpus>));
Frekvenstallet vil dermed variere med størrelsen på corpus, og jeg tror derfor at formelen bør endres til å bruke f.eks. prosentandel i corpus i stedet.
Hvilke stavekontrolprogrammer kan bruge ordhyppigheder til noget? Og hvordan?
Byggesystemet for spell-norwegian bruker i dag ordhyppigheten til å bestemme om ordet skal bli med i ordlistene eller ikke. Ta en titt CVS-en tilgjengelig fra URL:https://alioth.debian.org/projects/spell-norwegian/ for å lære mer. Jeg er ikke sikker på om det er slik det bør være i framtiden. Jeg antar opplegget blir helt forandret når vi kan bruke resultatet av korrekturlesningen i stedet for å flikke på det vi har i dag.
Myspell (OOo og Mozilla) bruger bogstavfrekvenser på en eller anden måde. »TRY«-feltet i affiksfilen bør i det mindste indeholde bogstaverne ordnet efter hyppighed.
Jeg aner ikke om det blir gjort i dag, da jeg ikke helt har forstått hvordan stavekontroll-biten av byggingen fungerer. Rekkefølgen i TRY-blokken i nb_NO.myheader er i alle fall ikke alfabetisk, så jeg håper de er sortert i frekvensrekkefølge. :)
ons, 04,.01.2006 kl. 23.24 +0100, skrev Petter Reinholdtsen:
<frekvenstall> = -9 + 15 * log(1+log(<antall forekomster i corpus>));
Frekvenstallet vil dermed variere med størrelsen på corpus, og jeg tror derfor at formelen bør endres til å bruke f.eks. prosentandel i corpus i stedet.
Grunnen til at det brukes en logaritmisk skala kan være at mange hyppig brukte ord som «en» og «i» brukes så mye at andre, mindre brukte ord, som «notar» og «pons» drukner i sammenhengen. Man skal i det minste ha ganske stor presisjon på tallene hvis man bruker prosentandeler og skal finne ut at «notar» skal være med i en ordliste mens «pons» ikke skal det. Bruker man en logaritmisk skala kan man ta høyde for de virkelig mye brukte ordene, samtidig som man kan skille mellom «lite brukt» og «sjeldenhet» / «fagterminologi», uten å måtte bruke så alt for høy presisjon på tallene.
Forresten: Hvis du bruker en «float» skulle det gå bra. Presisjonen på «float» er logaritmisk allerede i utgangspunktet.
Harald
[Petter Reinholdtsen]
Cc til den forrige vedlikeholderen av ordlisten, i tilfelle han husker noe.
Jeg fikk endel verdifulle innspill fra Rune, som her gjengis i sin helhet med hans aksept.
Jeg er ikke spesielt effektiv som videresender, så jeg kommer ikke til å fungere som mellommann i denne utvekslingen veldig ofte. :)
From: Rune Kleveland Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten? To: Petter Reinholdtsen Date: Wed, 04 Jan 2006 10:19:10 +0100
Petter Reinholdtsen pere@hungry.com writes:
Ta jeg tittet på lenkesiden til stavekontrollen, så kom jeg på at vi jo har tilgang til endel frekvensinformasjon for norske ord fra URL:http://helmer.aksis.uib.no/nta/. Der er blant annet en frekvensliste med 465.000 ord. Den bør kunne brukes til å oppdatere frekvenstallene i norsk.words, men etter å ha tittet på dette en stund så stopper det hele opp. Hva betyr egentlig frekvenstallet i norsk.words? Hvordan oversetter jeg fra frekvensinformasjonen tilgjengelig i f.eks. URL:http://torvald.aksis.uib.no/nta/ord10k.txt, der forekomsten er oppgitt i promille og over til tallet som brukes i norsk.words? Det ser ut til å være et tall i området 0-31.
Det eneste jeg finner for å forklare hva dette tallet representerer er følgende kommentar i toppen av filen:
Each word is hyphenated at compound points, and has a frequency indicator essentially of log log type.
Hva betyr 'log log type' her, og hvordan oversetter jeg fra frekvens i prosent eller promille og til denne 'log log type'?
Noen som vet?
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt. Kanskje du bør multiplisere s med en konstant for å så det til å 'passe'.
Hvilke tekster er din frekvensordliste generert fra?
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med lengde mer enn 1000 tegn og 'få' spesielle ord. Ut fra dette har jeg generert en liste med 100 000 forslag til nye rotord delt med gamle orddelingsmønstre. Men jeg har ikke tid til å gå gjennom listen og rette feil manuelt.
Ser det er et initiativ på http://no.speling.org/dokumentasjon.html om å klassifisere ord som substandtiv etc. Det er flott.
Men hvis dere skal lykkes med dette bør dere forsøke å generere informasjon i dette formatet automatisk først. Det er også en stor fordel med tilgang til store frekvensordlister når man sjekker ord for å unngå feil og for å generere forslag til bøyningsmønstre. Jeg tror det vil gi dårlige/tilfeldige resultater hvisfolk sitter med en editor og behandler ett og ett ord uten stadardiserte hjelpemidler. Og dere må tenke ut en bedre måte å representere orddelingsregler.
From: Petter Reinholdtsen Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten? To: Rune Kleveland Date: Thu, 5 Jan 2006 18:24:13 +0100
Jeg fikk ikke noe svar på om du mente å sende din mail til listen eller kun til meg, så jeg antar du ikke vil ha dette ut på listene og sender det derfor kun til deg.
[Rune Kleveland]
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt. Kanskje du bør multiplisere s med en konstant for å så det til å 'passe'.
OK. Hvor stort utvalg tar formelen og de gjeldende tallene utgangspunkt i? Antall ganger et ord forekommer vil jo være avhengig av hvor mange ord en totalt har tatt utgangspunkt i.
Hvilke tekster er din frekvensordliste generert fra?
Det eneste jeg har av info om dette er fra URL:http://helmer.aksis.uib.no/nta/ som bare sier 14.6 millioner ord.
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med lengde mer enn 1000 tegn og 'få' spesielle ord. Ut fra dette har jeg generert en liste med 100 000 forslag til nye rotord delt med gamle orddelingsmønstre. Men jeg har ikke tid til å gå gjennom listen og rette feil manuelt.
Kan du sjekke det inn på Alioth eller legge det på web en eller annen plass, så vi har den tilgjengelig alle sammen?
Men hvis dere skal lykkes med dette bør dere forsøke å generere informasjon i dette formatet automatisk først.
Noen ide om hvordan vi kan få det til?
Det er også en stor fordel med tilgang til store frekvensordlister når man sjekker ord for å unngå feil og for å generere forslag til bøyningsmønstre. Jeg tror det vil gi dårlige/tilfeldige resultater hvisfolk sitter med en editor og behandler ett og ett ord uten stadardiserte hjelpemidler.
Mulig. Jeg tror tanken er å motvirke dette problemet ved å sende samme ord til flere personer for korrekturlesning. Danskene har fått dette til, så jeg tror det er mulig. :)
Og dere må tenke ut en bedre måte å representere orddelingsregler.
Hva er problemet med den som er foreslått.
From: Rune Kleveland Subject: Re: Oppdatere frekvensinformasjonen i bokmålsordlisten? To: Petter Reinholdtsen Date: Thu, 05 Jan 2006 20:57:44 +0100
Petter Reinholdtsen pere@hungry.com writes:
Jeg fikk ikke noe svar på om du mente å sende din mail til listen eller kun til meg, så jeg antar du ikke vil ha dette ut på listene og sender det derfor kun til deg.
Det blir fort mye tilfeldig støy på lister.
[Rune Kleveland]
Frekvenskategoriene er regnet ut fra absolutt frekvens hva linjen
if (s<=5) {t=s} else {t=-9+15*log(1+log(s))}
s er antall ganger order har forekommet totalt. Kanskje du bør multiplisere s med en konstant for å så det til å 'passe'.
OK. Hvor stort utvalg tar formelen og de gjeldende tallene utgangspunkt i? Antall ganger et ord forekommer vil jo være avhengig av hvor mange ord en totalt har tatt utgangspunkt i.
Dette kommer essensielt fra frekvensordlisten til Atekst, og jeg tror det ikke er antall forekomster av ordet totalt, men antall artikler ordet forekommer i. Husker ikke antallet, men det er jo bare å prøve med ulike konstanter foran s og se hvor store klassene blir. Eneste grunn til at jeg fant på den var at klassene skulle bli passelig store.
Hvilke tekster er din frekvensordliste generert fra?
Det eneste jeg har av info om dette er fra URL:http://helmer.aksis.uib.no/nta/ som bare sier 14.6 millioner ord.
Det er nøyaktig 1% av grunnlaget for min frekvensordliste -)
Jeg har nå en liste generert fra ca 4 mill norske nettartikler med lengde mer enn 1000 tegn og 'få' spesielle ord. Ut fra dette har jeg generert en liste med 100 000 forslag til nye rotord delt med gamle orddelingsmønstre. Men jeg har ikke tid til å gå gjennom listen og rette feil manuelt.
Kan du sjekke det inn på Alioth eller legge det på web en eller annen plass, så vi har den tilgjengelig alle sammen?
Her er filen jeg har generert og jobbet med.
http://euler.opoint.com/nyeord.txt.gz
Ta en kikk og få et inntrykk av problemet, så kan vi finne ut hvordan folk kan jobbe smart med denne. Det er mange rare ord her, men de brukes faktisk alle sammen.
Jeg har kommet til ord som slutter på e. Når jeg har jobbet med filen har jeg brukt et hjelpeprogram som kommer med forslag til flagg basert på frekvensordlisten. Disse kalle automatisk fra emacs når markøren står over et ord.
./getnear -e 'doping-razzia/A'
dopingrazzia/ 507 dopingrazzia/A dopingrazziaen 204 dopingrazziaens 0 ----------------- E 7 dopingrazziaer
Vi hadde flagget A og systemet foreslår E i tillegg.
./getnear -e 'doping-razzia/AE' dopingrazzia/ 507 dopingrazzia/A dopingrazziaen 204 dopingrazziaens 0 dopingrazzia/E dopingrazziaer 15
Kvaliteten på arbeidet som blir gjort blir høyere med dette hjelpemiddelet -)
Her er eksempel på ord som ligger nær mer vanlige ord. Det er nyttig for å finne ut om et ord er skrivefeil og om det skal være med i lista selv om det er et lovlig ord.
select word,near,near_expl from word where near>"" limit 30000,10; +-------------+---------+-------------------------------------------------------------------------------+ | word | near | near_expl | +-------------+---------+-------------------------------------------------------------------------------+ | Högbom | 3975 | Hegbom (-2286) | | tjore | 1653 | tjære (-5651) | | Inderbø | 30548 | Indrebø (-2182) | | familieband | 9008 | familiebånd (-2767) | | Hermands | 6726 | Hermans (-1009) | | Benthe | 5536 | Bente (-86164) | | Wisner | 552 | Eisner (-2926) | | kalrt | 1113742 | klart (-581510) kalt (-129314) kaldt (-64766) kart (-40193) | | Müsli | 987 | Mosli (-1259) | | kurret | 66952 | kurset (-37402) surret (-10121) purret (-7695) karret (-4360) kurert (-3617) | +-------------+---------+-------------------------------------------------------------------------------+
Det man etter mitt syn burde gjøre var å utvikle en web-applikasjon for å behandle ord med tilgang til et verktøy som for eksempel getnear-programmet, vise utnitt av ordlisten sortert på ulike måter etc. Med ajax-teknologi kan man lage mye kult. Men jeg vet ikke om dere har folk som kan få til det.
Men hvis dere skal lykkes med dette bør dere forsøke å generere informasjon i dette formatet automatisk først.
Noen ide om hvordan vi kan få det til?
Man kan ta utgangspunkt i bøyningsflaggene etter at ordlisten har gått gjennom munchlist. Ord som har flaggene /AEG er for eksempel alltid(?) substandtiver.
Det er også lurt å sortere ordlisten på siste del av rotordet for å behandle sammensatte ord ord med samme sisteord samtidig.
Til slutt er det alle ord med mange flagg eller spesielle flaggkombinasjoner. Men da er det i hvert fall en kortere liste å gå gjennom.
Det er også en stor fordel med tilgang til store frekvensordlister når man sjekker ord for å unngå feil og for å generere forslag til bøyningsmønstre. Jeg tror det vil gi dårlige/tilfeldige resultater hvisfolk sitter med en editor og behandler ett og ett ord uten stadardiserte hjelpemidler.
Mulig. Jeg tror tanken er å motvirke dette problemet ved å sende samme ord til flere personer for korrekturlesning. Danskene har fått dette til, så jeg tror det er mulig. :)
Men det føles bedre om man jobber smart mens man får ting til...
Og dere må tenke ut en bedre måte å representere orddelingsregler.
Hva er problemet med den som er foreslått.
At man ikke klarer å dele alle ordene riktig og konsekvent, og det blir altfor mange bindestreker i lange sammensatte ord. Jeg tror dessuten ikke det er nødvendig å ha noe tegn for ulovlig deling fordi det er ikke lov å dele der det ikke er en strek. Et mulig unntak er tilfeldige komiske delinger som oppstår når et av delordene deles rett men det ser rart ut: sydame-rikaner etc, men det klarer man ikke å se uten hjelpemidler.
Del sammensatte ord i sammensetning, for eksempel
barnehage-assistent barne-hage
som det er gjort i dag. Del ett nivå...
Lag en egen fil som inneholder ikke-sammensatte ord og hvordan de deles og generer enkeltord-patterns fra denne, og la en med peiling på orddeling ta seg av den. Det er en vanskelig jobb! Bruk scriptene i ordlistepakken for å generere orddelingsmønstre.
Petter Reinholdtsen og Rune Kleveland skrev:
[ en masse gode ting ]
Pointen om bedre værktøjer end bare korrekturlæsning af en streng ad gangen er jeg helt enig i. Samtidig er der dog også det at jo mere komplicerede (sprogligt såvel som teknisk) værktøjerne er, jo færre kan være med.
Det sprogligt og teknisk enkleste er nok en webside hvor folk bare krydser af ved rigtigt/ved ikke/forkert ud for hver streng på listen. Det er et værktøj som alle brugere af sproget og computere burde kunne håndtere, og derfor er det også noget vi bør prioritere højt så længe vi har ordlister der er mangelfulde.
Noget endnu mere enkelt, men også lidt mindre præcist, er at få systemadministratorer til at installere et program der skimmer brugertilføjelser til ordlisterne og indsender dem.
Bare det at skulle fortælle hvilken ordklasse et ord tilhører skærer tilsyneladende kraftigt ned i antallet af potentielle korrekturlæsere. Jeg fandt ud af dette da jeg snakkede med nogle af de danske korrekturlæsere. Det var lidt af en overraskelse.
I forbindelse med arbejdet på de danske og færøske ordlister har vi brygget nogle værktøjer sammen der nok også kan bruges til bokmål og nynorsk.
Et af dem er `dte` (se http://www.sslug.se/%7Egrove/dte/index.shtml for en komplet beskrivelse), der gør at man kan sige at nogle ord - beskrevet ved et simpelt regulært udtryk - bøjes som et andet ord. Hvis det andet ords bøjningsmønster er kendt af `dte`, genererer programmet automatisk alle bøjningerne af alle ordene det regulære udtryk beskriver.
Et andet minder lidt om `munchlist` (det har det innovative navn `word_class_identifier`). Det tager et bøjningsmønster (endelser og bøjningsnavne) som kommandolinjeargument og læser en sorteret ordliste fra »stdin«. Uddata er en log med de ord programmet kunne finde i ordlisten der følger det givne bøjningsmønster. Fordelen ved dette program er at det kan sættes til at tolerere at enkelte former mangler.
En `grep` på et bestemt bøjningsmønster i en affikskomprimeret ordliste er også en god hjælp til at gætte ordklasser og bøjningsmønstre for ord.
Endelig har jeg skrevet et primitivt, interaktivt korrekturlæsningsprogram, hvor man med et enkelt tastetryk angiver ordklasse for et ord eller afviser det som en fejl. Det at man kun skal bruge et enkelt tastetryk per ord gør at korrekturlæsningen går meget hurtigt. Som programmet fungerer nu er det afhængigt af at man har forbindelse til en server der uddeler ord til korrekturlæsning, og det kræver at korrekturlæseren selv indsender korrekturlæsningsloggen. Når jeg har rettet op på disse to mangler, tror jeg det vil være et generalt nyttigt værktøj.
Problemerne med `dte`, `word_class_identifier` og `munchlist`+`grep` er at de kræver lidt for meget teknisk kompetence til at være nyttige for den ikke-tekniske, men ellers gode sprogbruger. Vi bør nok se på at lave nogle web-baserede værktøjer med lignende funktionalitet.
Hvad angår orddeling af sammensatte ord svarer Runes forslag til det der er planen for den danske ordliste.
Jacob
lørdag 14. januar 2006, 09:58, skrev Jacob Sparre Andersen:
Petter Reinholdtsen og Rune Kleveland skrev:
(...)
Bare det at skulle fortælle hvilken ordklasse et ord tilhører skærer tilsyneladende kraftigt ned i antallet af potentielle korrekturlæsere. Jeg fandt ud af dette da jeg snakkede med nogle af de danske korrekturlæsere. Det var lidt af en overraskelse.
Jeg har opplevd det samme når jeg har prøvd å verve flere til å rette ord. Hadde det vært mulig å innføre rettere på et «lavere» nivå, altså bare av selve ordet, så kan noen andre få samme ordet etterpå, men bare legge inn ordklassen i tillegg? Det kunne ha senket terskelen og gjort at flere deltar; ofte lettere å vaske enn å skrive inn alt fra grunnen av.
-Axel
[Axel Bojer]
Jeg har opplevd det samme når jeg har prøvd å verve flere til å rette ord.
Jøss, er vi igang med å rekruttere? Jeg trodde vi fortsat avluset systemet, og mistenker at vi kan ende opp med å starte på nytt med andre ordklasser og flere utgangsord. :)
Hadde det vært mulig å innføre rettere på et «lavere» nivå, altså bare av selve ordet, så kan noen andre få samme ordet etterpå, men bare legge inn ordklassen i tillegg? Det kunne ha senket terskelen og gjort at flere deltar; ofte lettere å vaske enn å skrive inn alt fra grunnen av.
Kanskje en webløsning ala det som finnes på URL:http://www.dicts.info/dictlist1.php?k1=620 er en idé, der det er svært enkelt å komme igang med å bidra.
Petter Reinholdtsen skrev:
[Axel Bojer]
Jeg har opplevd det samme når jeg har prøvd å verve flere til å rette ord.
Jøss, er vi igang med å rekruttere? Jeg trodde vi fortsat avluset systemet, og mistenker at vi kan ende opp med å starte på nytt med andre ordklasser og flere utgangsord. :)
Trur ikkje vi treng å starte på nytt. Alt kan fiksast ved å reinske kjeldefila. Men vi er vel eit stykke unna frå å aktivt rekruttere folk til innsats enno. Det er ein del som bør fiksast først. Her er ei liste som eg synes bør vere for det meste oppfylt.
1. Bli einige om format på ordklassar og bøyingsformer. 2. Spikre alle format på felta i filformatet, og godt dokumentert. 3. Resultat og statistikkar tilgjengeleg på web. 4. Mulighet for enklare bidrag (berre godkjenne eller avvise ord). 5. Eit byggesystem for listene. 6. Autentisere bidrag, eventuelt mulighet til å spore kven som bidrar. 7. Mulighet til å bidra ved hjelp av nettlesar.
Punkt 5 kan eg tenke meg er ulike meiningar om. Men eg meiner alle bidrag bør signerast. Kanskje det er nok å luke ut på avsendaradresse i første omgang. Men ei form autentisering og sporbarhet bør det i alle tilfelle vere. Slik det er no kan alle sende inn bidrag utan å leggje inn noko i EDITOR:-feltet, og då er mulighetene for å misbruke systemet stort.
Ei webbasert løysing bør ha ein innloggingsfunksjon. Men det kan vere nok at brukaren sjølv opprettar ein konto utan at nokon treng å godkjenne vedkomande.
Punkt 6 og 7 er nok ikkje absolutte krav for å fyre i gang i større skala.
Punkt 5 er vel ikkje så mykje arbeid. Petter har vel lært seg det gamle byggesystemet etterkvart og det er vel ikkje så mykje som skal til får å bruke det på det nye. Det som er jobben er å automatisere dette.
Synspunkt?
Håvard
Håvard Korsvoll skrev:
Petter Reinholdtsen skrev:
[Axel Bojer]
Jeg har opplevd det samme når jeg har prøvd å verve flere til å rette ord.
Jøss, er vi igang med å rekruttere? Jeg trodde vi fortsat avluset systemet, og mistenker at vi kan ende opp med å starte på nytt med andre ordklasser og flere utgangsord. :)
Trur ikkje vi treng å starte på nytt. Alt kan fiksast ved å reinske kjeldefila. Men vi er vel eit stykke unna frå å aktivt rekruttere folk til innsats enno. Det er ein del som bør fiksast først. Her er ei liste som eg synes bør vere for det meste oppfylt.
- Bli einige om format på ordklassar og bøyingsformer.
- Spikre alle format på felta i filformatet, og godt dokumentert.
- Resultat og statistikkar tilgjengeleg på web.
- Mulighet for enklare bidrag (berre godkjenne eller avvise ord).
- Eit byggesystem for listene.
- Autentisere bidrag, eventuelt mulighet til å spore kven som bidrar.
- Mulighet til å bidra ved hjelp av nettlesar.
Punkt 5 kan eg tenke meg er ulike meiningar om. Men eg meiner alle bidrag bør signerast. Kanskje det er nok å luke ut på avsendaradresse i første omgang. Men ei form autentisering og sporbarhet bør det i alle tilfelle vere. Slik det er no kan alle sende inn bidrag utan å leggje inn noko i EDITOR:-feltet, og då er mulighetene for å misbruke systemet stort.
Det er sjølvsagt punkt 6 eg meiner her. (Slik går det når ein kjem på ting undervegs).
Håvard
[Håvard Korsvoll]
Trur ikkje vi treng å starte på nytt. Alt kan fiksast ved å reinske kjeldefila.
Jeg håper det. Men jeg tror alle ordene som ligger inne fra Rune Klevelands liste bør oppdateres fra norsk.words til å få med orddelingstegnet. Hvis de har '-' i norsk.words, så skal de ha '=' for å markere hvor de er sammensatt av flere ord. I tillegg er det mange flere ord i norsk.words enn som har kommet med i source.gz.
Men vi er vel eit stykke unna frå å aktivt rekruttere folk til innsats enno. Det er ein del som bør fiksast først. Her er ei liste som eg synes bør vere for det meste oppfylt.
- Bli einige om format på ordklassar og bøyingsformer.
- Spikre alle format på felta i filformatet, og godt dokumentert.
- Resultat og statistikkar tilgjengeleg på web.
- Mulighet for enklare bidrag (berre godkjenne eller avvise ord).
- Eit byggesystem for listene.
- Autentisere bidrag, eventuelt mulighet til å spore kven som bidrar.
- Mulighet til å bidra ved hjelp av nettlesar.
Lista ser bra ut, selv om jeg tror vi skal være svært forsiktige med å legge listen for høyt når det gjelder autentisering (punkt 6).
Det bør i tillegg inn to punkt:
- Oppdatere "originalordene" som kom fra Rune Klevelands liste til å inneholde ordsammensetning og type ord.
- Legge inn alle bokmålsordene fra Rune Klevelands liste som mangler.
Slik det er no kan alle sende inn bidrag utan å leggje inn noko i EDITOR:-feltet, og då er mulighetene for å misbruke systemet stort.
Det er jo ikke stort, da ord må godkjennes av flere. Vi kunne med fordel ha endret opplegget slik at from-feltet i mailen brukes hvis EDITOR-feltet mangler, eventuelt logget / forkastet mail der from-feltet ikke stemmer med envelope-from og editor-feltet.
Ei webbasert løysing bør ha ein innloggingsfunksjon. Men det kan vere nok at brukaren sjølv opprettar ein konto utan at nokon treng å godkjenne vedkomande.
Slik selv-registrering er det på URL:http://www.dicts.info/dictlist1.php?k1=620, der det var svært enkelt å både komme igang og å bidra. Vi bør tilstrebe noe lignende.
Punkt 5 er vel ikkje så mykje arbeid. Petter har vel lært seg det gamle byggesystemet etterkvart og det er vel ikkje så mykje som skal til får å bruke det på det nye. Det som er jobben er å automatisere dette.
Jeg har ikke sett på hvordan source.gz skal brukes til å bygge ordliste, men håper og tror at de andre som bruker speling-scriptene allerede har laget det som trengs. Jeg kan bidra, men ser helst at noen andre med mer tid til overs følger opp byggingen.
Ok, eg kom på ein ting til som må vere i orden. Procmail-filteret må samordnast med eit e-postmottakssystem som kan handtere mime-format og quoted printable betre. Så då blir lista slik: - Bli einige om format på ordklassar og bøyingsformer. - Spikre alle format på felta i filformatet, og godt dokumentert. - Resultat og statistikkar tilgjengeleg på web. (Håvard) - Mulighet for enklare bidrag (berre godkjenne eller avvise ord). - Eit byggesystem for listene. - Autentisere bidrag, eventuelt mulighet til å spore kven som bidrar. - Mulighet til å bidra ved hjelp av nettlesar. - Oppdatere "originalordene" som kom fra Rune Klevelands liste til å inneholde ordsammensetning og type ord. (kan Petter utdjupe?) - Legge inn alle bokmålsordene fra Rune Klevelands liste som mangler. (Håvard) - Fikse mottakssystemet for e-post til orddatabasen. (Håvard)
Viss det er nokon som vil påta seg nokon av oppgåvene, så kan ein jo svare med å setje namnet sitt bak. Håvard
Håvard Korsvoll skrev:
Ok, eg kom på ein ting til som må vere i orden. Procmail-filteret må samordnast med eit e-postmottakssystem som kan handtere mime-format og quoted printable betre. Så då blir lista slik:
- Bli einige om format på ordklassar og bøyingsformer.
- Spikre alle format på felta i filformatet, og godt dokumentert.
Disse to har jeg bidratt en del med, og de klassene vi nå har er hentet fra norsk referansegrammatikk. Siste forslag fra meg på fininndelinger ser ut til å stå ubesvart, i all fall er det de jeg har lagt inn på: http://no.speling.org/filformat.html Hvis noen ser noe som mangler, er utilstrekkelig forklart eller på annen måte st6år tilbake å ønske så gi beskjed :-)
- Resultat og statistikkar tilgjengeleg på web. (Håvard)
- Mulighet for enklare bidrag (berre godkjenne eller avvise ord).
- Eit byggesystem for listene.
- Autentisere bidrag, eventuelt mulighet til å spore kven som bidrar.
- Mulighet til å bidra ved hjelp av nettlesar.
- Oppdatere "originalordene" som kom fra Rune Klevelands liste til å inneholde ordsammensetning og type ord. (kan Petter utdjupe?)
- Legge inn alle bokmålsordene fra Rune Klevelands liste som mangler. (Håvard)
- Fikse mottakssystemet for e-post til orddatabasen. (Håvard)
Viss det er nokon som vil påta seg nokon av oppgåvene, så kan ein jo svare med å setje namnet sitt bak. Håvard
Disse andre her virker for teknisk for meg :-P
Mvh Axel
mandag 16. januar 2006, 18:42, skrev Petter Reinholdtsen:
[Axel Bojer]
Jeg har opplevd det samme når jeg har prøvd å verve flere til å rette ord.
Jøss, er vi igang med å rekruttere? Jeg trodde vi fortsat avluset systemet, og mistenker at vi kan ende opp med å starte på nytt med andre ordklasser og flere utgangsord. :)
Vel, jeg har stort sett spurt noen (tror det var 2) oversettere om de er med, noen stor rekruttering er vel gjerne litt tidlig forstår jeg :-) Hvor mange ord er det forøvrig å sjekke?
Hadde det vært mulig å innføre rettere på et «lavere» nivå, altså bare av selve ordet, så kan noen andre få samme ordet etterpå, men bare legge inn ordklassen i tillegg? Det kunne ha senket terskelen og gjort at flere deltar; ofte lettere å vaske enn å skrive inn alt fra grunnen av.
Kanskje en webløsning ala det som finnes på URL:http://www.dicts.info/dictlist1.php?k1=620 er en idé, der det er svært enkelt å komme igang med å bidra.
ok, men jeg liker e-post ssystemet godt. Hadde det vært mulig med to varianter: enkel (bare godta selve ordet f.eks) og avansert m/alle feltene?
Mvh Axel
[Axel Bojer]
Hvor mange ord er det forøvrig å sjekke?
Foreløbige tall er ca. 550k bokmålsord, og 300k nynorskord. Muligens flere hvis vi tar med de med frekvens '0'. Jeg har fått høre at den ekspanderte ordlisten til dokumentasjonsprosjektet består av over 1 million ord, så vi mangler antagelig endel før vi har alle korrekte ordformer. :)