Jeg fikk endelig tid til å sette meg ned for å mate fullformsordlisten fra ordbanken inn i no.speling.org. Det er 628382 unike fullformsord for bokmål, og 469284 for nynorsk.
For å gjøre dette måtte jeg først redigere fullform_bm.txt og fullform_nn.txt for å fikse en formatteringsfeil i headeren. Dernest hentet jeg ut alle unike ord sortert uten å ta hensyn til store og små bokstaver (for å forenkle sammenligning med words.nb og words.nn). Til slutt kopierte jeg filene over til stavekontrollserveren tyge.sslug.dk og logget inn der for å gjøre kommandoene som la ordene inn i stavekontrollsystemet.
Her er kommandoene brukt for bokmål. Tilsvarende ble gjort for nynorsk.
vi fullform_bm.txt # Korriger topptekst grep -v '^*' fullform_bm.txt |cut -f3 | sort -uf > ordbok-nb-ord vi ordbok-nb-ord # Fjern oppføring for \r
på tyge.sslug.dk:
/opt/speling.org/bin/words_to_ds \ --authority 'Norsk ordbank ordbank_bm.zip 2007-07-09' \ --editor 'Norsk ordbank ordbanken@iln.uio.no' \ --status + \ < ordbank-nb-ord > /var/speling.org/nb/incoming.ds/start
Fullformslisten inneholder endel merkelige oppføringer, som #, $, A, a-, -abelt, etc. Jeg beholdt dem for å ha en komplett liste som vi heller får fjerne ved å gi ordene negative stemmer. Jeg er usikker på om dette er den beste måten å gjøre dette på.
Neste steg blir så å mate ordene fra no.speling.org inn i stavekontrollpakken. Håper noen har tid til å se på dette igjen snart.
Vennlig hilsen,
Petter Reinholdtsen:
Jeg fikk endelig tid til å sette meg ned for å mate fullformsordlisten fra ordbanken inn i no.speling.org. Det er 628382 unike fullformsord for bokmål, og 469284 for nynorsk.
For å gjøre dette måtte jeg først redigere fullform_bm.txt og fullform_nn.txt for å fikse en formatteringsfeil i headeren. Dernest hentet jeg ut alle unike ord sortert uten å ta hensyn til store og små bokstaver (for å forenkle sammenligning med words.nb og words.nn).
Har du ei oversikt over orda som låg inne på no.speling.org, men som ikkje var med i fullformsordlista? Desse vil det vera verdt å sjå nærare på.
Har du ei oversikt over orda som låg inne på no.speling.org, men som ikkje var med i fullformsordlista? Desse vil det vera verdt å sjå nærare på.
Jeg har ingen slik oversikt ferdig laget. Den kan dog enkelt lages ved hjelp av unix-verktøyene sort og comm. Spør gjerne hvis du står fast.
Jeg vet fra tidligere (se tidligere epost på listen) at mange av ordene er genitivsformer.
Vennlig hilsen,
Petter Reinholdtsen:
Har du ei oversikt over orda som låg inne på no.speling.org, men som ikkje var med i fullformsordlista? Desse vil det vera verdt å sjå nærare på.
Jeg har ingen slik oversikt ferdig laget. Den kan dog enkelt lages ved hjelp av unix-verktøyene sort og comm.
comm – der lærte eg jammen om eit nytt program. :)
Kva er forresten grunnen til («vitsen med») at fullformslistene vert lagt inn på no.speling.org? Er det ikkje betre å gå over til å bruka same formatet som fullformslistene for stavekontrollkjeldene? Dette er jo openbart godt nok til heile bokmåls- og nynorskordboka. Og formatet på no.speling.org verkar noko mangelfullt.
[Karl Ove Hufthammer]
Kva er forresten grunnen til («vitsen med») at fullformslistene vert lagt inn på no.speling.org? Er det ikkje betre å gå over til å bruka same formatet som fullformslistene for stavekontrollkjeldene? Dette er jo openbart godt nok til heile bokmåls- og nynorskordboka.
Så vidt jeg kan se er ikke fullformsomrdlisten egnet som direkte kilde for stavekontrollen. Den har endelig merkelige oppføringer (f.eks. "a-", hva alle dager er det for et ord?), og mangler en god del oppføringer (alle genitivsformer, samt en god del sammensatte ord). Den kan dermed ikke mates direkte til stavekontrollsysteme, og det må ekstra arbeid til. I dag har vi kun et fungerende opplegg for å styre dette arbeidet, og det er no.speling.org.
Og formatet på no.speling.org verkar noko mangelfullt.
Enig i at opplegget på no.speling.org ikke er perfekt, men det fungerer ganske bra, og gir oss mulighet til å håndtere ord fra flere kilder med fjerning av uønskede ord med innspill fra et ubegrenset antall bidragsytere. Hvis du har lyst til å forbedred et er det svært velkomment, og hvis du har forslag til alternativ, så jeg er absolutt interessert i å høre om det.
Vennlig hilsen,
[Petter Reinholdtsen]
Så vidt jeg kan se er ikke fullformsomrdlisten egnet som direkte kilde for stavekontrollen. Den har endelig merkelige oppføringer (f.eks. "a-", hva alle dager er det for et ord?), og mangler en god del oppføringer (alle genitivsformer, samt en god del sammensatte ord). Den kan dermed ikke mates direkte til stavekontrollsysteme, og det må ekstra arbeid til. I dag har vi kun et fungerende opplegg for å styre dette arbeidet, og det er no.speling.org.
Da har statistikken og no.speling.org-filene blitt oppdatert med ordbank-ordene. Jeg er veldig overrasket over at alle disse ser ut til a automatisk ha havnet på nivå 4. Antagelig burde jeg ha lagt dem inn på en annen måte, da det vel kun er normerte ord som skal inn som nivå-4-ord.
Uansett, nå kan en i stavekontrollkildekodekatalogen kjøre 'make speling-new.nb speling-new.nn' for å sammenligne stavekontrollen med no.speling.ord-dataene. Der ser jeg:
nye på speling.no: 392670 speling-new.nb mangler på speling.no: 2 speling-missing.nb omstridt på speling.no: 267 speling-disputed.nb
nye på speling.no: 337507 speling-new.nn mangler på speling.no: 10 speling-missing.nn omstridt på speling.no: 43 speling-disputed.nn
Det er altså mellom 300 og 400 tusen nye ord.
En rask titt i speling-new.nb og speling-new.nn viser at det er svært mange ord som ikke bør være med i stavekontrollen. F.eks. er følgende øverst i nb-filen: $ % & 'kke 'n -abel -abelt -able -ablere -ablest -ableste -akter -aktere -akteren -akterer -akterne -aktig -aktige -aktigere. Disse er øverst i nn-filen: $ % & 'n + -abel -abelt -ablare -ablast -ablaste -able -aktar -aktarane -aktarar -aktaren -aktig -aktigare.
Jeg er litt usikker på hvordan vi bør håndtere disse, i og med at alle ordene ble klassifisert som nivå-4-ord.
Vennlig hilsen,