Petter Reinholdtsen wrote:
På skolelinux-samlingen i helgen, samt i dag, har jeg flikket på et script som kan brukes til å oppdatere stavekontrollen med nye ord fra no.speling.org. Det fungerer nå for ganske mange ord. Scriptet trenger ca. 700 MiB RAM for å kjøre.
Scriptet ligger i CVSen til spell-norwegian, under scripts/speling2words. For å bruke det, kjør
make update-from-spelingorg speling-new.nb speling-new.nn
Det vil endre norsk.words, og legge inn bokmål- og nynorsk-ordene fra no.speling.org som mangler i norsk.words. Deretter vil den lage litt statistikk over differansen. En slik kjøring vil i dag gjøre endringer på godt over 800 000 ord i norsk.words, og jeg har ikke mulighet til å gjøre annet enn stikkprøver av om resultatet blir korrekt.
Jeg har lagt inn kode i scriptet for å unngå at ord med trippelkonsonant legges inn, da det ikke fungerer som det skal for slike ord. Det er en god del andre ord som heller ikke tas inn. Se i speling-new.nb og speling-new.nn for å se en liste med ord som ikke er overført.
Flott! Men jeg lette etter speling-new.nb og speling-new.nn, men fant dem ikke. Hvor ligger de?
I den forbindelse noen spørsmål:
Hva trenger egentlig et slikt overføringsskript å gjøre?
Man må ta med alle ordene unntatt de med: * «status: -» * trippelkonsonant * enkeltbokstaver/-tegn * rene endelser
Er det noe mer? Hva krever ordlista norsk.words for å være fornøyd? Jeg ser den har noe metainformasjon, men foreløpig brukes vel ikke den til noe?
Jeg tittet også i OOo-ordlistene, og ser det er metainformasjon der av typen /j etter ordene. Noen som vet hva dette betyr og om den brukes til noe? *.aff-filene ser jeg inneholder endelser av alle mulige slag, vil det si at orddelingsalgoritmen i OOo bruker .aff-fila sammen med /j og slikt for å avgjøre hvordan ord kan settes sammen? Hvis ikke så er vel denne informasjonen foreløpig helt overflødig?
Hilsen Axel