Jeg fikk endelig tid til å sette meg ned for å mate fullformsordlisten fra ordbanken inn i no.speling.org. Det er 628382 unike fullformsord for bokmål, og 469284 for nynorsk.
For å gjøre dette måtte jeg først redigere fullform_bm.txt og fullform_nn.txt for å fikse en formatteringsfeil i headeren. Dernest hentet jeg ut alle unike ord sortert uten å ta hensyn til store og små bokstaver (for å forenkle sammenligning med words.nb og words.nn). Til slutt kopierte jeg filene over til stavekontrollserveren tyge.sslug.dk og logget inn der for å gjøre kommandoene som la ordene inn i stavekontrollsystemet.
Her er kommandoene brukt for bokmål. Tilsvarende ble gjort for nynorsk.
vi fullform_bm.txt # Korriger topptekst grep -v '^*' fullform_bm.txt |cut -f3 | sort -uf > ordbok-nb-ord vi ordbok-nb-ord # Fjern oppføring for \r
på tyge.sslug.dk:
/opt/speling.org/bin/words_to_ds \ --authority 'Norsk ordbank ordbank_bm.zip 2007-07-09' \ --editor 'Norsk ordbank ordbanken@iln.uio.no' \ --status + \ < ordbank-nb-ord > /var/speling.org/nb/incoming.ds/start
Fullformslisten inneholder endel merkelige oppføringer, som #, $, A, a-, -abelt, etc. Jeg beholdt dem for å ha en komplett liste som vi heller får fjerne ved å gi ordene negative stemmer. Jeg er usikker på om dette er den beste måten å gjøre dette på.
Neste steg blir så å mate ordene fra no.speling.org inn i stavekontrollpakken. Håper noen har tid til å se på dette igjen snart.
Vennlig hilsen,