[Petter Reinholdtsen]
En testutgave er tilgjengelig fra URL:http://folk.uio.no/pre/spell-norwegian-2.0.0.test.20051229.tar.gz. Kan dere teste denne og melde ifra om den fungerer eller ikke, så skal jeg lage en ordentlig utgivelse når jeg ser tilbakemeldingene.
I prosessen med å teste dette på RH sammen med Kjartan Maraas, så oppdaget jeg endelig hva det mystiske formatet som rådatafilen i stavekontrollen er laget på er. .sq er ikke et undelig ispell-spesifikk dataformat, det er et arkaisk komprimerings-system kalt squeeze. Når filen ble pakket ut (med unsq), så var det jo åpenbart hvordan en legger inn nye ord. :)
Jeg har nå pakket ut filen i CVS, og foreslår at vi lar gzip av kildekodepakken ta seg av komprimeringen heretter. :)
Da jeg endelig har forstått hvordan en legger inn nye ord i stavekontrolle, så har jeg benyttet sjansen til å legge inn endel av de som manglet. Det er dog ikke nok å legge inn slike manuelt. Vi trenger den korrekturlesingen som Håvard har fått på bena for å sjekke de ordene vi allerede har, og vi trenger frekvensinformasjon for å vite hvilke ord som skal være med.
Jeg har også oppdatert missing.nb med en rekke ord som jeg fant i ~/.ispell_norsk, dvs. ord som noen har lagt inn som ekstra ord til ispell. Der bør alle ord som mangler legges inn først.
Nye ord i stavekontrollen legges inn ved å oppdatere norsk.words, og formatet er beskrevet på toppen. Når det gjelder frekvenstallet, så jeg har brukt tall like over den nye grenseverdien for å sikre at ordene blir med i stavekontrollen for bokmål. Men vi trenger ekte frekvensinfo for å gjøre dette skikkelig.
Noen protester på at jeg gir ut det vi har nå som versjon 2.1 av stavekontrollen? Her er de endringene jeg har notert i NEWS-filen:
Release 2.1 (2005-12-XX)
* Now being group maintained on Alioth. * Updated package to use new email address for Rune Kleveland. * Rewrote build rules based on Debian patches, to make it easier to make binary packages based on this source. * Rewrite build rules to use the language codes 'nb' and 'nn' instead of 'norsk' and 'nynorsk'. * Added build rules for aspell and myspell, based on the rules in the debian package. * Started on myspell (OOo) thesaurus files for bokmål (nb). * Added new script 'bokmaal', capable of looking up words on the web service available from URL:http://www.dokpro.uio.no/. * Lower the nb frequence cutoff point fom >9 to >7, to get more words included in the spell check systems.
* New words: - DVD (nb,nn). - Internett (nb,nn), internett-* (nb,nn). - internett-leverandør (nb,nn), internett-leverandøren (nb), internett-leverandører (nb). - navne-tjener (nb), navne-tjenere (nb), navne-tjeneren (nb). - Reinholdtsen (nb,nn). - sikkerhets-oppdatering (nb), sikkerhets-oppdateringen (nb), sikkerhets-oppdateringene (nb). - Skolelinux (nb), Skulelinux (nn). * Changed words: - Internett-adressene: freq ""->8, to make it visible as a nb word. - Linux: freq 0->8 - Linux-*: freq 0->8