Det ser ut til at jeg har misforstått en del angående systemet for stavekontroller. Men etter en del samtaler med Håvard Korsvoll og Petter Rheinholdsen, så tror jeg har skjønt systemet (bedre) nå.
Her er en oversikt over det grunnleggende og endringer som er nært forestående eller nettopp utført, i et håp om at dette kan hjelpe oss videre med hvor vi må ta fatt for å komme fram til en ny versjon av stavekontrollen der bl.a. ordbankens ord er med.
Kort oversikt over stavekontrollen ===================================
* Ordene ligger nå på *to* steder: -- www.speling.org, en database der vi mater inn ord ved hjelp av et e-postsystem. -- www.no.speling.org der alle ordene ligger i en fil som heter norsk.words sammen med en god del skript for å legge inn synonymer, orddeling, lage ispell-, myspell- og hunspell-versjoner o.a.
* De opprinnelige ordene fra norsk.words (som bygger på Rune Klevelands ordliste) er alle matet inn i databasen på www.speling.org. Ordbankens ord er derimot bare matet inn i databasen og ikke i ordlistefila (norsk.words).
* Fra byggeskriptet på no.speling.org skal vi fjerne: Funksjonen for å velge av ord utfra statistikk (vanskelig forståelig og ikke så veldig nyttig)
* Likeså fjernes: Dobbeltoppføringer med k-markøren (konservativt bokmål: foreløpig følgende: taksten, torv, torva, torvene, torvenes = duplikater som nå fjernes) o-markøren (oljebransjen, foreløpig bare: asfalt, et duplikat som fjernes) og M-markøren (matematisk, eneste ord som nå fjernes: polynom, et duplikat som fjernes).
* Begge ordlistene (både i databasen og i norsk.words) har mange sammensatte ord for å omgå dårlig gjenkjenning av sammensatte ord.
* 16.000 ord ble lagt inn av Tom Grydeland automatisk ved å opprette fullformer ut fra grunnformene av mange ord (et eksempel: finger)
* Både vår ordliste og den lista vi har fra Ordbanken er fullformsordlister. Derfor er også arbeidet med e-postinnmeldingene av nye ord viktige.
* Ordbankens liste er komprimert ned fra 1,2 mill ord med dobbeltoppføringer for tvetydige ord til det halve (600.000 ord) med bare enkeltoppføringer uten hensyn til betydning. Det er denne komprimerte versjonen som ligger i databasen. Dessverre ligger også enkeltord og tegn og annet der som må fjernes, men vi vet foreløpig ikke hvordan.
* Det skriptet vi i dag bruker for norsk.words er for dårlig dokumentert og mange steder må man gjette og prøve seg fram for å finne ut hvordan det hele virker. Rune Kleveland selv husker heller ikke hvordan alt ble laget, da dette var for 10 år siden.
* Hvordan overfører vi ordene fra speling.org til norsk.words?
* Håvard er kontaktperson mot www.speling.org
* På www.speling.org ligger diverse skript og dokumentasjon av speling.org-databasen
Hilsen Axel