I forbindelse med at stavekontrollprosjektet er invitert til språkrådet, så tenkte jeg det var greit å få slått fast hva som egentlig skjedde i hine hårde dager, da stavekontrollprosjektet ble startet. Jeg spurte Gisle Hannemyr og Rune Kleveland, som jeg trodde hadde peiling, og her er svarene jeg fikk. Tenkte det var interessant for flere, derfor postes det her. :)
Date: Sun, 30 Apr 2006 15:24:14 +0200 From: Gisle Hannemyr To: Petter Reinholdtsen Subject: Re: Har du jobbet med fritt tilgjengelig stavekontroll
Petter Reinholdtsen wrote:
Hei. En eller annen plass i bakhodet mitt murrer en ide om at du en gang for lenge siden var involvert i arbeidet med å lage en fritt tilgjengelig stavekontroll for norsk. Dette tror jeg er ideer jeg fikk i BBS-tiden, dvs. sent 80-tall eller tidlig 90-tall. Har du vært aktivt med i å lage stavekontroll?
Nja - for lenge, lenge siden, i en galakse langt borte gjorde jeg "noe" - men om det er tvilsomt om det teller med når historien skal skrives.
Midt på åttitallet dukket det opp ett fritt staveprogram som het spell (senere ispell) med Geoff Kuenning som viktigste drivkraft.
Dette kom med engelsk ordliste, men var laget for å håndtere andre språk. Jeg ønsket en norsk ordliste til spell/ispell, så jeg laget en greie basert på standard Unix-kommandoer (tr, sort, awk, etc.) som slurpet i seg det jeg klarte å finne av norskspråklig tekst (dvs. manus til egne og kollegers artikler, samt en dump av den norskspråklige delen av Usenet. Laget så en frekvenssortert "ordliste" av dette - kuttet vekk alt av lav frekvens, og kjørte automatisk stavekontroll på resten med staveprogrammet til WordStar (tror jeg - kan ha vært et annet produkt). Det hele tok vel en kveld eller så. Resultatet var en liste med noen hundre tusen norske ord, men det sto igjen mye arbeide mht, stemming og slike ting.
I håp om at andre ville fullføre postet la filmen med ordene ut på anonymous ftp-arkivet på en av Usits TOPS-20 bokser.
Jeg gjorde ikke noe mer enn dette. Den ordlista som i dag ligger til grunn for norsk ordliste i ispell (med copyright Rune Kleveland) ser så vidt jeg kan se ut til å være laget fra grunnen av, og ikke med utgangspunkt i "min" liste.
Årsaken til at jeg spør er at vi som nå jobber med den norske stavekontrollen, URL:http://no.speling.org/, skal til språkrådet for å presentere prosjektet, og da hadde det vært greit å ha historien på plass.
Jeg tror nok det er å overdrive å skrive meg inn i denne historien. -- - gisle hannemyr [ gisle{at}hannemyr.no - http://folk.uio.no/gisle/ ] ======================================================================== "Don't follow leaders // Watch the parkin' meters" - Bob Dylan
From: Rune Kleveland To: Petter Reinholdtsen Subject: Re: Historien til stavekontrollen Date: Sun, 30 Apr 2006 19:13:06 +0200
Petter Reinholdtsen writes:
Hei, Rune. Jeg forsøker å samle historien til stavekontrollen, og fikk dette innspillet fra Gisle. Da du startet med stavekontrollen, tok du utgangspunkt i arbeidet til Gisle, eller skrev du alt fra grunnen av?
Jeg tok utgangspunkt i frekvensordlisten til daværende atext, som jeg klarte å laste ned på Blindern, de fleste NOU-rapporter, samt stavekontrollen til Wordperfect.
Jeg brukte ispells munchlist-program kombinert med latterlig mye manuelt arbeid for å sette riktige bøyningsmønstre på ord, og patgen/ispell for å finne og dele sammensatte ord. Jeg brukte delingsmønstrene i nohyph.tex for å dele hver komponent av ordene, og vha diverse script klarte jeg å generere orddelingsmønstre til TeX for norsk og nynorsk som sannsynligvis fungerte bedre enn alt annet da de kom.
Det var orddelingsbiten som var hovedmotivasjonen min, og særlig det at man (i prinsippet) kan få en kort liste over alle usikre delinger i en norsk tekst. Jeg tror fremdeles norsk er det eneste språket med sammensatte ord der dette er mulig.
-- Rune Kleveland