Petter Reinholdtsen pere@hungry.com writes:
[Torstein Hernes Dybdahl, 2004-06-18]
Hei. Har sett en del på dette med ordlistene til ispell osv.
Det ser ut til at det hele stoppet opp. Det har vi ikke tid til. :)
Du etterlyste nettside og versjonskontrollert plass for ordlistene. Jeg foreslår at det settes opp et prosjekt på Alioth for å vedlikeholde ordlisten. Alioth er Debians "Sourceforge", og tilbyr det samme som Sourceforge gjør. URL:http://alioth.debian.org/.
Hvis ingen protesterer i løpet av 24 timer, så setter jeg igang med å bestille prosjektplass i morgen. Alle som er interessert i å bidra bør skaffe seg konto på alioth. Det gjelder så vidt jeg har registrert i alle fall følgende personer:
Torstein Hernes Dybdahl Leiv Hellebø Rune Kleveland Tollef Fog Heen (debian-pakker) Kjartan Maraas (redhat-kontakt)
Det som må gjøres til å begynne med er å importere den siste utgave inn i CVS eller subversion, og sette opp kopi av de gamle websidene. Deretter kan en begynne å forbedre både byggeprosessen for pakkene, og innholdet i ordlisten.
Byggeprosesser vet jeg lite om. Jeg sannsynligvis har laget en av verdens verste makefiler noensinne.
Men et vesentlig spørsmål her er hva som skal være kildekoden. Det som ligger på dictionary-siden min er egentlig ikke kildekoden, det er en generert fil. Den er et umulig utgangspunkt for videreutvikling, i hvert fall hvis frekvensinformasjonen og orddelingssystemet skal beholdes.
Hvis innholdet i ordlisten skal videreutvikles er det første vi trenger en ny infrastruktutur. Et versjonskontrollsystem er ikke nok og neppe særlig hensiktsmessig.
Hvis man ønsker å bedre kvalitet på innholdet i ordlisten på en effektiv og sikker måte er den eneste muligheten å ta utgangspunkt i ordfordelingen i store mengder norsk tekst av rimelig høy kvalitet. I praksis tror jeg dette vil være nettaviser. Hvis det finnes tekstsamlinger andre steder som ikke er for sære kan jo disse brukes. NOU/Odin har en del, men det er relativt byråkratisk stil på det.
Her er mitt forslag til hva som bør gjøres:
a) Vi samler en _stor_ mengde av norsk tekst. Fra denne genereres en liste med ord og en relativ frekvens av ordet. Det er ikke så farlig med feilstavede ord der. Kanskje denne listen inneholder 3-4 mill ord.
b) Fra denne bygger vi opp en liste med stammeord som er tillatt og deres bøyningsmønster. Dagens ordliste er et godt utgangspunkt, men bøyningsmønstret er for vanlige korte ord feil, dvs at et ord tilfeldigvis fremkommer fra et annet via en bøyningsregel.
I denne prosessen kan man få hjelp av affix-filen og den store ordlisten for å få med alle formene av ordet som er tillatt. Hvis man vil legge til et ord prøver man å ekspandere dette ordet med hvert flagg i affix-filen og sjekker for hvert flagg hvor mange treff man får i den store ordlisten. På den måten får man et forhåpentligvis fornuftig forslag til bøyningsmønster.
Det er en liten utfordring å skrive dette programmet og muligens bygge et web-grensesnitt på toppen. Har man dette er det mulig at folk kan hjelpe med å verifisere ord.
Man trenger en database og ispell og kunne programmer litt C for å få dette til.
Når man har bestemt seg for bøyningsmønster lagres ordet og flaggene i databasen som lovlige ord.
c) Fra tabellen med lovlige ord og bøyningsmønstre genereres ordlisten(e) man distribuerer. Hvilke ord og former som skal være med bestemmes ut fra frekvensinformasjon, om ordet er en bøyningsform, hvor stor ordliste man ønsker og hvor sikker den skal være, dvs sjeldne ord utelates om de ligger nær vanlige ord. Vi bruker ikke munchlist-scriptet i genereringen fordi det legger til 'tilfeldige' bøyningsmønstre.
d) Fjerne orddelinger av typen pils-piss og sydame-rikansk i de genererte orddelingsmønstrene. Dette er no mest for TeX-folk av den gamle skolen.
Resultatet bli bli at vi har bedre oversikt over ords bøyningsmønster enn i dag samt at vi får registrert de vanligste ordene som ikke er i ordlisten i dag. Dette kan legge grunnlag for gramatikkprogrammer, men det ligger uansett en del frem i tid. Og at vi slår ms word på orddeling...
Spørsmålet er om noen er interessert i å jobbe med dette. Punkt a) kan jeg hjelpe med siden jeg har tilgang til det meste som er publisert i norske nettaviser de siste 3 årene. Det er mer enn 5 mill artikler. Punkt b er todelt; det er programmering og mer repetitativt arbeid. Punkt c) er ren programmering. I tillegg kommer pakkebygging etc.
Har noen synspunkter på denne prosjektskissen? Noen som kan tenke seg å hjelpe? Hva kan dere eventuelt hjelpe med?
Det bør lages opplegg for å rapportere inn ord som mangler, og antagelig også opplegg for å rapportere inn ordklasser etc. Dette har jeg lite peiling på.
Jeg har liten tro på at folk rapporterer inn ord som mangler. For det første er det ikke sikkert de som rapporterer inn endringer skriver ordet riktig og for det andre er det svært vilkårlig hvilke ord som blir rapportert inn. Linux, Debian og Skolelinux kommer nok fort -)
Det er lurere å generere lister med ord som skal sjekkes og be folk sjekke dem.
Det bør også lages opplegg for å automatisk bygge pakker basert på den siste kildekoden (deb/rpm/OOo, etc)
Den bør gjenopprettes kontakt med ordbokprosjektet ved Universitetet i Oslo, og en bør forsøke å få en avtale om å kvalitetssjekke mot denne.
En bør se på muligheten for å lage en gramatikk-kontroll (eventuelt tilby grunnlagsdata for en slik), men det er noe som kommer mer på sikt.
En bør også se på om en kan bidra til at det lages en ordbok for nordsamisk og eventuelle andre samiske varianter der dette er aktuelt. Dette krever dog at noen med samiskbakgrunn er interessert.
Torstein, du sa deg villig til å koordinere dette. Kan du ta holde i dette arbeidet og sørge for at det blir framgang hvis jeg får fikset alioth-prosjektet? Det innebærer å ta initativet for å få alle de andre som har meldt sin interesse til å gjøre noe. En god start er å importere kildekoden i CVS/SVN, hente patcher fra debian/redhat/etc og kontrollere om disse er noen som bør tas i bruk av alle, og antagelig dra prosjektet alene en god stund fram til flere ser at det skjer noe.
Det er forresten mulig at Rune Kleveland har byttet mailadresse siden sist. Jeg minnes at jeg fikk en mail i retur fra ham. I så fall må han vel ringes opp igjen for å hente ut en oppdatert mailadresse. Det finner vi ut etter hvert.
Har ikke skiftet mailaddresse som dere ser...