[i18n-no] Re: På tide å få fikset ordlistepakken

3 Dec 2004


      Petter Reinholdtsen pere@hungry.com writes:
...
[Torstein Hernes Dybdahl, 2004-06-18]
...
Hei.
Har sett en del på dette med ordlistene til ispell osv.
Det ser ut til at det hele stoppet opp.  Det har vi ikke tid til. :)
Du etterlyste nettside og versjonskontrollert plass for ordlistene.
Jeg foreslår at det settes opp et prosjekt på Alioth for å
vedlikeholde ordlisten.  Alioth er Debians "Sourceforge", og tilbyr
det samme som Sourceforge gjør.  URL:http://alioth.debian.org/.
Hvis ingen protesterer i løpet av 24 timer, så setter jeg igang med å
bestille prosjektplass i morgen.  Alle som er interessert i å bidra
bør skaffe seg konto på alioth.  Det gjelder så vidt jeg har
registrert i alle fall følgende personer:
Torstein Hernes Dybdahl
  Leiv Hellebø
  Rune Kleveland
  Tollef Fog Heen (debian-pakker)
  Kjartan Maraas (redhat-kontakt)
Det som må gjøres til å begynne med er å importere den siste utgave
inn i CVS eller subversion, og sette opp kopi av de gamle websidene.
Deretter kan en begynne å forbedre både byggeprosessen for pakkene, og
innholdet i ordlisten.
Byggeprosesser vet jeg lite om. Jeg sannsynligvis har laget en av
verdens verste makefiler noensinne.
Men et vesentlig spørsmål her er hva som skal være kildekoden.  Det
som ligger på dictionary-siden min er egentlig ikke kildekoden, det er
en generert fil.  Den er et umulig utgangspunkt for videreutvikling, i
hvert fall hvis frekvensinformasjonen og orddelingssystemet skal
beholdes.
Hvis innholdet i ordlisten skal videreutvikles er det første vi
trenger en ny infrastruktutur.  Et versjonskontrollsystem er ikke nok
og neppe særlig hensiktsmessig.
Hvis man ønsker å bedre kvalitet på innholdet i ordlisten på en
effektiv og sikker måte er den eneste muligheten å ta utgangspunkt i
ordfordelingen i store mengder norsk tekst av rimelig høy kvalitet.  I
praksis tror jeg dette vil være nettaviser.  Hvis det finnes
tekstsamlinger andre steder som ikke er for sære kan jo disse brukes.
NOU/Odin har en del, men det er relativt byråkratisk stil på det.
Her er mitt forslag til hva som bør gjøres:
a) Vi samler en _stor_ mengde av norsk tekst.  Fra denne genereres en
   liste med ord og en relativ frekvens av ordet.  Det er ikke så
   farlig med feilstavede ord der.  Kanskje denne listen inneholder
   3-4 mill ord.
b) Fra denne bygger vi opp en liste med stammeord som er tillatt og
   deres bøyningsmønster.  Dagens ordliste er et godt utgangspunkt,
   men bøyningsmønstret er for vanlige korte ord feil, dvs at et ord
   tilfeldigvis fremkommer fra et annet via en bøyningsregel.
I denne prosessen kan man få hjelp av affix-filen og den store
   ordlisten for å få med alle formene av ordet som er tillatt.  Hvis
   man vil legge til et ord prøver man å ekspandere dette ordet med
   hvert flagg i affix-filen og sjekker for hvert flagg hvor mange
   treff man får i den store ordlisten.  På den måten får man et
   forhåpentligvis fornuftig forslag til bøyningsmønster.
Det er en liten utfordring å skrive dette programmet og muligens
   bygge et web-grensesnitt på toppen.  Har man dette er det mulig at
   folk kan hjelpe med å verifisere ord.
Man trenger en database og ispell og kunne programmer litt C for å
   få dette til.
Når man har bestemt seg for bøyningsmønster lagres ordet og
   flaggene i databasen som lovlige ord.
c) Fra tabellen med lovlige ord og bøyningsmønstre genereres
   ordlisten(e) man distribuerer.  Hvilke ord og former som skal være
   med bestemmes ut fra frekvensinformasjon, om ordet er en
   bøyningsform, hvor stor ordliste man ønsker og hvor sikker den skal
   være, dvs sjeldne ord utelates om de ligger nær vanlige ord.  Vi
   bruker ikke munchlist-scriptet i genereringen fordi det legger til
   'tilfeldige' bøyningsmønstre.
d) Fjerne orddelinger av typen pils-piss og sydame-rikansk i de
   genererte orddelingsmønstrene.  Dette er no mest for TeX-folk av
   den gamle skolen.
Resultatet bli bli at vi har bedre oversikt over ords bøyningsmønster
enn i dag samt at vi får registrert de vanligste ordene som ikke er i
ordlisten i dag.  Dette kan legge grunnlag for gramatikkprogrammer,
men det ligger uansett en del frem i tid.  Og at vi slår ms word på
orddeling...
Spørsmålet er om noen er interessert i å jobbe med dette.  Punkt a)
kan jeg hjelpe med siden jeg har tilgang til det meste som er
publisert i norske nettaviser de siste 3 årene.  Det er mer enn 5 mill
artikler.  Punkt b er todelt; det er programmering og mer repetitativt
arbeid.  Punkt c) er ren programmering.  I tillegg kommer pakkebygging
etc.
Har noen synspunkter på denne prosjektskissen?  Noen som kan tenke seg
å hjelpe?  Hva kan dere eventuelt hjelpe med?
...
Det bør lages opplegg for å rapportere inn ord som mangler, og
antagelig også opplegg for å rapportere inn ordklasser etc.  Dette
har jeg lite peiling på.
Jeg har liten tro på at folk rapporterer inn ord som mangler.  For det
første er det ikke sikkert de som rapporterer inn endringer skriver
ordet riktig og for det andre er det svært vilkårlig hvilke ord som
blir rapportert inn.  Linux, Debian og Skolelinux kommer nok fort -)
Det er lurere å generere lister med ord som skal sjekkes og be folk
sjekke dem.
...
Det bør også lages opplegg for å automatisk bygge pakker basert på den
siste kildekoden (deb/rpm/OOo, etc)
Den bør gjenopprettes kontakt med ordbokprosjektet ved Universitetet i
Oslo, og en bør forsøke å få en avtale om å kvalitetssjekke mot denne.
En bør se på muligheten for å lage en gramatikk-kontroll (eventuelt
tilby grunnlagsdata for en slik), men det er noe som kommer mer på
sikt.
En bør også se på om en kan bidra til at det lages en ordbok for
nordsamisk og eventuelle andre samiske varianter der dette er aktuelt.
Dette krever dog at noen med samiskbakgrunn er interessert.
Torstein, du sa deg villig til å koordinere dette.  Kan du ta holde i
dette arbeidet og sørge for at det blir framgang hvis jeg får fikset
alioth-prosjektet?  Det innebærer å ta initativet for å få alle de
andre som har meldt sin interesse til å gjøre noe.  En god start er å
importere kildekoden i CVS/SVN, hente patcher fra debian/redhat/etc og
kontrollere om disse er noen som bør tas i bruk av alle, og antagelig
dra prosjektet alene en god stund fram til flere ser at det skjer noe.
Det er forresten mulig at Rune Kleveland har byttet mailadresse siden
sist.  Jeg minnes at jeg fikk en mail i retur fra ham.  I så fall må
han vel ringes opp igjen for å hente ut en oppdatert mailadresse.  Det
finner vi ut etter hvert.
Har ikke skiftet mailaddresse som dere ser...
-- 
Rune Kleveland

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

[i18n-no] Re: På tide å få fikset ordlistepakken