Ei oppsummering på to setningar finn du nedst.
On Sun, 20 Jun 2004, Knut Yrvin wrote:
Videresender en e-post jeg sendte direkte til Leiv Hellebø på fredag:
- Kva ønskjer de dykk av ordlistene? (helst prioritert og
grunngjeven målsetting, du nemnde i går at OOo-omsetjarar hadde jobba med dette og skrive ein rapport?)
Har sendt deg referat fra prioriteringsmøtet med OpenOffice. Der viser jeg til at vi må gjennomføre et forprosjekt på 2 uker for å analysere arbeidsomfang.
Har tatt en prat med Axel Bojer (koordinator for oversetting av OpenOffice) og Harald Tingelstad (oversetter) om hva som er ønsket, og hva vi ønsker å prioritere.
- Vi trenger sårt en gjennomgang av Rune K's ordlister
i forhold til ordkvalitet, og antall ord hvor ord mangler. Dette kan gjøres ved å hente ut masse tekst fra Internett, sortere dette og gjøre en kvalitetsgjennomgang. Da kan vi like greit gjøre punkt 2. og 3. i samme slengen.
Ja, dette kan trengjast (men sjå nedanfor!): Til dømes er bokmålspreposisjonen 'fra' i ordlista av ein eller annan grunn utstyrt med frekvensinformasjonen '0'. Det same gjeld adverbet 'frem' og alle samansetjingar som 'frembringe', 'fremheve'... Dette fører gale vegar når (saksa frå ei melding frå Petter Reinholdtsen):
Den bokmålsordlista som Tollef [Fog Heen, min merknad] har bygget for Debian inneholder bare en del av de ordene som er tilgjengelig i pakken. Det er gjort et utvalg basert på frekvensen på ordene for å spare diskplass.
(<url:https://init.linpro.no/pipermail/skolelinux.no/linuxiskolen/2002-April/0039$
OOo (som hentar ord frå myspell-nb) taklar ikkje 'fra' og 'frem*'.
Legg så til at Rune Klevelands frekvensinformasjon er teken frå eit tekstkorpus av den språkkonservative typen, og det burde ikkje undre nokon at OOo heller ikkje godtek det radikale adverbet 'fram' og alle samansetjingar som byrjar med 'fram'. (På bokmål er 'fram*' og 'frem*' jamstelte former.)
Vi nynorskingar har mindre å klage over, for ordlistene inneheld ikkje frekvensinfo for nynorsk. Følgjeleg vert ingen nynorskordord uteletne, og 'fram' og 'frå' får ingen raude strekar i OOo. Følgjande fortel ganske mykje:
$ ls -sh1 /usr/share/myspell/dicts/n[bn]_NO.dic 2,2M /usr/share/myspell/dicts/nb_NO.dic 4,1M /usr/share/myspell/dicts/nn_NO.dic
Dette problemet burde vere lett å løyse, for pakken ispell godkjenner både 'fra' og 'frem*'. Ispell hentar ord frå pakken inorwegian som vert vedlikehalden av den same Tollef Fog Heen. Kanskje det heile er eit ledd i ein utspekulert plan for å lokke uskuldige grunnskuleelevar over på emacs?
Ispell har fleire bokmålsord enn nynorskord (mrk: myspell nyttar reine tekstfiler, medan ispell pakkar det på eitt eller anna vis i ei 'little endian ispell 3.1 hash file'):
$ ls -sh1 /usr/lib/ispell/{bokmål,nynorsk}.hash 3,9M bokmål.hash 3,0M nynorsk.hash
Det er ikkje berre storleiken som gjer ispell betre enn myspell. Ispell er betre i norsk, for det godtek nemleg samansetjingar som 'engelskprøve', noko OOo ikkje gjer. Men skilnaden er berre overflatisk, for OOo godtek samansetjinga 'engelsk-prøve', altså med bindestrek. Berre så synd at slik strekbruk er elendig norsk. (Ispell heilgarderar seg ved også å godta bindestrekssamansetjingar som 'matematikk-prøve'. Slik bør det vel ikkje vere.)
(Mrk: Eg brukar Debian Sarge, så det eg hittil har sagt er ikkje nødvendigvis gjeldande for Skolelinux: Eg har nemleg høyrt at OOo i Skolelinux godtek 'matematikkprøve', altså utan bindestrek (men fortsatt ikkje 'engelskprøve'). Dersom dette er tilfellet, kan forklaringa finnast i Runes ordlister: Her er 'matematikkprøve' oppført som eige ord, med frekvens '3', medan 'engelskprøve' ikkje finst.)
Det er mogleg at eg har oversett noko, men så langt synest eg ordlistegrunnlaget, som Rune har lagt, ser ganske så bra ut. Dersom ein gjev blaffen i frekvensinformasjonen og lærer OOo litt betre norsk, forduftar dei mest synlege problema. Då står det att å utvide lista med manglande nye og/eller vanlege ord. Ei latterleg minimal stikkprøve viser at både 'Linux' og 'tidsklemme' er med, så då er det kanskje ikkje så ille? Kor mykje klør dette eigentleg?
Dersom ein synest stavekontrollen kjem med vel søkte forslag, kan ein til dømes oppdatere frekvensinformasjonen. Det er etter kvart fleire som har tilgang til store mengder tekstlege data, og så langt har både Rune og Lars Nygaard sagt at dei kan hjelpe til :-)
Andre metodar for å forbetre stavekontrollen finst òg. Er det nokon som veit om det finst noko med open kjeldekode?
- a) Vi trenger å heve kvaliteten på ordlista med metadata (data om
ordene) med ordklasser. Dette kan brukes som inndata i en lingvistikk-modul i stavekontrollen.
Ordlista inneheld m.a., og på like fot!, 'kake', 'kaken', 'sjokolade' og 'sjokoladen'. Dermed vert det umogleg å sjå ut frå ordlista at 'kaken' er relatert til 'kake' på eit vis som 'sjokolade' og 'sjokoladen' ikkje er det: 'kake' og 'kaken' er _bøyingsformer_ av same _leksemet_ (lingvistiske termar som vert nytta for at ikkje termen 'ord' skal verte plagsamt overlasta).
For vidare bruk av ordlistene er det nødvendig å kunne nyttiggjere seg slike grammatikalske opplysingar. Det for meg mest opplagte bruksområdet er grammatikkontroll: 'fem kaker' er ei ok substantivsfrase og kan inngå i setningar som både subjekt og objekt. 'fem kaken' er ikkje ei slik frase. Det verkar òg innlysande at ein stavekontroll vil gjere ein betre jobb om han utelet forslag som fører til grammatisk feilaktige setningar. (Sjå til dømes det som står øvst på Runes 'Todo list' url:http://folk.uio.no/runekl/dictionary.html.) Kor mykje betre? Nokon som veit?
(I tillegg anar det meg at det kan verte nyttig å kunne skilje mellom dei samansette og dei usamansette orda. Det høyrest ut som ein god ide for å lage ein fornuftig samansetjingsmodul.)
- b) Lage en bedre språkmodul i ispell, myspell ol. som kan bruke
metadata for bedre å stave ord riktig (som sammensatte ord osv.).
- Ordbeskrivelse (det samme som heter "artikkel fra bokmålsordboka" i ordboka til dokumentasjonsprosjektet. Her må vi også beskrive flertydige ord (homonymer). http://www.simnet.is/stbr/veld.html
Hm. Meiner du at vi skal (m.a.) lage definisjonar til orda i ordlista? Det kan vel late seg gjere om ein deler jobben med gud, kvarmann og norsklærarar og tilhøyrande elevar. Men må ikkje definisjonane i så fall følgje eksisterande tydingsanalysar frå dei Språkrådssanksjonerte ordbøkene utvikla ved UiO?
I så fall er arbeidet vanskeleg: Artiklane er skrivne av folk med årelang trening, formatet er utvikla gjennom ein laaang tradisjon (første norske ordlista kom midt på 1500-talet (el. var det 1600-talet) frå Sunnfjord!), og forfattarane har saumfart kvarandres artiklar grundig. (Arbeidet vert heller ikkje så mykje lettare av at ein kan definere orda etter eige godtykke.) Rett nok vil eit elektronisk format kunne gje nye rammer og utviklingspotensiale for artiklane, men dette målet synest meg ikkje heilt gjennomtenkt.
(Eg bør vel seie at eg ikkje har sett meg inn i kva som føregår på www.speling.org, så tilgje meg denne lange tiraden om eg har misforstått noko.)
Som kjent er _alle_ artiklane frå Bokmålsordboka og Nynorskordboka tilgjengelege på <url: http://www.dokpro.uio.no/ordboksoek.html%3E. (Med visse restriksjonar: For mange tilkoplingar på for kort tid frå same ip-adresse, vert ikkje godteke. Kva som er sperregrensa veit eg ikkje, men i samband med hovudfaget søkte eg mykje på kort tid, så eg vågar å påstå at dei som har meir daglegdagse behov aldri opplever det som noko problem. For dagleg bruk er det heller ikkje noko problem at ein får maks ti svar om ein søkjer med regulære uttrykk.) Vil ein ha heile sulamitten, må ein betale, eller be om å få tilgang. Det får ein om ein har edle nok motiv.
Meir problematisk er det at _grammatikkdelen_ av artiklane per i dag ikkje er tilgjengeleg med ein lisens som stør oppunder den språkteknologiske programvareutviklinga. (Med 'grammatikkdel' tenkjer eg på oppslagsord og bøyingsinformasjon: Informasjonen som fortel at 'kake' og 'kaken' er relatert slik og slik, og at 'kake' og 'sjokolade' er relatert slik og slik. Denne biten er laga av Dokumentasjonsprosjektet, IBM og Tekstlaboratoriet.)
Resultatet er at det straks krev mykje meir for å komme i gang med det omfattande arbeidet det er å lage ein grammatikkontroll for norsk. Det finst ein slik grammatikkontroll, og han vart finansiert av Microsoft. url:https://init.linpro.no/pipermail/skolelinux.no/linuxiskolen/2002-April/003930.html Alt når han kom, var det ugunstig at han bandt brukaren til Windows XP. I og med Linux sin framgang dei siste åra, er det rimeleg å tru at det etter kvart finst ganske mange rundt om kring som ikkje har tilgang til dei beste skrivereiskapane. Aller tyngst er det kanskje for Skolelinux og skulane som brukar Skolelinux.
Lars Nygaard (som er tilsett ved Tekstlaboratoriet, og dessutan ein hyggjeleg fyr, sjå url: https://init.linpro.no/pipermail/skolelinux.no/linuxiskolen/2001-December/002178.html ) og eg snakka i går om å skrive eit brev for å be om at grammatikkdelen får ein meir tidsmessig lisens. Vi har tenkt å gjere dette førstkomande torsdag, og vi kan sikkert trenge ei hjelpande hand av ein søknadsskrivingserfaren person som kan komme med saksopplysingar om Skolelinux, og som i tillegg er drilla i å argumentere for open kjeldekode. Knut?
Så vidt vi kjenner adressatane, vil dei verdsetje eit slikt initiativ. At dei synest (eller vil synest) Skolelinux er svære greier, er eg heilt viss på.
Dersom koden likevel ikkje vert frigjeven, vil vi i staden gå inn for eit dugnadsbasert gjer-det-sjølv-leksikon som kan komme det norske språksamfunnet til gode :-)
Med det eine eller andre grunnlaget trur Lars og eg at ein grov grammatikkontroll ikkje er så heilt umogleg å få i stand. Med gode råd frå folk som har vore med på det tidlegare, og med hjelp frå dei som vil og kan, kan han (grammatikkontrollen, ikkje Lars :-) kanskje til og med verte måteleg akseptabel?
Vel, no er denne meldinga vorten så lang at eg unnlet å svare på resten av Knuts melding.
For å trykke saman alt det føregåande: Rune Klevelands ordliste er bra på å fortelje om eit ord er tillete på norsk eller ikkje. Men snarare enn å lappe på ordlistene, bør vi heller skaffe oss eit leksemleksikon med informasjon som høver ein grammatikkontroll.
mvh,
Leiv Hellebø
PS: Gaute, om du fortsatt heng med: Eg skal til Sogn og Fjordane til helga og kan sveipe innom Bergen på fredag om du har tid og høve til å møte meg. Ta kontakt!
--
Every time I fire a linguist, the performance of the recognizer improves.
Fred Jelinek