Det er visst ingen som vedlikeholder den norske ispell-ordlisten lenger. Siste utgave kan hentes fra URL:http://folk.uio.no/runekl/dictionary.html, og der står det at
Rune Kleveland kan kontaktes på runekl @ math.uio.no. Når en forsøker å sende mail dit, så får en aldri noe svar. En sjekk på google tyder på at Rune Kleveland forsvant fra internet for to år siden. Jeg spurte debian-utvikleren som pakker inorwegian (Tollef Fog Heen) om han hadde fått kontakt med Rune, og fikk dette avkreftet. Tollef hadde sendt noen mail, men aldri fått svar.
Jeg konkluderer derfor med at det ikke er noen som vedlikeholder den norske ordlista for tiden, og at noen bør ta over arbeidet. Pakken er inkludert i flere linux-distribusjoner (i alle fall RedHat og Debian), og de som har ansvaret for pakken der bør antagelig være sammen om å ta vare på pakken. Men det trengs en person med interesse og tid til å koordinere det hele.
Noen her som føler seg kallet?
[Petter Reinholdtsen]
Det er visst ingen som vedlikeholder den norske ispell-ordlisten lenger. Siste utgave kan hentes fra URL:http://folk.uio.no/runekl/dictionary.html, og der står det at Rune Kleveland kan kontaktes på runekl @ math.uio.no.
Og utrolig nok, i dag er det ikke lenger mulig å få kontakt med den websiden. Jeg aner ikke hvorfor. Jeg har sikret meg en kopi av websidene, i tilfelle de skulle forsvinne for godt. Mens jeg gikk igjennom denne lokale kopien, så kom jeg over et telefonnummer hjem til Rune Kleveland. Et kjapt oppslag i telefonkatalogen bekreftet at det fortsatt bodde noen ved navn Kleveland der, så jeg tok sjansen og ringte.
Og under over alle under, der traff jeg på den samme Rune Kleveland, som kunne bekreftet at det var han som hadde laget ordlistepakken, og at han ganske riktig var gått ut i jobb og ikke hatt tid til å vedlikeholde den. I tillegg har han mistet passordet til kontoen der filene lå, slik at han ikke fikk oppdatert informasjonen der.
På skolelinux-kontoret i dag var jeg og Vidar, samt at en ny person dukket opp og fortalte at han var interessert i å bidra i Skolelinux. Han fortalte at han nettopp var nyutdannet fra lingvistisk informatikk på HF, og hadde tatt hovedfag om ordbøker. Vi ble naturligvis i fyr og flamme, og lurte på om han var interessert i å ta over vedlikeholdet av ordlistepakken, da forfatteren tilsynelatende var forsvunnet. Leiv Hellebø var interessert i det, og skulle se nærmere på pakken.
Jeg nevnte dette hyggelig sammentreffet for Hr. Kleveland da jeg ringte ham, og vi syntes det hørtes ut som en god ide å få til et samarbeid. Begge bør ha gode forutsetninger til å kunne forbedre ordlistene både for bokmål og nynorsk.
Cc til begge, slik at de vet adressen til hverandre. Leiv, kan du ta kontakt med Rune og høre om et samarbeide er mulig? Rune, hvis du vil ha ut en kopi av websiden, så kan du ta kontakt med meg.
Hvis dere vil ha en webside å legge ut denne ordboken, så stiller Skolelinux svært gjerne opp med maskin og diskplass.
Leiv skulle dukke opp på NUUGs sommerfest. Det kan være en ide for flere. URL:http://www.nuug.no/aktiviteter/20040617-sommerfest/.
Petter Reinholdtsen petter.reinholdtsen@usit.uio.no writes:
Og utrolig nok, i dag er det ikke lenger mulig å få kontakt med den websiden. Jeg aner ikke hvorfor. Jeg har sikret meg en kopi av websidene, i tilfelle de skulle forsvinne for godt.
Ingen problem herifrå ...
Jeg nevnte dette hyggelig sammentreffet for Hr. Kleveland da jeg ringte ham, og vi syntes det hørtes ut som en god ide å få til et samarbeid. Begge bør ha gode forutsetninger til å kunne forbedre ordlistene både for bokmål og nynorsk.
Så fint! Dette kan bli bra.
Leiv skulle dukke opp på NUUGs sommerfest. Det kan være en ide for flere. URL:http://www.nuug.no/aktiviteter/20040617-sommerfest/.
Nett den dagen er eg på Bowie-konsert i Bergen.
Med helsing, Gaute Hvoslef Kvalnes
Hei! Jeg føler meg kallet. Har kanskje ikke allverdens erfaring med slikt, men et sted må man begynne.
Hvis jeg kan få litt mer info om hva det innebærer og være koordinator?
Slik jeg kan forstå det er at hvis skolelinux og i18n-no skal overta ansvaret for ispell ordlistene så kan de også stille med cvs og nettsideplass osv?
Mvh TOrstein
Torstein Hernes Dybdahl torsted@runbox.no writes:
Hvis jeg kan få litt mer info om hva det innebærer og være koordinator?
Det ville ha vore veldig fint om nokon kunne drege i gang noko liknande det danskane har på http://da.speling.org. Systemet deira for kvalitetskontroll ser veldig fint ut.
Slik jeg kan forstå det er at hvis skolelinux og i18n-no skal overta ansvaret for ispell ordlistene så kan de også stille med cvs og nettsideplass osv?
Ja, heilt sikkert.
I samband med OpenOffice.org-prosjektet kjem eg sjølv til å jobba ein god del med stavekontroll i sommar, og har brukt den siste veka på å setja meg inn i korleis ISpell og MySpell fungerer.
Med helsing, Gaute Hvoslef Kvalnes
[Gaute Hvoslef Kvalnes]
Det ville ha vore veldig fint om nokon kunne drege i gang noko liknande det danskane har på http://da.speling.org. Systemet deira for kvalitetskontroll ser veldig fint ut.
Det ser ut som om de har tenkt ganske mye på hvordan arbeidet bør organiseres, ja. Kanskje vi burde få noen av de som står bak til Norge for å fortelle om det?
I samband med OpenOffice.org-prosjektet kjem eg sjølv til å jobba ein god del med stavekontroll i sommar, og har brukt den siste veka på å setja meg inn i korleis ISpell og MySpell fungerer.
Jeg snakket om dette med Chris Hall på tur tilbake fra Debcamp4, og han nevnte at OOo-folkene godt kunne tenkte seg å bytte ut myspell med aspell. Det manglet bare noen som tok på seg jobben. Årsaken var at en ikke ønsket å vedlikeholde sitt eget system for stavekontroll, og at aspell ble antatt å være bedre enn ispell.
Arbeid med stavekontroll bør i tillegg se hva som må til for å få en samisk stavekontroll på bena. Jeg vet ikke om aspell er i stand til å håndtere samisk, men er sikker på at det er på tide å sørge for at den blir det. :)
[Torstein Hernes Dybdahl]
Jeg føler meg kallet. Har kanskje ikke allverdens erfaring med slikt, men et sted må man begynne.
Hvis jeg kan få litt mer info om hva det innebærer og være koordinator?
Dette er jo genialt. Fra å ha ingen som jobbet med ordlisten, så har vi plutselig 4 interesserte. Rune, Leiv, Torstein og Gaute. :)
Jeg har ingen klar forståelse av hva det innebærer å være koordinator, så det må dere nok finne ut mens dere setter dere inn i saken. Det jeg er sikker på, er at ordlisten trenger noen som tar ansvar for den, og sørger for at den blir vedlikeholdt.
Slik jeg kan forstå det er at hvis skolelinux og i18n-no skal overta ansvaret for ispell ordlistene så kan de også stille med cvs og nettsideplass osv?
Helt klart. Bare gi beskjed om hva som trengs, så fikser drift@skolelinux.no det.
lørdag 19. juni 2004, 19:21, skrev Petter Reinholdtsen:
Jeg har ingen klar forståelse av hva det innebærer å være koordinator, så det må dere nok finne ut mens dere setter dere inn i saken. Det jeg er sikker på, er at ordlisten trenger noen som tar ansvar for den, og sørger for at den blir vedlikeholdt.
Videresender en e-post jeg sendte direkte til Leiv Hellebø på fredag:
fredag 18. juni 2004, 14:36, skrev Leiv Hellebø:
- Kva er gjort i høve til ordlistene? (Frykteleg utydeleg spørsmål,
beklager, men om det er noko som fell deg inn, "vi i Skolelinux har ..." e.l., så er eg interessert i å høyre om det.)
Laget standard pakker som enkelt lar seg installere på Debian Linux både for OpenOffice og andre frie program som trenger stavekontroll. Det brukes stavekontroll-motorer som ispell og myspell som begge bruker Rune K's ordlister :-)
- Kva ønskjer de dykk av ordlistene? (helst prioritert og
grunngjeven målsetting, du nemnde i går at OOo-omsetjarar hadde jobba med dette og skrive ein rapport?)
Har sendt deg referat fra prioriteringsmøtet med OpenOffice. Der viser jeg til at vi må gjennomføre et forprosjekt på 2 uker for å analysere arbeidsomfang.
Har tatt en prat med Axel Bojer (koordinator for oversetting av OpenOffice) og Harald Tingelstad (oversetter) om hva som er ønsket, og hva vi ønsker å prioritere.
1. Vi trenger sårt en gjennomgang av Rune K's ordlister i forhold til ordkvalitet, og antall ord hvor ord mangler. Dette kan gjøres ved å hente ut masse tekst fra Internett, sortere dette og gjøre en kvalitetsgjennomgang. Da kan vi like greit gjøre punkt 2. og 3. i samme slengen.
2. a) Vi trenger å heve kvaliteten på ordlista med metadata (data om ordene) med ordklasser. Dette kan brukes som inndata i en lingvistikk-modul i stavekontrollen.
2. b) Lage en bedre språkmodul i ispell, myspell ol. som kan bruke metadata for bedre å stave ord riktig (som sammensatte ord osv.).
3. Ordbeskrivelse (det samme som heter "artikkel fra bokmålsordboka" i ordboka til dokumentasjonsprosjektet. Her må vi også beskrive flertydige ord (homonymer). http://www.simnet.is/stbr/veld.html
4. Relasjoner til andre norske ord som betyr det samme (synonymer).
5. Relasjoner til andre språk og dialekter. Norsk->Engelsk/Engelsk->Norsk, Bokmål->Nynorsk/Nynorsk->Bokmål
6. Sjekk av korrekte setninger (større prosjekt)
Hensikten med dette er:
1. Å øke kvaliteten på stavekontrollen som er fritt tilgjengelig i skriveprogram ol.
2. Å styrke automatikken ved maskinell oversetting av tekster
3. Å lage støtteverktøy for gramatikksjekk i skriveverktøy ol.
- Har de nokre tankar om kor mykje arbeidet hastar utover enn "så
mykje som mogleg så fort som mogleg"? Dvs. konkrete ønskjer om at det og det skal vere på plass innan då og då? (Dette inneber at ein har gjort seg tankar om kva som er realistisk og kor mykje arbeid som krevst. Er det nokon som har tenkt over slikt?)
Det var dette vi ønsket å greie ut som en del av OpenOffice-prosjektet.
- K
Ei oppsummering på to setningar finn du nedst.
On Sun, 20 Jun 2004, Knut Yrvin wrote:
Videresender en e-post jeg sendte direkte til Leiv Hellebø på fredag:
- Kva ønskjer de dykk av ordlistene? (helst prioritert og
grunngjeven målsetting, du nemnde i går at OOo-omsetjarar hadde jobba med dette og skrive ein rapport?)
Har sendt deg referat fra prioriteringsmøtet med OpenOffice. Der viser jeg til at vi må gjennomføre et forprosjekt på 2 uker for å analysere arbeidsomfang.
Har tatt en prat med Axel Bojer (koordinator for oversetting av OpenOffice) og Harald Tingelstad (oversetter) om hva som er ønsket, og hva vi ønsker å prioritere.
- Vi trenger sårt en gjennomgang av Rune K's ordlister
i forhold til ordkvalitet, og antall ord hvor ord mangler. Dette kan gjøres ved å hente ut masse tekst fra Internett, sortere dette og gjøre en kvalitetsgjennomgang. Da kan vi like greit gjøre punkt 2. og 3. i samme slengen.
Ja, dette kan trengjast (men sjå nedanfor!): Til dømes er bokmålspreposisjonen 'fra' i ordlista av ein eller annan grunn utstyrt med frekvensinformasjonen '0'. Det same gjeld adverbet 'frem' og alle samansetjingar som 'frembringe', 'fremheve'... Dette fører gale vegar når (saksa frå ei melding frå Petter Reinholdtsen):
Den bokmålsordlista som Tollef [Fog Heen, min merknad] har bygget for Debian inneholder bare en del av de ordene som er tilgjengelig i pakken. Det er gjort et utvalg basert på frekvensen på ordene for å spare diskplass.
(<url:https://init.linpro.no/pipermail/skolelinux.no/linuxiskolen/2002-April/0039$
OOo (som hentar ord frå myspell-nb) taklar ikkje 'fra' og 'frem*'.
Legg så til at Rune Klevelands frekvensinformasjon er teken frå eit tekstkorpus av den språkkonservative typen, og det burde ikkje undre nokon at OOo heller ikkje godtek det radikale adverbet 'fram' og alle samansetjingar som byrjar med 'fram'. (På bokmål er 'fram*' og 'frem*' jamstelte former.)
Vi nynorskingar har mindre å klage over, for ordlistene inneheld ikkje frekvensinfo for nynorsk. Følgjeleg vert ingen nynorskordord uteletne, og 'fram' og 'frå' får ingen raude strekar i OOo. Følgjande fortel ganske mykje:
$ ls -sh1 /usr/share/myspell/dicts/n[bn]_NO.dic 2,2M /usr/share/myspell/dicts/nb_NO.dic 4,1M /usr/share/myspell/dicts/nn_NO.dic
Dette problemet burde vere lett å løyse, for pakken ispell godkjenner både 'fra' og 'frem*'. Ispell hentar ord frå pakken inorwegian som vert vedlikehalden av den same Tollef Fog Heen. Kanskje det heile er eit ledd i ein utspekulert plan for å lokke uskuldige grunnskuleelevar over på emacs?
Ispell har fleire bokmålsord enn nynorskord (mrk: myspell nyttar reine tekstfiler, medan ispell pakkar det på eitt eller anna vis i ei 'little endian ispell 3.1 hash file'):
$ ls -sh1 /usr/lib/ispell/{bokmål,nynorsk}.hash 3,9M bokmål.hash 3,0M nynorsk.hash
Det er ikkje berre storleiken som gjer ispell betre enn myspell. Ispell er betre i norsk, for det godtek nemleg samansetjingar som 'engelskprøve', noko OOo ikkje gjer. Men skilnaden er berre overflatisk, for OOo godtek samansetjinga 'engelsk-prøve', altså med bindestrek. Berre så synd at slik strekbruk er elendig norsk. (Ispell heilgarderar seg ved også å godta bindestrekssamansetjingar som 'matematikk-prøve'. Slik bør det vel ikkje vere.)
(Mrk: Eg brukar Debian Sarge, så det eg hittil har sagt er ikkje nødvendigvis gjeldande for Skolelinux: Eg har nemleg høyrt at OOo i Skolelinux godtek 'matematikkprøve', altså utan bindestrek (men fortsatt ikkje 'engelskprøve'). Dersom dette er tilfellet, kan forklaringa finnast i Runes ordlister: Her er 'matematikkprøve' oppført som eige ord, med frekvens '3', medan 'engelskprøve' ikkje finst.)
Det er mogleg at eg har oversett noko, men så langt synest eg ordlistegrunnlaget, som Rune har lagt, ser ganske så bra ut. Dersom ein gjev blaffen i frekvensinformasjonen og lærer OOo litt betre norsk, forduftar dei mest synlege problema. Då står det att å utvide lista med manglande nye og/eller vanlege ord. Ei latterleg minimal stikkprøve viser at både 'Linux' og 'tidsklemme' er med, så då er det kanskje ikkje så ille? Kor mykje klør dette eigentleg?
Dersom ein synest stavekontrollen kjem med vel søkte forslag, kan ein til dømes oppdatere frekvensinformasjonen. Det er etter kvart fleire som har tilgang til store mengder tekstlege data, og så langt har både Rune og Lars Nygaard sagt at dei kan hjelpe til :-)
Andre metodar for å forbetre stavekontrollen finst òg. Er det nokon som veit om det finst noko med open kjeldekode?
- a) Vi trenger å heve kvaliteten på ordlista med metadata (data om
ordene) med ordklasser. Dette kan brukes som inndata i en lingvistikk-modul i stavekontrollen.
Ordlista inneheld m.a., og på like fot!, 'kake', 'kaken', 'sjokolade' og 'sjokoladen'. Dermed vert det umogleg å sjå ut frå ordlista at 'kaken' er relatert til 'kake' på eit vis som 'sjokolade' og 'sjokoladen' ikkje er det: 'kake' og 'kaken' er _bøyingsformer_ av same _leksemet_ (lingvistiske termar som vert nytta for at ikkje termen 'ord' skal verte plagsamt overlasta).
For vidare bruk av ordlistene er det nødvendig å kunne nyttiggjere seg slike grammatikalske opplysingar. Det for meg mest opplagte bruksområdet er grammatikkontroll: 'fem kaker' er ei ok substantivsfrase og kan inngå i setningar som både subjekt og objekt. 'fem kaken' er ikkje ei slik frase. Det verkar òg innlysande at ein stavekontroll vil gjere ein betre jobb om han utelet forslag som fører til grammatisk feilaktige setningar. (Sjå til dømes det som står øvst på Runes 'Todo list' url:http://folk.uio.no/runekl/dictionary.html.) Kor mykje betre? Nokon som veit?
(I tillegg anar det meg at det kan verte nyttig å kunne skilje mellom dei samansette og dei usamansette orda. Det høyrest ut som ein god ide for å lage ein fornuftig samansetjingsmodul.)
- b) Lage en bedre språkmodul i ispell, myspell ol. som kan bruke
metadata for bedre å stave ord riktig (som sammensatte ord osv.).
- Ordbeskrivelse (det samme som heter "artikkel fra bokmålsordboka" i ordboka til dokumentasjonsprosjektet. Her må vi også beskrive flertydige ord (homonymer). http://www.simnet.is/stbr/veld.html
Hm. Meiner du at vi skal (m.a.) lage definisjonar til orda i ordlista? Det kan vel late seg gjere om ein deler jobben med gud, kvarmann og norsklærarar og tilhøyrande elevar. Men må ikkje definisjonane i så fall følgje eksisterande tydingsanalysar frå dei Språkrådssanksjonerte ordbøkene utvikla ved UiO?
I så fall er arbeidet vanskeleg: Artiklane er skrivne av folk med årelang trening, formatet er utvikla gjennom ein laaang tradisjon (første norske ordlista kom midt på 1500-talet (el. var det 1600-talet) frå Sunnfjord!), og forfattarane har saumfart kvarandres artiklar grundig. (Arbeidet vert heller ikkje så mykje lettare av at ein kan definere orda etter eige godtykke.) Rett nok vil eit elektronisk format kunne gje nye rammer og utviklingspotensiale for artiklane, men dette målet synest meg ikkje heilt gjennomtenkt.
(Eg bør vel seie at eg ikkje har sett meg inn i kva som føregår på www.speling.org, så tilgje meg denne lange tiraden om eg har misforstått noko.)
Som kjent er _alle_ artiklane frå Bokmålsordboka og Nynorskordboka tilgjengelege på <url: http://www.dokpro.uio.no/ordboksoek.html%3E. (Med visse restriksjonar: For mange tilkoplingar på for kort tid frå same ip-adresse, vert ikkje godteke. Kva som er sperregrensa veit eg ikkje, men i samband med hovudfaget søkte eg mykje på kort tid, så eg vågar å påstå at dei som har meir daglegdagse behov aldri opplever det som noko problem. For dagleg bruk er det heller ikkje noko problem at ein får maks ti svar om ein søkjer med regulære uttrykk.) Vil ein ha heile sulamitten, må ein betale, eller be om å få tilgang. Det får ein om ein har edle nok motiv.
Meir problematisk er det at _grammatikkdelen_ av artiklane per i dag ikkje er tilgjengeleg med ein lisens som stør oppunder den språkteknologiske programvareutviklinga. (Med 'grammatikkdel' tenkjer eg på oppslagsord og bøyingsinformasjon: Informasjonen som fortel at 'kake' og 'kaken' er relatert slik og slik, og at 'kake' og 'sjokolade' er relatert slik og slik. Denne biten er laga av Dokumentasjonsprosjektet, IBM og Tekstlaboratoriet.)
Resultatet er at det straks krev mykje meir for å komme i gang med det omfattande arbeidet det er å lage ein grammatikkontroll for norsk. Det finst ein slik grammatikkontroll, og han vart finansiert av Microsoft. url:https://init.linpro.no/pipermail/skolelinux.no/linuxiskolen/2002-April/003930.html Alt når han kom, var det ugunstig at han bandt brukaren til Windows XP. I og med Linux sin framgang dei siste åra, er det rimeleg å tru at det etter kvart finst ganske mange rundt om kring som ikkje har tilgang til dei beste skrivereiskapane. Aller tyngst er det kanskje for Skolelinux og skulane som brukar Skolelinux.
Lars Nygaard (som er tilsett ved Tekstlaboratoriet, og dessutan ein hyggjeleg fyr, sjå url: https://init.linpro.no/pipermail/skolelinux.no/linuxiskolen/2001-December/002178.html ) og eg snakka i går om å skrive eit brev for å be om at grammatikkdelen får ein meir tidsmessig lisens. Vi har tenkt å gjere dette førstkomande torsdag, og vi kan sikkert trenge ei hjelpande hand av ein søknadsskrivingserfaren person som kan komme med saksopplysingar om Skolelinux, og som i tillegg er drilla i å argumentere for open kjeldekode. Knut?
Så vidt vi kjenner adressatane, vil dei verdsetje eit slikt initiativ. At dei synest (eller vil synest) Skolelinux er svære greier, er eg heilt viss på.
Dersom koden likevel ikkje vert frigjeven, vil vi i staden gå inn for eit dugnadsbasert gjer-det-sjølv-leksikon som kan komme det norske språksamfunnet til gode :-)
Med det eine eller andre grunnlaget trur Lars og eg at ein grov grammatikkontroll ikkje er så heilt umogleg å få i stand. Med gode råd frå folk som har vore med på det tidlegare, og med hjelp frå dei som vil og kan, kan han (grammatikkontrollen, ikkje Lars :-) kanskje til og med verte måteleg akseptabel?
Vel, no er denne meldinga vorten så lang at eg unnlet å svare på resten av Knuts melding.
For å trykke saman alt det føregåande: Rune Klevelands ordliste er bra på å fortelje om eit ord er tillete på norsk eller ikkje. Men snarare enn å lappe på ordlistene, bør vi heller skaffe oss eit leksemleksikon med informasjon som høver ein grammatikkontroll.
mvh,
Leiv Hellebø
PS: Gaute, om du fortsatt heng med: Eg skal til Sogn og Fjordane til helga og kan sveipe innom Bergen på fredag om du har tid og høve til å møte meg. Ta kontakt!
--
Every time I fire a linguist, the performance of the recognizer improves.
Fred Jelinek
On Tue, 2004-06-22 at 09:34 +0200, Leiv Hellebø wrote:
Det er ikkje berre storleiken som gjer ispell betre enn myspell. Ispell er betre i norsk, for det godtek nemleg samansetjingar som 'engelskprøve', noko OOo ikkje gjer. Men skilnaden er berre overflatisk, for OOo godtek samansetjinga 'engelsk-prøve', altså med bindestrek. Berre så synd at slik strekbruk er elendig norsk. (Ispell heilgarderar seg ved også å godta bindestrekssamansetjingar som 'matematikk-prøve'. Slik bør det vel ikkje vere.)
eg trur ikkje du skal uroe deg over dette før du klarer å oppdage 'matematikk prøve' som trass alt er ti gongar verre. vegen dit er lang, er eg redd, men ei kvar ferd startar med eit fyrste steg, som det heiter.
On Wed, 23 Jun 2004, Kjetil Torgrim Homme wrote:
On Tue, 2004-06-22 at 09:34 +0200, Leiv Hellebø wrote:
Det er ikkje berre storleiken som gjer ispell betre enn myspell. Ispell er betre i norsk, for det godtek nemleg samansetjingar som 'engelskprøve', noko OOo ikkje gjer. Men skilnaden er berre overflatisk, for OOo godtek samansetjinga 'engelsk-prøve', altså med bindestrek. Berre så synd at slik strekbruk er elendig norsk. (Ispell heilgarderar seg ved også å godta bindestrekssamansetjingar som 'matematikk-prøve'. Slik bør det vel ikkje vere.)
eg trur ikkje du skal uroe deg over dette før du klarer å oppdage 'matematikk prøve' som trass alt er ti gongar verre. vegen dit er lang, er eg redd, men ei kvar ferd startar med eit fyrste steg, som det heiter.
Korleis det står til med Myspell har eg ikkje sett meg inn i enno, men forstår eg det rett er ikkje dette feil for Ispell sin del: (frå ispell(1))
If there are "near misses" in the dictionary (words which differ by only a single letter, a missing or extra letter, a pair of transposed letters, or a missing space or hyphen), then they are also displayed on following lines.
Det verkar som Myspell har om lag same funksjonaliteten, og såleis er vel 'matematikkprøve' _to_ ord som manglar mellomrom.
Umiddelbart peikar det seg ut to løysingar: 1) Ta med forferdeleg mange samansetjingar i ordlista, og gjere brukarane merksame på at dei må melde frå om nye ord som ikkje er med og mellombels bruke sjølvdefinerte ordlister. 2) Å slå av denne "featuren", for nordmenn oppfattar det tydelegvis ikkje som ein feature. (Spontant tenkjer eg at det ikkje vil føre til så mykje gale.)
Den dagen vi får ordlister med meir grammatisk informasjon, vil vi ha betre føresetnadar for å lage ein smartare samansetjingsmodul.
mvh,
Leiv
torsdag 24. juni 2004, 16:40, skrev Leiv Hellebø:
Den dagen vi får ordlister med meir grammatisk informasjon, vil vi ha betre føresetnadar for å lage ein smartare samansetjingsmodul.
I en e-post for en uke siden fortalte Petter Reinholdsen at hele 4 personer ønsket å bidra til gi en riktig ramme rundt arbeidet med å forbedre stavekontrollen som brukes sammen med fri programvare. Det har kommet positive signaler at OOo-folka ønsker en bedre stavekontroll. Min bekymring er hva som kommer til å skje når 20 personer engasjerer seg, og lurer på hva de kan bidra med. Derfor har jeg spurt om ikke Leiv Hellebø kan grave fram nye behov og de mangler som er knyttet til dagens løsning.
Mitt og ditt forslag var at man burde begynne på denne jobben. Selve ordene i ordbøkene hadde relativt sett høy kvalitet leste jeg i en tidligere e-post.
Det er riktig som Gaute skriver at dette er en større oppgave. Er vi mange nok, blir det mindre arbeide på hver enkelt. For å få dette til krever det rekruttering av flere oversettere og nye bidragsytere. Et eksempel på veksten som har vært i oversetting i det siste er at GNOME 2.6 er oversatt til nynorsk og bokmål. Derfor tror jeg vi kan få til mer om vi:
1. Rekrutterer og inkluderer flere oversettere og språkinteresserte på våre utviklersamlinger. Jeg har hatt noe kontakt med oversetterne av GNOME, men ikke nok. De er sikkert like mye opptatt av dette som oss.
2. Får igang fadderordningen hvor lærere hjelper lærere igang med bruk av Skolelinux på nye skoler. Ønsket er at flere lærere engasjerer seg i dette arbeidet, både i forhold til kvantitet og kvaliteten på arbeidet med oversetting.
For å få dette til må vi sette noen gode mål for hvor vi vil. Litt på samme måte som Gaute satte igang med en målsetning om å få tilgang til nynorske dataprogram. Vi må også sikre oss klarhet i hva arbeidet går ut på. Leiv Hellebø har hovedfag innen feltet med elektroniske ordbøker. Har jeg forstått han rett har han en lingvistisk-datateknisk bakgrunn. Han er rett man på rett sted for å si slik.
Gjennom dette forarbeidet tror jeg vi enklere kan rekruttere nye bidragsytere :-)
mvh Knut
On Thu, 24 Jun 2004, Knut Yrvin wrote:
Leiv Hellebø har hovedfag innen feltet med elektroniske ordbøker. Har jeg forstått han rett har han en lingvistisk-datateknisk bakgrunn.
I alle fall stemmer dette:
Hovudfag i datalingvistikk ved Språk, Logikk og Informasjon, Institutt for lingvistiske fag ved UiO. Eg implementerte Bokmålsordboka (materialet derfrå) i ei lingvistisk formalisme.
(Faget har nett fått nytt namn: IT - språk, logikk og psykologi)
Leiv
On Thu, 2004-06-24 at 16:40 +0200, Leiv Hellebø wrote:
On Wed, 23 Jun 2004, Kjetil Torgrim Homme wrote:
eg trur ikkje du skal uroe deg over dette før du klarer å oppdage 'matematikk prøve' som trass alt er ti gongar verre. vegen dit er lang, er eg redd, men ei kvar ferd startar med eit fyrste steg, som det heiter.
Korleis det står til med Myspell har eg ikkje sett meg inn i enno, men forstår eg det rett er ikkje dette feil for Ispell sin del: (frå ispell(1))
If there are "near misses" in the dictionary (words which differ by only a single letter, a missing or extra letter, a pair of transposed letters, or a missing space or hyphen), then they are also displayed on following lines.
aha, interessant. vi kan gjere[1] det motsette av dette: viss to ord (på minst tre bokstavar kvar eller deromkring) sett saman utgjer eit nytt ord som er eksplisitt med i ordlista, flagg det som ein mogleg feil. så legg vi inn dei orda som er vanleg å særskrive.
[1] dvs. patche ispell eller aspell eller myispell til å gjere dette
Det verkar som Myspell har om lag same funksjonaliteten, og såleis er vel 'matematikkprøve' _to_ ord som manglar mellomrom.
Umiddelbart peikar det seg ut to løysingar: 1) Ta med forferdeleg mange samansetjingar i ordlista, og gjere brukarane merksame på at dei må melde frå om nye ord som ikkje er med og mellombels bruke sjølvdefinerte ordlister. 2) Å slå av denne "featuren", for nordmenn oppfattar det tydelegvis ikkje som ein feature. (Spontant tenkjer eg at det ikkje vil føre til så mykje gale.)
eg forstår ikkje kva du meiner med 2). meiner du at sær skriving er på veg inn i det norske språket, og at vi dermed ikkje treng å gjere noko med det?
On Thu, 24 Jun 2004, Kjetil Torgrim Homme wrote:
On Thu, 2004-06-24 at 16:40 +0200, Leiv Hellebø wrote:
On Wed, 23 Jun 2004, Kjetil Torgrim Homme wrote:
eg trur ikkje du skal uroe deg over dette før du klarer å oppdage 'matematikk prøve' som trass alt er ti gongar verre. vegen dit er lang, er eg redd, men ei kvar ferd startar med eit fyrste steg, som det heiter.
Korleis det står til med Myspell har eg ikkje sett meg inn i enno, men forstår eg det rett er ikkje dette feil for Ispell sin del: (frå ispell(1))
If there are "near misses" in the dictionary (words which differ by only a single letter, a missing or extra letter, a pair of transposed letters, or a missing space or hyphen), then they are also displayed on following lines.aha, interessant. vi kan gjere[1] det motsette av dette: viss to ord (på minst tre bokstavar kvar eller deromkring) sett saman utgjer eit nytt ord som er eksplisitt med i ordlista, flagg det som ein mogleg feil. så legg vi inn dei orda som er vanleg å særskrive.
[1] dvs. patche ispell eller aspell eller myispell til å gjere dette
Har eg rett om du tenkjer slik: Vi flaggar alle slike moglege feil, men markerer som feil berre dei som ofte vert feilaktig særskrive.
Korleis veit vi kva ord det er vanleg å særskrive?
Det verkar som Myspell har om lag same funksjonaliteten, og såleis er vel 'matematikkprøve' _to_ ord som manglar mellomrom.
Umiddelbart peikar det seg ut to løysingar: 1) Ta med forferdeleg mange samansetjingar i ordlista, og gjere brukarane merksame på at dei må melde frå om nye ord som ikkje er med og mellombels bruke sjølvdefinerte ordlister. 2) Å slå av denne "featuren", for nordmenn oppfattar det tydelegvis ikkje som ein feature. (Spontant tenkjer eg at det ikkje vil føre til så mykje gale.)
eg forstår ikkje kva du meiner med 2). meiner du at sær skriving er på veg inn i det norske språket, og at vi dermed ikkje treng å gjere noko med det?
Eg meinte å patche Myspell slik at OOo ikkje ein gong tenkjer på å dele opp einskildord i to. Beklager, det var visst ikkje heilt klart.
Leiv
On Thu, 2004-06-24 at 18:44 +0200, Leiv Hellebø wrote:
aha, interessant. vi kan gjere[1] det motsette av dette: viss to ord (på minst tre bokstavar kvar eller deromkring) sett saman utgjer eit nytt ord som er eksplisitt med i ordlista, flagg det som ein mogleg feil. så legg vi inn dei orda som er vanleg å særskrive.
[1] dvs. patche ispell eller aspell eller myispell til å gjere dette
Har eg rett om du tenkjer slik: Vi flaggar alle slike moglege feil, men markerer som feil berre dei som ofte vert feilaktig særskrive.
korleis kan vi vite kva feil som er moglege?
når eg skriv "veranda hage", så finnest ikkje "verandahage" i ordlista, og datamaskinen kan ikkje vite om det er feil utan avansert språkanalyse. derimot kan det hende vi har lagt inn "verandadør" eksplisitt, og då kan vi gjette på at "veranda dør" er feil.
Korleis veit vi kva ord det er vanleg å særskrive?
erfaring. irritasjon over andre sine tekster.
(eg trur ikkje "veranda dør" er spesielt vanleg. :-)
Eg meinte å patche Myspell slik at OOo ikkje ein gong tenkjer på å dele opp einskildord i to. Beklager, det var visst ikkje heilt klart.
Myspell skal ikkje foreslå at brukaren endrar det til to ord, han skal forstå at det er eitt ord som er sett saman av to ord i ordlista.
Hei. Hvordan går det med planene om å forbedre ordlistene for Bokmål og Nynorsk?
Torsdag 24. juni 2004 16:40 skreiv Leiv Hellebø:
Den dagen vi får ordlister med meir grammatisk informasjon, vil vi ha betre føresetnadar for å lage ein smartare samansetjingsmodul.
MySpell er i stand til å setja saman ord, men eg er ikkje sikker på kor sofistikert denne støtta er. Her er ein test eg syntest var litt interessant: (Det er berre «matematikkprøve» som finst i ordlista frå før.)
"matematikkprøve" is okay
"matematikksprøve" is incorrect! suggestions: ..."matematikkprøve"
"engelskprøve" is okay
"engelsksprøve" is incorrect! suggestions: ..."engelsksproglig" ..."engelskspråklig" ..."engelskspråklige" ..."engelsksproglige" ..."engelskseksjoner" ..."engelskseksjon" ..."engelskseksjons" ..."engelskseksjonen" ..."engelskseksjoners" ..."engelskseksjonens"
"lekseprøve" is incorrect! suggestions: ..."leseprøve" ..."lekse prøve"
"geografiprøve" is okay
"religionsprøve" is okay
"historieprøve" is okay
"elektronikkprøve" is okay
"heimkunnskapsprøve" is okay
"elefantprøve" is okay
"elefantsprøve" is okay
"historieelefantprøve" is okay
"historieheimkunnskapselefantgeografiprøve" is okay
Med helsing, Gaute Hvoslef Kvalnes