Karl Ove Hufthammer mener at dagens stavekontroll er av lav kvalitet, og at den blir bedre hvis vi dropper dagens orddatabase og i stedet bruker kun ordene fra ordbanken. Det innebærer å droppe ca. 200000 ord fra bokmåls-stavekontrollen, og et ukjent antall ord fra nynorskstavekontrollen. Det hadde vært veldig interessant å vite om han har rett, men jeg vet ikke helt hvordan vi kan måle _kvaliteten_ på stavekontrollen, og dermed se om kvaliteten blir bedre eller dårligere. Noen som har ideer og er interessert i å lage en slik kvalitetssjekk? Det hadde vært veldig bra å ha for å se om nye versjoner gir bedre eller dårligere stavekontroll.
Vennlig hilsen,
Onsdag 4. februar 2009 skreiv Petter Reinholdtsen:
Karl Ove Hufthammer mener at dagens stavekontroll er av lav kvalitet, og at den blir bedre hvis vi dropper dagens orddatabase og i stedet bruker kun ordene fra ordbanken.
For dei som måtte lura på kor herr Reinholdtsen har fått dette frå, må dei nok spørra herr Reinholdtsen. Eg har iallfall ikkje skrive noko slikt.
Det hadde vært veldig interessant å vite om han har rett, men jeg vet ikke helt hvordan vi kan måle _kvaliteten_ på stavekontrollen, og dermed se om kvaliteten blir bedre eller dårligere. Noen som har ideer og er interessert i å lage en slik kvalitetssjekk? Det hadde vært veldig bra å ha for å se om nye versjoner gir bedre eller dårligere stavekontroll.
Eg forstår ikkje heilt kva du er på jakt etter. Viss ein lagar ein metrikk på dette, vil jo det gje forskjellige resultat avhengig av korleis du vel måla det. Viss du for eksempel vel å seia at stavekontrollen vert betre jo fleire ord han har, vil du få at kvaliteten heila tida aukar. Viss du målar talet på rettstava ord (korleis skulle du gjera det?), vil du då andre resultatet. Viss du målar talet på ord med fullstendige bøyingar, får du andre resultatet. Viss du målar kor raskt stavekontrollen er (i snitt / beste fall / verste fall) får òg andre resultatet. Det heile vil minna meir på trylling og tulling med tal.
Det som ville vore meir fornuftig er å forbetra kvaliteten på *prosessen*. So vil kvaliteten på resultatet betra seg av seg sjølv.
Sjølv er eg berre interessert i å laga min eigen stavekontroll basert på Norsk ordbank og ev. andre offisielle kjelder (stadnamn frå ein poststad-database, om det er tilgjengelig, for eksempel), og vil heller sysla med det. Andre kan gjera kva dei vil. :)
[Karl Ove Hufthammer]
For dei som måtte lura på kor herr Reinholdtsen har fått dette frå, må dei nok spørra herr Reinholdtsen. Eg har iallfall ikkje skrive noko slikt.
Det høres bra ut. Jeg antar dette du skriver betyr at du ikke mener at dagens stavekontroll er av lav kvalitet. Det er fint. Dine kommentarer fikk meg til å oppfatte at du mente dette, men jeg synes det er bra at jeg har misforstått, og at du ikke mener det.
Eg forstår ikkje heilt kva du er på jakt etter.
Jeg er ute etter en måte å måle opplevd kvalitet på stavekontrollen. Jeg har opplevd andre som mener at den frie stavekontrollen for bokmål og nynorsk er av dårlig kvalitet, uten at det er helt klart for meg hvorfor de mener dette, og hvis vi hadde en måte å kvantivisere opplevd kvalitet så hadde vi en målestokk som kunne brukes for å se om vi klarer å forbedre stavekontrollen eller ikke.
Det som ville vore meir fornuftig er å forbetra kvaliteten på *prosessen*. So vil kvaliteten på resultatet betra seg av seg sjølv.
Det er her jeg gjerne skulle sett at vi hadde en måte å måle at resultatet ble bedre, i stedet for å tro og håpe at det blir bedre hvis vi gjør endringer vi tror er av det gode.
Sjølv er eg berre interessert i å laga min eigen stavekontroll basert på Norsk ordbank og ev. andre offisielle kjelder (stadnamn frå ein poststad-database, om det er tilgjengelig, for eksempel), og vil heller sysla med det. Andre kan gjera kva dei vil. :)
Tror du dette vil gi en stavekontroll av god kvalitet? Bedre enn den som finnes i dag? Eller er det helt andre årsaker til at du velger å prioritere å lage en annen stavekontroll i stedet for å forbedre den som allerede eksisterer?
Vennlig hilsen,
Onsdag 4. februar 2009 skreiv Petter Reinholdtsen:
For dei som måtte lura på kor herr Reinholdtsen har fått dette frå, må dei nok spørra herr Reinholdtsen. Eg har iallfall ikkje skrive noko slikt.
Det høres bra ut. Jeg antar dette du skriver betyr at du ikke mener at dagens stavekontroll er av lav kvalitet. Det er fint.
Du bør slutta å anta. Eg har ingen sterke meiningar om kvaliteten på dagens stavekontroll etter kva kvalitetskriterium ein ev. skulle komma opp med. Det eg veit er at stavekontrollen ikkje er noko for meg, blant anna av grunnane eg tidligare har skrive om. Derfor vil eg laga min eigen, enkle.
No har eg fått hjelp til det, og vil setja igang med å gjera det (når tida strekk til).
Eller er det helt andre årsaker til at du velger å prioritere å lage en annen stavekontroll i stedet for å forbedre den som allerede eksisterer?
Tida mi er avgrensa, og eg ønskjer derfor ikkje å bruka ho på å gå gjennom over to hundre tusen ord for hand for å finna ord som ikkje står i ordbøkene mine, men som eg kunna tenkt å ha med i stavekontrollen min, fordi eg ein eller annan gong i framtida kunna komma til å stava dei feil.
Andre, som har betre tid, må gjerne få gjera det. Eg vel å la vera.
Den 5. feb. 2009 kl. 00.02 skrev Petter Reinholdtsen:
[Karl Ove Hufthammer]
Eg forstår ikkje heilt kva du er på jakt etter.
Jeg er ute etter en måte å måle opplevd kvalitet på stavekontrollen. Jeg har opplevd andre som mener at den frie stavekontrollen for bokmål og nynorsk er av dårlig kvalitet, uten at det er helt klart for meg hvorfor de mener dette,
Eg er av dei som meiner at kvaliteten på i det minste den nynorske ordlista er for dårleg. Eg meiner det av fleire grunnar: - stavekontrollen taklar ikkje samansette ord, slik at mange av dei orda eg skriv får raud strek - stavekontrollen er usystematisk når det gjeld bøyinga av enkeltord, slik Karl Ove Hufthammar har peikt på i det siste - stavekontrollen har allment for dårleg dekning, dvs for få ord - stavekontrollen kjem med store mengder irrelevante forslag (ja, eg veit dette er subjektivt, men eg kjem attende til ein måte å måla dette på)
Viss ein lagar ein metrikk på dette, vil jo det gje forskjellige resultat avhengig av korleis du vel måla det. Viss du for eksempel vel å seia at stavekontrollen vert betre jo fleire ord han har, vil du få at kvaliteten heila tida aukar. Viss du målar talet på rettstava ord (korleis skulle du gjera det?), vil du då andre resultatet. Viss du målar talet på ord med fullstendige bøyingar, får du andre resultatet. Viss du målar kor raskt stavekontrollen er (i snitt / beste fall / verste fall) får òg andre resultatet. Det heile vil minna meir på trylling og tulling med tal.
Dette er ikkje relevant argumentasjon. Det er heilt rett at mengda ord ikkje automatisk heng i hop med kvaliteten på stavekontrollen, og det er jo sjølvsagt(?) at ein stavekontroll skal ha med alle bøyingane av eit ord? (For norsk kan ein diskutera om ein skal ha med alle slags genitivar.) Og ein må gå ut i frå at alle orda i ein stavekontroll er korrekte - det er jo heile poenget med ein stavekontroll ;)
Men det er jo ikkje slik at det er uråd å måla kvaliteten på ein stavekontroll. Det finst litteratur om dette i fleng. Det viktigaste å måla er:
- kor mange skrivefeil i ein tekst som blir oppdaga kontra dei som ikkje blir oppdaga - kor mange korrekt skrivne ord som blir merka som skrivefeil
Dette er enkle og deskriptive tal, som direkte seier noko om kvaliteten på stavekontrollen. Dei blir på fagspråket pakka inn i to termar:
- precision/presisjon: mengda påståtte skrivefeil i høve til faktiske skrivefeil (dvs det er eit mål på kor overivrig stavekontrollen er - stavekontrollen skal ikkje påstå at noko er feilskrive om det ikkje er det) - recall/gjenfinning: mengda av korrekt identifiserte skrivefeil jf med mengda faktiske skrivefeil, dvs eit mål på kor flink stavekontrollen er til å finna skrivefeil
Dette er dei to grunnleggjande måla, og det er i prinsippet enkelt å rekna ut kvaliteten på ein stavekontroll etter denne metrikken. Sjå lenger ned for detaljar om ein praktisk implementasjon av denne metrikken.
I tillegg finst det andre kvalitetsmål ved ein stavekontroll:
- kor mange av dei korrekt identifiserte feila får eit korrekt forslag? - kor mange av desse orda har korrekt forslag mellom dei fem første? - kor mange av desse orda har korrekt forslag på fyrste plass? - kor mange forslag finst det i snitt pr korrekt identifisert feilskriving? Maks tal på forslag?
Her òg er det mogleg å rekna precision/recall. Grunninnsikten er at den aktuelle korrigeringa bør koma som fyrste forslag, eller nær toppen, og at irrelevante forslag er støy, og jo mindre støy, jo betre. Både Hunspell og Aspell er svært dårlege når det gjeld støynivået - eg får ofte lange lister med forslag, der dei fleste er irrelevante. Det er sjølvsagt grenser for kva som er mogleg å filtrera vekk så lenge ein ikkje kan bruka resten av setninga til å bestemma aktuelle ordklasser, men etter å ha prøvd og arbeidd med ganske mange stavekontrollmotorar, er skilnaden mellom dei stor sjølv med denne avgrensinga.
Kort sagt, forslaga er brukargrensesnittet til stavekontrollen, og jo oftare brukaren opplever at stavekontrollen kjem med relevante/ korrekte forslag, jo meir positivt opplever brukaren stavekontrollen, og omvendt. Med mange irrelevante forslag vil den subjektive/opplevde kvaliteten til stavekontrollen typisk gå ned.
og hvis vi hadde en måte å kvantivisere opplevd kvalitet så hadde vi en målestokk som kunne brukes for å se om vi klarer å forbedre stavekontrollen eller ikke.
Sjå over. I praksis har det vore vanskeleg å utføra desse målingane nøyaktig. Det er to grunnar til det: det har ikkje funnest eit ope og tilgjengeleg korrekt-korpus, der alle skrivefeil er identifiserte i lag med korrigeringane deira, og for det andre har det ikkje funnest verkty for å kunna utføra testane automatisk og på ein reproduserbar måte.
Det å samla inn og byggja opp eit korrekt-korpus er tidkrevjande og lite spennande, men heilt naudsynt. Det som kompliserer biletet er sjølvsagt at ein stavekontroll vil gje ulike resultat for ulike typar tekst. Ein bør derfor helst byggja opp eit korrekt-korpus med fleire ulike teksttypar.
Til no har det vore tungvint å testa stavekontrollar automatisk sjølv om ein har hatt tilgang på eit korrekt-korpus, og det har vore vanskeleg å jamføra resultata frå ulike stavekontrollar. Men i Divvun- prosjektet har vi no laga ein testbenk som kan ta ulike typar testdata som inndata, ein kan spesifisera kva for stavekontroll ein vil testa, og testbenken produserer ein testrapport i XML som representerer testresultata frå ulike typar stavekontrollar i same format. Vi kan altså testa fleire ulike stavekontrollar på nøyaktig same data, og jamføra resultata, med berre éin kommando pr stavekontroll.
Eit eksempel på ein slik testrapport finn de på:
http://www.divvun.no/doc/proof/spelling/testing/Markansluska-pl-forrest-sme-...
Det som ville vore meir fornuftig er å forbetra kvaliteten på *prosessen*.
Sjølvsagt bør ein sjå over prosessen. Eg håper eg kan koma tilbake til det i ein annan e-post.
So vil kvaliteten på resultatet betra seg av seg sjølv.
Det er her jeg gjerne skulle sett at vi hadde en måte å måle at resultatet ble bedre, i stedet for å tro og håpe at det blir bedre hvis vi gjør endringer vi tror er av det gode.
Dette er fullt mogleg, og vi kan (og vil gjerne) hjelpa til med det. Her er forslaget mitt:
(temporært: - nokre av dykk får svn-konto for svn-servaren vår - vi har ikkje hatt tid til å få svn-servaren til å funka som vi vil, og noko av materialet vårt har opphavsrettsklausular knytta til seg, eller er skjerma av kontraktar, derfor trengst det ein svn-konto til vi har fått anonym svn til å funka etter planen.)
- de samlar inn korpus for norsk (nb og nn), tekstane bør helst vera public domain, og ikkje korrekturlesne tidlegare, heller ikkje med stavekontroll - de korrekt-merker korpusa - dersom de bruker vår standard for dette (sjå http://www.divvun.no/doc/proof/spelling/testing/error- markup.html), kan vi automatisk konvertera til ein XML-representasjon, og derifrå til inndata for testbenken - vi køyrer testen med siste versjon av stavekontrollen dykkar, og publiserer resultatet på heimesida vår
Ein må rekna med fleire omgangar med testing, retting og ny testing - ofte ser ein ikkje alle skrivefeil i korpuset, og må leggja til fleire korrekt-merke etter å ha studert testmaterialet.
NB!!! For ein fungerande korrekt-test (gullstandardtest) er det absolutt strengt forbode å bruka resultata til å leggja til manglande ord i ordlista! Det er det same som å "fiksa" testen, og gjer korrekt- dokumentet ubrukbart.
Etter at vi har eit bra korrekt-korpus, er det enkelt å køyra testen på nytt med ein ny versjon av stavekontrollen, og jamføra med den gamle versjonen. Tilsvarande er det like enkelt å jamføra ein versjon basert på ordlista de har no, med ein versjon (berre) basert på ord frå ordbanken.
På lengre sikt arbeider eg i lag med Arbeidsgruppa for språkteknologi i Norden, ei arbeidsgruppe i Nordisk språkråd, med å få til meir systematiske og jamførande testar av ulike språkkontrollverkty, i fyrste omgang stavekontrollar, på tvers av språk, og for fleire parallelle verkty for kvart språk. Det er altså eit mål å få ein uavhengig og jamførande test av t.d. norske stavekontrollar: MS Word, Aspell, Hunspell, iSpell, m.fl. - alle som finst tilgjengelege.
Med testing på tvers av språk er det meininga at vi skal samla inn testmateriale med så like eigenskapar som råd for kvart språk, og køyra same slags verkty på alle språka, t.d. alle dei nordiske MS- stavekontrollane, alle Aspell, osb. På det viset håper vi å få fram om det er systematiske skilnader i kvaliteten på verktya avhengig av kva språk det gjeld, men som burde vera uavhengig av grammatiske skilnader mellom språka - t.d. skilnader i storleiken på ordforrådet/ dekningsgrad/precision&recall, i forslagsmekanismen, i fart, m.m.
I tillegg til at vi reknar med å læra oss ein del av ein slik test, håper vi òg at det vil spora dei ulike miljøa til å arbeida med å auka kvaliteten på verktya dei produserer.
Beste helsing Sjur N. Moshagen Samediggi · Sametinget Prosjektleiar for Divvun-prosjektet http://www.divvun.no/ http://www.samediggi.no/ +358-9-49 75 29 (a) +358-505 634 319 (m)
Takk til her Moshagen for ein veldig interessant e-post. Her er nokre kommentar få kommentarar.
Her òg er det mogleg å rekna precision/recall. Grunninnsikten er at den aktuelle korrigeringa bør koma som fyrste forslag, eller nær toppen, og at irrelevante forslag er støy, og jo mindre støy, jo betre. Både Hunspell og Aspell er svært dårlege når det gjeld støynivået - eg får ofte lange lister med forslag, der dei fleste er irrelevante.
Kan dette ha noko å gjera med korleis ordlistene vert genererte, altso at dei ikkje er spesielt tilpassa norsk ordlaging? Eg har ikkje brukt hunspell eller aspell særlig med dei norske ordlistene før, men har brukt dei engelske ordlistene ein del, og har stikk motsett erfaring. Eg har vore imponert over kor gode forslaga ved skrivefeil har vore, veldig ofte med rett forslag på førsteplass, sjølv når feilstavinga er heller ekstrem (slik ho av og til vert viss eg skriv for fort).
Hunspell står på Wikipedia omtalt som «a spell checker and morphological analyzer designed for languages with rich morphology and complex word compounding or character encoding», noko som kan indikera at hunspell kan spesialtilpassast til norsk mykje betre enn er gjort til no.
Eg ser for eksempel at den engelske affiks-fila inneheld ein regel som seier at stavekontrollen skal prøva «f» viss eit ord inneheld «ph» (og vise versa). For norsk kan ein lett tenka seg andre reglar (for eksempel -ang på slutten av ord kan bli -ant, som i restaurant og departement). Eg reknar med både inngåande kjennskap til norsk som språk, samt ei korpus over vanlige skrivefeil (vil vera nyttig her. Spesielt eit korpus basert på elevtekstar hadde vore fint å hatt.
Oppdaga forresten at Nynorskordboka og Bokmålsordboka på nett har ei oversikt over dei mest søkte orda, med informasjon om kva ord som ikkje er med i ordbøkene. Iallfall desse bør rett forslaga komma opp på første plass for. Eksempel: desverre, narcissist, potensiale, nyskjerrig, blandt, ansinitet, hovedsaklig (denne visste ikkje eg var feil!), paralell, forøvrig, værre, kontigent, alikevel, interesant.
For nynorsk kan -het → -heit, -leik eller -skap gje gode forslag. Og -lge/- lga → -lgje/-lgja vil retta velge → veljge og følge → følgje, som er vanlige feilsøk i Nynorskordboka.
Det kan verka som forslagsmekanismen i hunspell er veldig meir avansert enn aspell, og då vil eg tru det er uheldig å bruka dei gamle affiksfilene.
Kort sagt, forslaga er brukargrensesnittet til stavekontrollen, og jo oftare brukaren opplever at stavekontrollen kjem med relevante/ korrekte forslag, jo meir positivt opplever brukaren stavekontrollen, og omvendt. Med mange irrelevante forslag vil den subjektive/opplevde kvaliteten til stavekontrollen typisk gå ned.
Det er klart. Eg hadde ikkje tenkt over dette før, men innser no at dette er ein veldig viktig del av ein god stavekontroll.
og hvis vi hadde en måte å kvantivisere opplevd kvalitet så hadde vi en målestokk som kunne brukes for å se om vi klarer å forbedre stavekontrollen eller ikke.
Ja, det hadde vore flott å få til.
- de samlar inn korpus for norsk (nb og nn), tekstane bør helst vera
public domain, og ikkje korrekturlesne tidlegare, heller ikkje med stavekontroll
Det hørest vanskelig ut, spesielt sidan teksten må vera elektronisk, og er han elektronisk, er han ofte sjekka med stavekontroll før. Unntak er kanskje e-postar, der det er mindre vanlig å bruka stavekontroll (eller lesa nøye gjennom før ein trykkjer «send»).
På lengre sikt arbeider eg i lag med Arbeidsgruppa for språkteknologi i Norden, ei arbeidsgruppe i Nordisk språkråd, med å få til meir systematiske og jamførande testar av ulike språkkontrollverkty, i fyrste omgang stavekontrollar, på tvers av språk, og for fleire parallelle verkty for kvart språk. Det er altså eit mål å få ein uavhengig og jamførande test av t.d. norske stavekontrollar: MS Word, Aspell, Hunspell, iSpell, m.fl. - alle som finst tilgjengelege.
Det hørest fantastisk ut å få til.
Den 6. feb. 2009 kl. 13.36 skrev Karl Ove Hufthammer:
Takk til her Moshagen for ein veldig interessant e-post. Her er nokre kommentar få kommentarar.
Her òg er det mogleg å rekna precision/recall. Grunninnsikten er at den aktuelle korrigeringa bør koma som fyrste forslag, eller nær toppen, og at irrelevante forslag er støy, og jo mindre støy, jo betre. Både Hunspell og Aspell er svært dårlege når det gjeld støynivået - eg får ofte lange lister med forslag, der dei fleste er irrelevante.
Kan dette ha noko å gjera med korleis ordlistene vert genererte, altso at dei ikkje er spesielt tilpassa norsk ordlaging? Eg har ikkje brukt hunspell eller aspell særlig med dei norske ordlistene før, men har brukt dei engelske ordlistene ein del, og har stikk motsett erfaring. Eg har vore imponert over kor gode forslaga ved skrivefeil har vore, veldig ofte med rett forslag på førsteplass, sjølv når feilstavinga er heller ekstrem (slik ho av og til vert viss eg skriv for fort).
Felles for dei fleste iSpell-baserte stavekontrollar (Aspell, Myspell m.fl. er alle derivat av iSpell i ulike versjonar og generasjonar) er at dei i utgangspunktet er bygd for engelsk. Dette har vore svært uheldig fordi engelsk ikkje har bøying å snakka om, ikkje har fri samansetjing, og har ein relativt idiosyncratic
Hunspell står på Wikipedia omtalt som «a spell checker and morphological analyzer designed for languages with rich morphology and complex word compounding or character encoding», noko som kan indikera at hunspell kan spesialtilpassast til norsk mykje betre enn er gjort til no.
Eg ser for eksempel at den engelske affiks-fila inneheld ein regel som seier at stavekontrollen skal prøva «f» viss eit ord inneheld «ph» (og vise versa). For norsk kan ein lett tenka seg andre reglar (for eksempel -ang på slutten av ord kan bli -ant, som i restaurant og departement). Eg reknar med både inngåande kjennskap til norsk som språk, samt ei korpus over vanlige skrivefeil (vil vera nyttig her. Spesielt eit korpus basert på elevtekstar hadde vore fint å hatt.
Oppdaga forresten at Nynorskordboka og Bokmålsordboka på nett har ei oversikt over dei mest søkte orda, med informasjon om kva ord som ikkje er med i ordbøkene. Iallfall desse bør rett forslaga komma opp på første plass for. Eksempel: desverre, narcissist, potensiale, nyskjerrig, blandt, ansinitet, hovedsaklig (denne visste ikkje eg var feil!), paralell, forøvrig, værre, kontigent, alikevel, interesant.
For nynorsk kan -het → -heit, -leik eller -skap gje gode forslag. Og -lge/- lga → -lgje/-lgja vil retta velge → veljge og følge → følgje, som er vanlige feilsøk i Nynorskordboka.
Det kan verka som forslagsmekanismen i hunspell er veldig meir avansert enn aspell, og då vil eg tru det er uheldig å bruka dei gamle affiksfilene.
Kort sagt, forslaga er brukargrensesnittet til stavekontrollen, og jo oftare brukaren opplever at stavekontrollen kjem med relevante/ korrekte forslag, jo meir positivt opplever brukaren stavekontrollen, og omvendt. Med mange irrelevante forslag vil den subjektive/opplevde kvaliteten til stavekontrollen typisk gå ned.
Det er klart. Eg hadde ikkje tenkt over dette før, men innser no at dette er ein veldig viktig del av ein god stavekontroll.
og hvis vi hadde en måte å kvantivisere opplevd kvalitet så hadde vi en målestokk som kunne brukes for å se om vi klarer å forbedre stavekontrollen eller ikke.
Ja, det hadde vore flott å få til.
- de samlar inn korpus for norsk (nb og nn), tekstane bør helst vera
public domain, og ikkje korrekturlesne tidlegare, heller ikkje med stavekontroll
Det hørest vanskelig ut, spesielt sidan teksten må vera elektronisk, og er han elektronisk, er han ofte sjekka med stavekontroll før. Unntak er kanskje e-postar, der det er mindre vanlig å bruka stavekontroll (eller lesa nøye gjennom før ein trykkjer «send»).
På lengre sikt arbeider eg i lag med Arbeidsgruppa for språkteknologi i Norden, ei arbeidsgruppe i Nordisk språkråd, med å få til meir systematiske og jamførande testar av ulike språkkontrollverkty, i fyrste omgang stavekontrollar, på tvers av språk, og for fleire parallelle verkty for kvart språk. Det er altså eit mål å få ein uavhengig og jamførande test av t.d. norske stavekontrollar: MS Word, Aspell, Hunspell, iSpell, m.fl. - alle som finst tilgjengelege.
Det hørest fantastisk ut å få til.
-- Karl Ove Hufthammer
i18n-no mailing list i18n-no@lister.ping.uio.no https://lister.ping.uio.no/mailman/lister.ping.uio.no/listinfo/i18n-no
Den 6. feb. 2009 kl. 15.49 skrev Sjur Nørstebø Moshagen:
Felles for dei fleste iSpell-baserte stavekontrollar (Aspell, Myspell m.fl. er alle derivat av iSpell i ulike versjonar og generasjonar) er at dei i utgangspunktet er bygd for engelsk. Dette har vore svært uheldig fordi engelsk ikkje har bøying å snakka om, ikkje har fri samansetjing, og har ein relativt idiosyncratic
Oversjå denne meldinga - ho vart sendt ved ein miss lenge før ho var ferdig :(
Sjur
Apropos feilliste, så kan det være nyttig å se på denne: http://www.korrekturavdelingen.no/K4VanligeSkrivefeil.htm (Jeg har lagt disse inn i autorettelista til MagicPO).
De kan være et godt utgangspunkt for å sjekke hvor god en stavekontroll er til å finne feil, om alle disse lagres i et dokument (det burde ikke være altfor vanskelig), så har vi en veldig enkelt test som iallfall sier noe om hvor god den er til å rette nettopp de vanligste feilene.
-Axel
[Axel Bojer]
De kan være et godt utgangspunkt for å sjekke hvor god en stavekontroll er til å finne feil, om alle disse lagres i et dokument (det burde ikke være altfor vanskelig), så har vi en veldig enkelt test som iallfall sier noe om hvor god den er til å rette nettopp de vanligste feilene.
Vi opprettet URL:http://wiki.debian.org/SpellNorwegian/TestsFailing og URL:http://wiki.debian.org/SpellNorwegian/TestsSucceed for å samle slike ord. Fyller du inn dine eksempler?
Vennlig hilsen,
Petter Reinholdtsen skrev:
[Axel Bojer]
De kan være et godt utgangspunkt for å sjekke hvor god en stavekontroll er til å finne feil, om alle disse lagres i et dokument (det burde ikke være altfor vanskelig), så har vi en veldig enkelt test som iallfall sier noe om hvor god den er til å rette nettopp de vanligste feilene.
Vi opprettet URL:http://wiki.debian.org/SpellNorwegian/TestsFailing og URL:http://wiki.debian.org/SpellNorwegian/TestsSucceed for å samle slike ord. Fyller du inn dine eksempler?
Har fylt inn de feilstavede. Fint om noen ser over :-)
-Axel
Petter Reinholdtsen skrev:
[Axel Bojer]
De kan være et godt utgangspunkt for å sjekke hvor god en stavekontroll er til å finne feil, om alle disse lagres i et dokument (det burde ikke være altfor vanskelig), så har vi en veldig enkelt test som iallfall sier noe om hvor god den er til å rette nettopp de vanligste feilene.
Vi opprettet URL:http://wiki.debian.org/SpellNorwegian/TestsFailing og URL:http://wiki.debian.org/SpellNorwegian/TestsSucceed for å samle slike ord. Fyller du inn dine eksempler?
La inn de rette versjonene (for enkeltordene) pluss noen til i TestsSucceed, som du angir ovenfor. Litt mindre sikker på nytten av denne. Den bør vel strengt tatt ikke inneholde rettstavede ord som oppdages som slike, men kanskje tvert imot rettstavede ord som blir markerte som feil, eller?
Lista over feil kan lett utvides. Jeg la inn setninger også, men mulig det ikke er hensiktsmessig (med mindre vi ønsker en mer avansert stavekontroll) ...
-Axel
Den 6. feb. 2009 kl. 13.36 skrev Karl Ove Hufthammer:
Takk til her Moshagen for ein veldig interessant e-post. Her er nokre kommentar få kommentarar.
Her òg er det mogleg å rekna precision/recall. Grunninnsikten er at den aktuelle korrigeringa bør koma som fyrste forslag, eller nær toppen, og at irrelevante forslag er støy, og jo mindre støy, jo betre. Både Hunspell og Aspell er svært dårlege når det gjeld støynivået - eg får ofte lange lister med forslag, der dei fleste er irrelevante.
Kan dette ha noko å gjera med korleis ordlistene vert genererte, altso at dei ikkje er spesielt tilpassa norsk ordlaging? Eg har ikkje brukt hunspell eller aspell særlig med dei norske ordlistene før, men har brukt dei engelske ordlistene ein del, og har stikk motsett erfaring. Eg har vore imponert over kor gode forslaga ved skrivefeil har vore, veldig ofte med rett forslag på førsteplass, sjølv når feilstavinga er heller ekstrem (slik ho av og til vert viss eg skriv for fort).
Felles for dei fleste iSpell-baserte stavekontrollar (Aspell, Myspell m.fl. er alle derivat av iSpell i ulike versjonar og generasjonar) er at dei i utgangspunktet er bygd for engelsk. Dette har vore svært uheldig fordi engelsk ikkje har bøying å snakka om, ikkje har fri samansetjing, og har ein relativt idiosynkratisk ortografi. Stavekontrollformalismane og -teknologien i Xspell-verktya har vorte forma etter engelsk, og resultatet er jamnt over ikkje tilfredsstillande for andre språk.
Hunspell står på Wikipedia omtalt som «a spell checker and morphological analyzer designed for languages with rich morphology and complex word compounding or character encoding», noko som kan indikera at hunspell kan spesialtilpassast til norsk mykje betre enn er gjort til no.
Det stemmer. Hunspell er mykje betre enn dei andre i Xspell-familien, nettopp fordi det er gjort eit alvorleg forsøk på å tilpassa både formalisme og motor til eit språk med rik morfologi og fri samansetjing, nemleg ungarsk.
Men Hunspell er framleis prega av arven etter Xspell - m.a. er formalismen direkte henta frå Myspell, med nokre få tillegg for å takla samansette ord og ein rikare morfologi. I tillegg insisterer Hunspell på å koma med forslag, sjølv om ingen av dei er relevante. Det lagar mykje støy.
Hunspell-formalismen er ikkje ein god formalisme for å halda ved like og byggja ut eit stort leksikon ("ordliste") for avansert korrektursjekking. Og Hunspell er *ikkje* laga for språk med enno rikare morfologi enn ungarsk, og slett ikkje for språk med kompleks morfofonologi. T.d. gav ei finsk gruppe som arbeider med open kjeldekode opp å bruka Hunspell, fordi det vart meiningslaust å formulera finsk grammatikk i Hunspell-formalismen.
Vi i Divvun-prosjektet har generert stavekontrollordlister for Hunspell for nord- og lulesamisk, men resultatet er ikkje bra nok, og det er store problem med å få samansette ord til å fungera som dei skal.
Eg ser for eksempel at den engelske affiks-fila inneheld ein regel som seier at stavekontrollen skal prøva «f» viss eit ord inneheld «ph» (og vise versa). For norsk kan ein lett tenka seg andre reglar (for eksempel -ang på slutten av ord kan bli -ant, som i restaurant og departement).
Slike reglar er det lett å formulera i dei fleste formalismane, men det som ikkje alltid er like klårt er korleis slike reglar samverkar med standardreglane, dvs korleis ein sik regel påverkar heile forslagsmekanismen totalt sett. Og utan ein skikkeleg testbenk er ein heller ikkje i stand til å måla endringane.
Eg reknar med både inngåande kjennskap til norsk som språk, samt ei korpus over vanlige skrivefeil (vil vera nyttig her.
Det er uråd å laga ein god stavekontroll utan å kjenna målspråket godt:), og eit korpus over skrivefeil er svært nyttig. I Divvun- prosjektet har vi pr i dag samla inn 7672 skrivefeil for nordsamisk, og 1287 for lulesamisk. Kor vanlege desse skrivefeila er, er det vanskeleg å seia, men det er grovt sett alle skrivefeil vi har funne i korpuset vårt. Samlinga med skrivefeil er *svært* nyttig, m.a. er det enkelt å sjekka om det finst skrivefeil som blir aksepterte av stavekontrollen (svaret er ja, det er uråd å byggja ein stavekontroll som oppdagar 100% av alle skrivefeil), og kor stor del av alle skrivefeil det gjeld.
Spesielt eit korpus basert på elevtekstar hadde vore fint å hatt.
Ja, elevtekstar er av dei vi har tenkt på i den nordiske stavekontrolltesten eg nemner på slutten.
Oppdaga forresten at Nynorskordboka og Bokmålsordboka på nett har ei oversikt over dei mest søkte orda, med informasjon om kva ord som ikkje er med i ordbøkene. Iallfall desse bør rett forslaga komma opp på første plass for. Eksempel: desverre, narcissist, potensiale, nyskjerrig, blandt, ansinitet, hovedsaklig (denne visste ikkje eg var feil!), paralell, forøvrig, værre, kontigent, alikevel, interesant.
Dette er det enkelt å få til.
For nynorsk kan -het → -heit, -leik eller -skap gje gode forslag.
Med tyngde på *kan*. Eg har ein gong prøvd det same (berre sjekk med eit -het-ord i den nynorske stavekontrollen i MS Word) - i dag er eg ikkje stolt over resultatet. Med ei konservativ (i teknisk meining, ikkje språkpolitisk) tilnærming kan det fungera.
Og -lge/- lga → -lgje/-lgja vil retta velge → veljge og følge → følgje, som er vanlige feilsøk i Nynorskordboka.
Ok
Det kan verka som forslagsmekanismen i hunspell er veldig meir avansert enn aspell, og då vil eg tru det er uheldig å bruka dei gamle affiksfilene.
Det er ingen direkte samanheng mellom forslagsmekanismen, og affiksfilene (bortsett frå at "lokale", dvs språkspesifikke tilpassingar til forslagsmekanismen som oftast står i starten av affiksfila, sjølv om dei ikkje har noko med affiksa å gjera). Eg er heller ikkje spesielt imponert over forslagsmekanismen til Hunspell - han er heilt ok, men heller ikkje meir. Derimot vart vi svært imponerte over forslagsmekanismen til underleverandøren vår for MS Office-versjonen, Polderland. *Utan* tilpassingar til samisk gav han eit langt over forventa resultat.
og hvis vi hadde en måte å kvantivisere opplevd kvalitet så hadde vi en målestokk som kunne brukes for å se om vi klarer å forbedre stavekontrollen eller ikke.
Ja, det hadde vore flott å få til.
Jf forslaget om å bruka testbenken vår. Han er framleis under utvikling, men er meir enn bra nok no til å gjennomføra slike testar.
- de samlar inn korpus for norsk (nb og nn), tekstane bør helst vera
public domain, og ikkje korrekturlesne tidlegare, heller ikkje med stavekontroll
Det hørest vanskelig ut, spesielt sidan teksten må vera elektronisk, og er han elektronisk, er han ofte sjekka med stavekontroll før. Unntak er kanskje e-postar, der det er mindre vanlig å bruka stavekontroll (eller lesa nøye gjennom før ein trykkjer «send»).
Forslaget om e-post var bra, det hadde eg ikkje tenkt på sjølv. Dei er offentlege, dei er ofte ikkje korrekturlesne som du nemner, og finst ferdige i elektronisk form. Men eit e-postkorpus vil ha ei slagside mot korte ord, slik at ein i mindre grad utfordrar evna til å handtera samansette ord. Det er likevel *mykje* betre enn ingenting.
I tillegg burde det vera mogleg å få til eit samarbeid med språkrådet, dei har ei interesse i at kvaliteten på tilgjengelege korrekturprogram blir tilstrekkeleg bra. Det er mogleg at den planlagde Norsk språkbank inneheld slik korrekt-merka data, men eg trur ikkje det er mykje, med tanke på kor materialet i hovudsak kjem i frå, og kva det tidlegare har vore brukt til.
Uansett vil eit e-postkorpus vera ein bra start. Finst det personar på denne lista som kunne tenkja seg å samla inn ei rimeleg mengde e-post på bokmål og nynorsk? Vi kan som sagt stilla infrastruktur og verkty til rådvelde. Ei rimeleg mengde = ca 5-10 000 ord.
På lengre sikt arbeider eg i lag med Arbeidsgruppa for språkteknologi i Norden, ei arbeidsgruppe i Nordisk språkråd, med å få til meir systematiske og jamførande testar av ulike språkkontrollverkty, i fyrste omgang stavekontrollar, på tvers av språk, og for fleire parallelle verkty for kvart språk. Det er altså eit mål å få ein uavhengig og jamførande test av t.d. norske stavekontrollar: MS Word, Aspell, Hunspell, iSpell, m.fl. - alle som finst tilgjengelege.
Det hørest fantastisk ut å få til.
:)
Vi får sjå kva som er mogleg, det største arbeidet blir å samla inn og merka opp tekstane for feil+korrigering.
Sjur
(...) Sjur skrev:
Uansett vil eit e-postkorpus vera ein bra start. Finst det personar på denne lista som kunne tenkja seg å samla inn ei rimeleg mengde e-post på bokmål og nynorsk? Vi kan som sagt stilla infrastruktur og verkty til rådvelde. Ei rimeleg mengde = ca 5-10 000 ord.
Se nedenfor: /lister.ping.uio.no/mailman/lister.ping.uio.no/listinfo/i18n-no den, og lignende offisielle listearkiver bør vel kunne brukes?
-Axel
Sjur Nørstebø Moshagen:
Hunspell-formalismen er ikkje ein god formalisme for å halda ved like og byggja ut eit stort leksikon ("ordliste") for avansert korrektursjekking.
Har du synspunkt på kva ein god formalisme for å laga eit slik leksikon for norsk (nynorsk og bokmål) vil vera, og korleis datagrunnlaget til Ordbanken kan inngå? Eg tenkjer i første omgang på hunspell-ordlister som sluttproduktet.
Vi i Divvun-prosjektet har generert stavekontrollordlister for Hunspell for nord- og lulesamisk, men resultatet er ikkje bra nok, og det er store problem med å få samansette ord til å fungera som dei skal.
Er hovudproblemet overgenerering av samansette ord, eller det motsette? Eller noko anna?
med i ordbøkene. Iallfall desse bør rett forslaga komma opp på første plass for. Eksempel: desverre, narcissist, potensiale, nyskjerrig, blandt, ansinitet, hovedsaklig (denne visste ikkje eg var feil!), paralell, forøvrig, værre, kontigent, alikevel, interesant.
Dette er det enkelt å få til.
Du tenker no på eigne reglar for akkurat desse orda, eller på utvikling av generelle reglar som òg handterer desse?
For nynorsk kan -het → -heit, -leik eller -skap gje gode forslag.
Med tyngde på *kan*. Eg har ein gong prøvd det same (berre sjekk med eit -het-ord i den nynorske stavekontrollen i MS Word) - i dag er eg ikkje stolt over resultatet. Med ei konservativ (i teknisk meining, ikkje språkpolitisk) tilnærming kan det fungera.
Eg har ikkje MS Word, so eg kan ikkje sjekka dette. Kva var problemet? Og kva er den konservative tilnærminga du tenker på?
Det kan verka som forslagsmekanismen i hunspell er veldig meir avansert enn aspell, og då vil eg tru det er uheldig å bruka dei gamle affiksfilene.
Det er ingen direkte samanheng mellom forslagsmekanismen, og affiksfilene (bortsett frå at "lokale", dvs språkspesifikke tilpassingar til forslagsmekanismen som oftast står i starten av affiksfila, sjølv om dei ikkje har noko med affiksa å gjera).
Eg har no sett litt hunspell, og innsett dette (sjølv om eg ikkje var heilt sikker før eg las det du skreiv). Men er ikkje dei lokale tilpassingane for forslagsmekanismen ganske omfattande, då? Det ser iallfall slik ut ut frå manualsida. I tillegg er det mulig å legga inn informasjon om grunnordet, som i:
feet st:foot is:plural mice st:mouse is:plural teeth st:tooth is:plural
Men det er ikkje heilt klart (for meg) korleis slik informasjon vert brukt.
Eg er heller ikkje spesielt imponert over forslagsmekanismen til Hunspell
- han er heilt ok, men heller ikkje meir. Derimot vart vi svært
imponerte over forslagsmekanismen til underleverandøren vår for MS Office-versjonen, Polderland. *Utan* tilpassingar til samisk gav han eit langt over forventa resultat.
Hm. Synd forslaga til hunspell som standard ikkje er gode nok. Men det er so vidt eg veit det einaste aktuelle frie rammeverket for stavekontroll. Og med tilpassingar bør me forhåpentligvis kunna gjera forbetringar.
Ja, det hadde vore flott å få til.
Jf forslaget om å bruka testbenken vår. Han er framleis under utvikling, men er meir enn bra nok no til å gjennomføra slike testar.
Eg er absolutt interessert i å bruka testbenken til stavekontrollen eg ønskjer å utvikla.
Det hørest vanskelig ut, spesielt sidan teksten må vera elektronisk, og er han elektronisk, er han ofte sjekka med stavekontroll før. Unntak er kanskje e-postar, der det er mindre vanlig å bruka stavekontroll (eller lesa nøye gjennom før ein trykkjer «send»).
Forslaget om e-post var bra, det hadde eg ikkje tenkt på sjølv. Dei er offentlege, dei er ofte ikkje korrekturlesne som du nemner, og finst ferdige i elektronisk form. Men eit e-postkorpus vil ha ei slagside mot korte ord, slik at ein i mindre grad utfordrar evna til å handtera samansette ord. Det er likevel *mykje* betre enn ingenting.
Ei anna kjelde kan vera omsettingsfilene våre til KDE på bokmål og nynorsk. Det negative her kan vera overvekt av tekniske omgrep, og til dels «ikkje- norske» ord (namn på teknologiar, programnamn på engelsk, osv.). Men det vil absolutt vera mange nysamansette ord (som ikkje finst i Ordbanken), som vil vera ei god utfordring for stavekontrollen.
Fredag 6. februar 2009 skreiv Karl Ove Hufthammer:
Ei anna kjelde kan vera omsettingsfilene våre til KDE på bokmål og nynorsk.
Eg har no laga eit enkelt nynorskkorpus av desse, basert på «setningsliknande» tekstar, dvs. tekstar med «. » og utan «&». Det er på 90 000 ord. Ein kan lett henta ut ei delmengd av desse. Her er 5 tilfeldige eksempel (med iallfall to stavefeil!):
Du fuska, så det gjeld ikkje som ein rekord. ;)
Kodaren vart avslutta med ein feil. Kontroller at fila vart oppretta.
Her kan du oppgje kor lenge hendingar skal vara som standard. Dette vert brukt når du ikkje oppgjev noko sluttid.
Her kan du velja på kva dato kalenderen skal starta. Den valde datoen vert den første datoen i kalenderen som vert sett inn. Du kan òg velja ein dato frå eit dialogvindauge ved å trykkja «Vel dato».
Spesielt flagg. Den nøyaktige tydninga av flagget ser du i kolonna til høgre.
Fredag 6. februar 2009 skreiv Sjur Nørstebø Moshagen:
- stavekontrollen kjem med store mengder irrelevante forslag (ja, eg
veit dette er subjektivt, men eg kjem attende til ein måte å måla dette på)
Eg har no sett litt på (den nynorske) stavekontrollen som stavekontroll- prosjektet har laga, og ser at dette ikkje er spesielt rart. Utanom (kanskje litt tvilsam) bokstavfrekvensinformasjon, inneheld nemlig stavekontrollen *ingen* reglar for korleis forslaga skal lagast.
[Karl Ove Hufthammer]
Eg har no sett litt på (den nynorske) stavekontrollen som stavekontroll- prosjektet har laga, og ser at dette ikkje er spesielt rart. Utanom (kanskje litt tvilsam) bokstavfrekvensinformasjon, inneheld nemlig stavekontrollen *ingen* reglar for korleis forslaga skal lagast.
Myspell-pakken har litt info i filene n*_NO.myheader, så vidt jeg har forstått. Frekvensen for ulike bokstaver brukes i ord brukes for å foreslå alternativer, tror jeg. De andre mangler slikt, så vidt jeg vet.
Vennlig hilsen,
Sundag 8. februar 2009 skreiv Petter Reinholdtsen:
Myspell-pakken har litt info i filene n*_NO.myheader, så vidt jeg har forstått.
Hm. Kor finn eg denne? Eg lasta ned ei fil som heitte no_NO-pack2-2.0.10.zip og fann ikkje ei slik fil i denne. Er det feil fil eg lasta ned. Nedlastingssida på no.speling ord var ikkje so lett å forstå.
Frekvensen for ulike bokstaver brukes i ord brukes for å foreslå alternativer, tror jeg.
Ja, det stemmer. Det eg reagerte på, var at ho inneheldt «bokstaven» þ, som me vel ikkje brukar på norsk, samt at store og små bokstavar sto hulter til bulter.
[Karl Ove Hufthammer]
Myspell-pakken har litt info i filene n*_NO.myheader, så vidt jeg har forstått.
Hm. Kor finn eg denne? Eg lasta ned ei fil som heitte no_NO-pack2-2.0.10.zip og fann ikkje ei slik fil i denne. Er det feil fil eg lasta ned.
Ja, det er feil fil, det er en som er generert ut fra kildekoden, ikke selve kildekoden. Du ønsker nok CVS-koden eller spell-norwegian-2.0.10.tar.gz fra URL:http://alioth.debian.org/frs/?group_id=30577.
Nedlastingssida på no.speling ord var ikkje so lett å forstå.
Hva gjorde det vanskelig? Forslag til forbedringer?
Ja, det stemmer. Det eg reagerte på, var at ho inneheldt «bokstaven» þ, som me vel ikkje brukar på norsk, samt at store og små bokstavar sto hulter til bulter.
Må innrømme at jeg ikke vet hvordan bokstavlisten er satt sammen. Tror den ble kopiert fra en pakke andre har laget.
Vennlig hilsen,
Petter Reinholdtsen:
Hm. Kor finn eg denne? Eg lasta ned ei fil som heitte no_NO-pack2-2.0.10.zip og fann ikkje ei slik fil i denne. Er det feil fil eg lasta ned.
Ja, det er feil fil, det er en som er generert ut fra kildekoden, ikke selve kildekoden. Du ønsker nok CVS-koden eller spell-norwegian-2.0.10.tar.gz fra URL:http://alioth.debian.org/frs/?group_id=30577.
OK. Eg har no sett på .myheader-fila, og denne inneheld heller ikkje nokon slik informasjon.
Nedlastingssida på no.speling ord var ikkje so lett å forstå.
Hva gjorde det vanskelig? Forslag til forbedringer?
Det var for eksempel to pakkar (no_NO-pack1-2.0.10.zip) og no_NO- pack2-2.0.10.zip) utan nokon informasjon om kva forskjellen var, eller kven av dei eg skulle velja.
Ja, det stemmer. Det eg reagerte på, var at ho inneheldt «bokstaven» þ, som me vel ikkje brukar på norsk, samt at store og små bokstavar sto hulter til bulter.
Må innrømme at jeg ikke vet hvordan bokstavlisten er satt sammen. Tror den ble kopiert fra en pakke andre har laget.
Det står nemnt i kommentaren over lista korleis ho er laga. Datagrunnlaget inneheld tydeligvis eit ord med ein þ, av éin eller annan grunn.
Kan for øvrig melda at arbeidet med nynorskstavekontrollen min går godt. Eg arbeida litt på han i helga, og har no ein stavekontroll som kjenner att alle orda i Ordbanken, og som ser ut til å gje veldig gode forslag på feilstavingar. For eksempel er rette skrivemåtar av orda i feilstavingslista (som er på bokmål!) for det meste forslag 1, og nesten alltid blant dei 5 øvste.
No gjenstår det hovudsaklig attkjenning av samansette ord, samt mykje testing. Dette krev ein del manuelt arbeid, for å unngå overgenerering, men eg er forsiktig optimistisk på at eg skal få i stand ein ganske brukbar stavekontroll.
Den 9. feb. 2009 kl. 17.43 skrev Karl Ove Hufthammer:
Petter Reinholdtsen:
Nedlastingssida på no.speling ord var ikkje so lett å forstå.
Hva gjorde det vanskelig? Forslag til forbedringer?
Det var for eksempel to pakkar (no_NO-pack1-2.0.10.zip) og no_NO- pack2-2.0.10.zip) utan nokon informasjon om kva forskjellen var, eller kven av dei eg skulle velja.
Eg hadde same problemet.
Eg prøvde å finna ferdigpakka versjonar av ordlista som fungerer for Aspell eller Hunspell, ev standard ispell, men fann ikkje noko som klart og eintydig identifiserte seg som det (men det er godt mogleg at eg ikkje sjekka godt nok). Kjeldekodepakka inneheldt ei lang rekke modifikasjonar og lappverk som eg sjølv skulle byggja, og som kravde program som ikkje er standard på Unix-maskina mi (MacOS 10.5). Det er nokre dagar sidan eg såg på det, så eg hugsar ikkje lenger nøyaktig kva som ikkje fanst, men hovudinntrykket var at det vart alt for komplisert å byggja noko sjølv.
Lappverket var fyrst og fremst modifikasjonar av iSpell for å få han til å fungera betre med norsk, og demonstrerer svært tydeleg eit grunnleggjande problem med både iSpell og dei andre arvtakarane etter han, slik eg nemnde i ein tidlegare e-post.
Ja, det stemmer. Det eg reagerte på, var at ho inneheldt «bokstaven» þ, som me vel ikkje brukar på norsk, samt at store og små bokstavar sto hulter til bulter.
Må innrømme at jeg ikke vet hvordan bokstavlisten er satt sammen. Tror den ble kopiert fra en pakke andre har laget.
Det står nemnt i kommentaren over lista korleis ho er laga. Datagrunnlaget inneheld tydeligvis eit ord med ein þ, av éin eller annan grunn.
Truleg islandske (stad)namn, dei bør skrivast slik islendingane skriv dei, òg på norsk.
Kan for øvrig melda at arbeidet med nynorskstavekontrollen min går godt. Eg arbeida litt på han i helga, og har no ein stavekontroll som kjenner att alle orda i Ordbanken, og som ser ut til å gje veldig gode forslag på feilstavingar. For eksempel er rette skrivemåtar av orda i feilstavingslista (som er på bokmål!) for det meste forslag 1, og nesten alltid blant dei 5 øvste.
Bra:)
Om eg forstod deg rett, bruker du Hunspell. Sidan vi har ferdig støtte for hunspell i testbenken vår, skulle det vore artig å testa stavekontrollen din der. Har du høve til å gjera han tilgjengeleg slik han er no, dvs utan samansetjingar, og berre med ordbanksorda inne? Det kan bli ein god referanse for kor dekkjande ordbanken er i høve til "vanleg tekst". Det krev sjølvsagt at eg finn ein tekst som på rimeleg vis kan kallast "vanleg" - det skulle kunna vera t.d. e- postmeldingar eller bloggar.
Når eg tenkjer på det, kunne det vera bra å gjera den same teksten for fleire ulike tekstsjangrar: - e-post - blogg - offentleg utgreiing - nyhendetekst
Dei to fyrste vil truleg ikkje vera korrekturlesne, i alle fall ikkje så nøye, og dei to siste vil vera det, i ulik grad.
Dersom nokon kan visa meg til ei ferdig pakke av ordlistene for anten Hunspell eller Aspell, basert på siste versjon av ordlistene, vil eg svært gjerne køyra den same testen for den versjonen òg. Då får vi ein god peikepinn på i kor stor grad dei to variantane skiljer seg frå kvarandre.
No gjenstår det hovudsaklig attkjenning av samansette ord, samt mykje testing. Dette krev ein del manuelt arbeid, for å unngå overgenerering, men eg er forsiktig optimistisk på at eg skal få i stand ein ganske brukbar stavekontroll.
Eg trur det er no du vil møta bøygen, dvs dei samansette orda. Det er fleire problem, og nokre av dei uløyselege innanfor Hunspell- formalismen. Her er ei kort liste over nokre av utfordringane:
- samansetjingsinformasjon er leksikalsk, dvs spesifikt for kvart enkelt ord, sjølv om det finst klasser med ord som oppfører seg likt (substantiv på -ing, avleidde frå verb, skal alltid ha -s- på grensa til neste ord, -ing frå adjektiv skal ikkje ha det)
- samansetjingsfugen (dvs -s-, -e- eller null) kan variera etter posisjon i samansetjinga. Dette kjem mest tydeleg fram ved tre- eller fleirledda samansetjingar. Paradeeksemplet mitt er 'by+trikk+tur', der 'trikk' får ulik samansetjingsending avhengig av om det er ein 'tur med bytrikken' (=bytrikktur) eller ein 'trikketur i byen' (=bytrikketur) som er meint. Eksemplet er sjølvsagt konstruert, men illustrerer poenget: datamaskina (stavekontrollen) kan ikkje vita intensjonen til forfattaren, og må tillata begge delar, og vil dermed overgenerera, som i sin tur vil føra til at mange skrivefeil ikkje blir oppdaga. I akkurat dette eksemplet er det nærmast uråd å laga eit korrekturprogram som kan avsløra ein ev skrivefeil, i andre tilfelle er det fullt mogleg, men krev ein grammatisk analyse som går langt ut over det som Hunspell (eller andre stavekontrollar for den del) kan klara. Som ein kompliserande faktor til kan eg berre nemna at desse bindeendingane varierer noko med dialekt, og at norske språkforskarar har vore lite interesserte i emnet, slik at vi i dag (enno) veit alt for lite om samansetjing.
- i norsk ortografi har vi ein regel som seier at der to like sluttkonsonantar møter ein lik fyrstekonsonant i neste ord i ei samansetjing, så skal ein av dei tre like konsonantane ein då får strykast, eller ordgrensa skal gjerast synleg med ein bindestrek. Døme: buss+stasjon = busstasjon eller buss-stasjon, *ikkje* bussstasjon. Ein enkel og likefram regel for eit menneske, men heilt uråd for Hunspell - i det minste har ikkje ein svært dyktig datalingvist eg kjenner ikkje klart å få det til (men eg veit ikkje kor mykje han prøvde). Bindestrek(s?)varianten er sjølvsagt enkel, den andre derimot alt anna enn triviell i ein formalisme som Hunspell. Om eg hugsar rett frå Hunspell-dokumentasjonen så skal det vera mogleg å uttrykkja slike endringar, men det er som nemnt vanskeleg å få det til å fungera. Innanfor ein tonivåformalisme er dette problemet heilt trivielt - der kan ein kopla i hop dei to "synlege" variantane (overflateformene) med éin underliggjande representasjon, og skriva ein kort regel som bind dei to i hop.
- norsk (og svensk og dansk) har mange korte substantiv, som har ein tendens til å laga store problem for samansetjingar. Fordi dei er korte, har dei lett for å maskera reelle skrivefeil som ei samansetjing av fleire korte ord. Det finst fleire måtar å møta dette problemet på, men ingen av dei er heilt optimale. Den norske stavekontrollen i Word er laga etter ein brukbar strategi, men lir stygt av at det ikkje var tid til å arbeida skikkeleg med eit tilstrekkeleg stort korpus for at resultatet skulle bli bra. Her er dei strategiane eg har støtt på i karriera mi:
- ikkje opna for samansetjingar i det heile, berre leggja dei inn som heile ord etter kvart som ein finn dei (dette prinsippet blir brukt av norske aviser, dvs at korrektursystemet Tansa, med litt intelligens på toppen for å analysera ukjende ord som potensielle samansetjingar; dette er i praksis det som òg gjeld ordlista som ligg til grunn for den norske stavekontrollen bygd på open kjeldekode, truleg mest av tradisjon og nedarva tekniske hindringar i iSpell m.fl.) - opna for samansetjingar med ***maksimalt 2 ledd***, dvs "dodør", men ikkje "dodørhandtak" (med mindre både "dodør" og "handtak" er lagt inn som enkeltord kvar for seg) - slik var stavekontrollen i MS Word fram til Word 97 - opna for fri samansetjing, men med ei grense for kor korte ord som blir akseptert i samansetjinga, rekna ut etter ein formel som tek omsyn til lengda på heile ordet, slik at korte ord kan laga samansetjingar i ord som i seg sjølv ikkje er spesielt lange eller har mange ledd, men blir avviste i lengre ord - dette er oppførselen i den svenske stavekontrollen for MS Word, og speglar ein reell tendens til at lange ord vanlegvis ikkje inneheld svært korte ord som ein del av samansetjinga - opna for fri samansetjing, men med ei grense for kor korte orda kan vera for å få lov til å vera del av ei samansetjing, typisk går grensa mellom 3 og 4 bokstavar, slik at ord på 3 bokstavar eller mindre ikkje blir aksepterte i samansetjingar, medan lengre ord blir aksepterte. Eit slikt system blir litt i stivaste laget, og må komplementerast med delvis å leggja inn vanlege samansetjingar av korte ord, og delvis opna for at spesifikke korte ord kan laga samansetjingar. - Dette er slik dei norske stavekontrollane i Word fungerer, men der fungerer det som sagt ikkje bra nok, fordi korte ord som er vanlege i samansetjingar ikkje vart godkjende, t.d. 'båt' ('ubåt' er derimot på 4 bokstavar, slik at eit ord som 'fiskebåt' ikkje blir akseptert, og får som forslag 'fiskeubåt' :/ ).
Den *beste* strategien etter mitt syn, er å byggja vidare på det siste alternativet over, men komplettert med 2 ting: 1) grundige korpusstudiar, slik at ein får eit tydeleg bilete av kva for korte ord som er vanlege i samansetjingar; og 2) posisjonsbestemt samansetjing (korte ord er vanlege fyrst og sist i samansetjingar, midt inne i ei samansetjing er dei mindre sannsynlege, og er meir sannsynleg ein skrivefeil), slik at eit ord som 'båt' berre kan laga samansetjingar som 'fiskebåt' ('båt' står sist) eller 'båttur' ('båt' står fyrst). Etter ein slik strategi vil eit ord som 'fiskebåtflåte' *ikkje* bli godkjent, fordi 'båt' her står i midten (dersom ein legg inn 'fiskebåt' er det sjølvsagt ingen problem).
Med ein slik strategi trur eg at ein får det beste kompromisset mellom ein tilstrekkeleg dynamisk samamsetjingsmekanisme, utan at ein får alt for mykje (problematisk) overgenerering.
Hunspell har verkty for å handtera i det minste delar av ein slik strategi, men eg er usikker på om det går å implementera alt. Hunspell har derimot ikkje dei verktya vi treng for å handtera samansetjing i samisk, der det finst enno meir kompliserte mønster (t.d. at det fyrste ordet vanlegvis lagar samansetjing i nominativ, dvs vanleg grunnform, men det etterfylgjande ordet krev at det føregåande ordet står i genitiv eintal eller fleirtal - det er i praksis uråd for oss å formulera dette programmatisk i Hunspell). Vi kjem derfor truleg til å gje opp Hunspell, og satsa på ein ny stavekontroll vi sjølve kjem til å vera med på å utvikla (open kjeldekode, sjølvsagt).
Det prosjektet er enno litt laust definert, så eg vel å koma attende til det litt seinare. Men konklusjonen vår er altså at Hunspell ikkje er ein farande veg, sjølv om det er ein mykje betre veg enn resten av Xspell-klanen:)
Beste helsing Sjur N. Moshagen Samediggi · Sametinget Prosjektleiar for Divvun-prosjektet http://www.divvun.no/ http://www.samediggi.no/ +358-9-49 75 29 (a) +358-505 634 319 (m)
Sjur Nørstebø Moshagen:
Ja, det stemmer. Det eg reagerte på, var at ho inneheldt «bokstaven» þ, som me vel ikkje brukar på norsk, samt at store og små bokstavar sto hulter til bulter.
Må innrømme at jeg ikke vet hvordan bokstavlisten er satt sammen. Tror den ble kopiert fra en pakke andre har laget.
Det står nemnt i kommentaren over lista korleis ho er laga. Datagrunnlaget inneheld tydeligvis eit ord med ein þ, av éin eller annan grunn.
Truleg islandske (stad)namn, dei bør skrivast slik islendingane skriv dei, òg på norsk.
Ja, det kan vera (og ja, det bør dei).
Kan for øvrig melda at arbeidet med nynorskstavekontrollen min går godt. Eg arbeida litt på han i helga, og har no ein stavekontroll som kjenner att alle orda i Ordbanken, og som ser ut til å gje veldig gode forslag på feilstavingar. For eksempel er rette skrivemåtar av orda i feilstavingslista (som er på bokmål!) for det meste forslag 1, og nesten alltid blant dei 5 øvste.
Bra:)
Om eg forstod deg rett, bruker du Hunspell. Sidan vi har ferdig støtte for hunspell i testbenken vår, skulle det vore artig å testa stavekontrollen din der. Har du høve til å gjera han tilgjengeleg slik han er no, dvs utan samansetjingar, og berre med ordbanksorda inne?
Ja, det kan eg. Eg vil testa han litt meir sjølv først (forslagssyntaksen er langt frå so omfattande som han nok bør vera, sjølv om han fungerte fint på dei testane eg kjørte).
Det kan bli ein god referanse for kor dekkjande ordbanken er i høve til "vanleg tekst".
Det er for øvrig verdt å merka seg at Ordbanken enno inneheld ein del feiloppføringar grunna feil ved eksporten. Han vil altso dessverre godta nokre ord som ikkje er lovlige (som for eksempel «parantes»).
No gjenstår det hovudsaklig attkjenning av samansette ord, samt mykje testing. Dette krev ein del manuelt arbeid, for å unngå overgenerering, men eg er forsiktig optimistisk på at eg skal få i stand ein ganske brukbar stavekontroll.
Eg trur det er no du vil møta bøygen, dvs dei samansette orda. Det er fleire problem, og nokre av dei uløyselege innanfor Hunspell- formalismen. Her er ei kort liste over nokre av utfordringane:
- samansetjingsinformasjon er leksikalsk, dvs spesifikt for kvart
enkelt ord, sjølv om det finst klasser med ord som oppfører seg likt (substantiv på -ing, avleidde frå verb, skal alltid ha -s- på grensa til neste ord, -ing frå adjektiv skal ikkje ha det)
Ja. Den førebelse løysinga mi på dette er å gå gjennom alle orda, og markera om dei skal ha fuge-s, fuge-e, nullbinding eller ikkje kan inngå i samsettingar. Eg har no so vidt begynt på substantiva. Det er rundt 80 000 ord å gå gjennom manuelt, men det er overkommelig … :-/
Eg er fullt klar over at ei slik enkel tilnærming ikkje er fullgod, men ho vil uansett gje eit godt datagrunnlag å bygga vidare på.
- samansetjingsfugen (dvs -s-, -e- eller null) kan variera etter
posisjon i samansetjinga.
Ja, dette er eit stort problem. Det vert redusert *litt* ved at Ordbanken inneheld ein del samansette ord. Eksempelvis heiter det jo vinglas (utan fuge) men raudvinsglas (med fuge-s). Men sidan Ordbanken inneheld både ordet «vinglas» og ordet «raudvin», kan me laga stavekontrollen slik at for eksempel «vinglas», «vinglashaldar» og «raudvinsglas» vert godtatt, mens «vinsglas», «vinglasshaldar» og «raudvinglas» ikkje vert det.
(Men «raudvinglas» er jo òg i mykje bruk, so det bør kanskje godtakast likevel?)
- i norsk ortografi har vi ein regel som seier at der to like
sluttkonsonantar møter ein lik fyrstekonsonant i neste ord i ei samansetjing, så skal ein av dei tre like konsonantane ein då får strykast, eller ordgrensa skal gjerast synleg med ein bindestrek. Døme: buss+stasjon = busstasjon eller buss-stasjon, *ikkje* bussstasjon. Ein enkel og likefram regel for eit menneske, men heilt uråd for Hunspell - i det minste har ikkje ein svært dyktig datalingvist eg kjenner ikkje klart å få det til (men eg veit ikkje kor mykje han prøvde). Bindestrek(s?)varianten er sjølvsagt enkel, den andre derimot alt anna enn triviell i ein formalisme som Hunspell.
Eg veit ikkje om eg heilt forstår kva som er uoverkommelig. Den aller nyaste versjonen av Hunspell har direkte støtte for slik trippelkonsonant- redusering. Den føregår kort sagt ved at samansette ord med tre like bokstavar etter kvarandre i fugen får éin av bokstavane fjerna, eks.: topp + plassering = topplassering
(I tillegg ligg det jo alt inne nokre slike samansette ord, som «bussjåfør».)
- norsk (og svensk og dansk) har mange korte substantiv, som har ein
tendens til å laga store problem for samansetjingar. Fordi dei er korte, har dei lett for å maskera reelle skrivefeil som ei samansetjing av fleire korte ord.
Ja, dette har eg sett kan lett bli eit stort problem.
- ikkje opna for samansetjingar i det heile, berre leggja dei inn som
heile ord etter kvart som ein finn dei (dette prinsippet blir brukt av norske aviser, dvs at korrektursystemet Tansa, med litt intelligens på toppen for å analysera ukjende ord som potensielle samansetjingar; dette er i praksis det som òg gjeld ordlista som ligg til grunn for den norske stavekontrollen bygd på open kjeldekode, truleg mest av tradisjon og nedarva tekniske hindringar i iSpell m.fl.)
Akkurat. Dette er ikkje ei brukbar løysing, synest eg.
- opna for samansetjingar med ***maksimalt 2 ledd***, dvs "dodør",
men ikkje "dodørhandtak" (med mindre både "dodør" og "handtak" er lagt inn som enkeltord kvar for seg) - slik var stavekontrollen i MS Word fram til Word 97
Dette er heller ikkje bra. Samansette ord hugsar eg var eit stort problem i Word 97 (eg visste faktisk ikkje at dei var støtta i det heile). Men sjølv med ein slik implementering, der mange lovlige ord ikkje vert gjenkjende, er stavekontrollen *nyttig* (stavekontrollen i Word 97 var veldig nyttig for meg, og hjelpte meg til å retta mange skrivefeil).
Men eitt av måla er iallfall at stavekontrollen skal verta betre enn den i Word 97. :)
- opna for fri samansetjing, men med ei grense for kor korte ord som
blir akseptert i samansetjinga, rekna ut etter ein formel som tek omsyn til lengda på heile ordet, slik at korte ord kan laga samansetjingar i ord som i seg sjølv ikkje er spesielt lange eller har mange ledd, men blir avviste i lengre ord - dette er oppførselen i den svenske stavekontrollen for MS Word, og speglar ein reell tendens til at lange ord vanlegvis ikkje inneheld svært korte ord som ein del av samansetjinga
Det hørest interessant ut. Eg ser at nyaste versjon av Hunspell har støtte for ein heilt ny måte å definera samansette ord på (brukt for ungarsk), som kanskje kan brukast til dette. I første omgang har eg tenkt å bruka den gamle metoden, og seinare gå over til den nye (når eg har fått oversikta over avgrensingane til den gamle i praksis, samt fått lese meg opp og forstått den nye). Den nye metoden er òg under utvikling, og skal vera forbetra i neste versjon av Hunspell.
- opna for fri samansetjing, men med ei grense for kor korte orda kan
vera for å få lov til å vera del av ei samansetjing, typisk går grensa mellom 3 og 4 bokstavar, slik at ord på 3 bokstavar eller mindre ikkje blir aksepterte i samansetjingar, medan lengre ord blir aksepterte.
Ja, denne avgrensingane har eg tenkt å bruka, i utgangspunktet med grensa sett på 3 bokstavar.
Eit slikt system blir litt i stivaste laget, og må komplementerast med delvis å leggja inn vanlege samansetjingar av korte ord, og delvis opna for at spesifikke korte ord kan laga samansetjingar. - Dette er slik dei norske stavekontrollane i Word fungerer, men der fungerer det som sagt ikkje bra nok, fordi korte ord som er vanlege i samansetjingar ikkje vart godkjende, t.d. 'båt' ('ubåt' er derimot på 4 bokstavar, slik at eit ord som 'fiskebåt' ikkje blir akseptert, og får som forslag 'fiskeubåt' :/ ).
:)
Den *beste* strategien etter mitt syn, er å byggja vidare på det siste alternativet over, men komplettert med 2 ting: 1) grundige korpusstudiar, slik at ein får eit tydeleg bilete av kva for korte ord som er vanlege i samansetjingar; og 2) posisjonsbestemt samansetjing (korte ord er vanlege fyrst og sist i samansetjingar, midt inne i ei samansetjing er dei mindre sannsynlege, og er meir sannsynleg ein skrivefeil), slik at eit ord som 'båt' berre kan laga samansetjingar som 'fiskebåt' ('båt' står sist) eller 'båttur' ('båt' står fyrst). Etter ein slik strategi vil eit ord som 'fiskebåtflåte' *ikkje* bli godkjent, fordi 'båt' her står i midten (dersom ein legg inn 'fiskebåt' er det sjølvsagt ingen problem).
Med ein slik strategi trur eg at ein får det beste kompromisset mellom ein tilstrekkeleg dynamisk samamsetjingsmekanisme, utan at ein får alt for mykje (problematisk) overgenerering.
Hunspell har støtte for å seia om ord er lovlige eller ikkje inne i ord, men eg er meir i stuss for korleis me bør fastsetja kva ord det gjeld (utanom bruk av berre lengda på orda, då).
Hunspell har verkty for å handtera i det minste delar av ein slik strategi, men eg er usikker på om det går å implementera alt. Hunspell har derimot ikkje dei verktya vi treng for å handtera samansetjing i samisk, der det finst enno meir kompliserte mønster (t.d. at det fyrste ordet vanlegvis lagar samansetjing i nominativ, dvs vanleg grunnform, men det etterfylgjande ordet krev at det føregåande ordet står i genitiv eintal eller fleirtal - det er i praksis uråd for oss å formulera dette programmatisk i Hunspell). Vi kjem derfor truleg til å gje opp Hunspell, og satsa på ein ny stavekontroll vi sjølve kjem til å vera med på å utvikla (open kjeldekode, sjølvsagt).
Kunne ikkje ein idé heller vera å prøva å forbetra Hunspell til å støtta dette. Eller er oppbygginga av Hunspell so forskjellig at dette ikkje er mulig?
Den 12. feb. 2009 kl. 13.10 skrev Karl Ove Hufthammer:
Hunspell har verkty for å handtera i det minste delar av ein slik strategi, men eg er usikker på om det går å implementera alt. Hunspell har derimot ikkje dei verktya vi treng for å handtera samansetjing i samisk, der det finst enno meir kompliserte mønster (t.d. at det fyrste ordet vanlegvis lagar samansetjing i nominativ, dvs vanleg grunnform, men det etterfylgjande ordet krev at det føregåande ordet står i genitiv eintal eller fleirtal - det er i praksis uråd for oss å formulera dette programmatisk i Hunspell). Vi kjem derfor truleg til å gje opp Hunspell, og satsa på ein ny stavekontroll vi sjølve kjem til å vera med på å utvikla (open kjeldekode, sjølvsagt).
Kunne ikkje ein idé heller vera å prøva å forbetra Hunspell til å støtta dette. Eller er oppbygginga av Hunspell so forskjellig at dette ikkje er mulig?
Det finst mange andre grunnar til at vi ikkje vil satsa på Hunspell, uansett. Hunspell er for oss eit derivert format, som ligg ganske langt unna vår eigen kjeldekode, og konverteringa frå koden vår til Hunspell er ikkje triviell, og enno langt frå feilfri og komplett. Vi vil uansett satsa på denne nye hesten, og *ev* halda ved like dei Hunspell-implementasjonane vi har, men det er lite truleg.
Den viktigaste grunnen til at vi ikkje kan og vil satsa på Hunspell, er at Hunspell er spesialisert programvare (i hovudsak) laga for å korrigera tekst, men utan den naudsynte språkteknologiske djubda ein treng for å vera heilt språkuavhengig (jf at det finst alle moglege slags tilpassingar for ulike språk, istf allmenne generaliseringar). Det vi har drøymt om heile tida, og no ser for oss kan bli ein realitet, er ein stavekontroll basert på transduserteknologi (helst vekta slik teknologi). Teknologien i seg sjølv er velprøvd (det matematiske grunnlaget er kjent frå 80-talet), har vorte prøvd på eit utal ulike språk, er rask (kring 100 000 analyser pr sekund eller meir, som for ein stavekontroll grovt rekna svarar til talet på forslag pr sekund, eller talet på godkjende/forkasta ord pr sekund -- MINUS overhead i samband med stavekontroll-API-ar m.m.).
Det er samtidig den teknologien vi bruker for å analysera tekst, desse analysene er i sin tur grunnlaget for meir avansert språkleg analyse, som i sin tur kan bli til t.d. ein grammatikkontroll.
Vi (Divuvn-gjengen og språkteknologimiljøet ved Univ. i Tromsø) *veit* at vi kan handtera samisk (og i prinsipp alle andre språk) med denne teknologien. Vi har røynsle nok til å seia at dette er framtida, og at Hunspell (for oss) er eit sidespor - naudsynt til no, men like fullt eit sidespor.
Ja, det finst anna språkteknologi (eller teknologi for ordanalyse, m.a. Hunspell), og ja, vi veit at ikkje all språkteknologi eignar seg for stavekontroll og andre korrekturprogram. Men for språk med komplekse ord (mykje bøying, samansetjing, anna ordlaging) er denne teknologien den einaste farbare. Alle språka vi arbeider med høyrer til denne kategorien, inkl. norsk. Hunspell klarar av ein del av desse språka, men som eg nemnde i ein annan e-post, så er formatet så krøkkete for språk som finsk og samisk at vi helst ikkje vil gjera det (finsk er i denne samanhangen vanskelegare enn samisk, dvs for Hunspell, men er relativt trivielt for transduserteknologi).
Sjølv om transduserteknologien er gamal, har det ikkje tidlegare funnest implementasjonar som open kjeldekode. Dette har endra seg dei siste åra (det siste året), slik at det no faktisk er mogleg å sjå for seg ein stavekontroll basert på denne teknologien.
Sjur
Dicite Iesvs: "Patre, svm vidimvs domvm tvvm ex hic."> From: sjur.moshagen@kolumbus.fi> To: i18n-no@lister.ping.uio.no> Date: Thu, 12 Feb 2009 13:44:53 +0200> Subject: Re: [i18n-no] Hvordan sjekker vi kvalitetsendringer i stavekontrollen?> > Den 12. feb. 2009 kl. 13.10 skrev Karl Ove Hufthammer:> > >> Hunspell har verkty for å handtera i det minste delar av ein slik> >> strategi, men eg er usikker på om det går å implementera alt. > >> Hunspell> >> har derimot ikkje dei verktya vi treng for å handtera samansetjing i> >> samisk, der det finst enno meir kompliserte mønster (t.d. at det> >> fyrste ordet vanlegvis lagar samansetjing i nominativ, dvs vanleg> >> grunnform, men det etterfylgjande ordet krev at det føregåande ordet> >> står i genitiv eintal eller fleirtal - det er i praksis uråd for > >> oss å> >> formulera dette programmatisk i Hunspell). Vi kjem derfor truleg > >> til å> >> gje opp Hunspell, og satsa på ein ny stavekontroll vi sjølve kjem til> >> å vera med på å utvikla (open kjeldekode, sjølvsagt).> >> > Kunne ikkje ein idé heller vera å prøva å forbetra Hunspell til å > > støtta> > dette. Eller er oppbygginga av Hunspell so forskjellig at dette > > ikkje er> > mulig?> > Det finst mange andre grunnar til at vi ikkje vil satsa på Hunspell, > uansett. Hunspell er for oss eit derivert format, som ligg ganske > langt unna vår eigen kjeldekode, og konverteringa frå koden vår til > Hunspell er ikkje triviell, og enno langt frå feilfri og komplett. Vi > vil uansett satsa på denne nye hesten, og *ev* halda ved like dei > Hunspell-implementasjonane vi har, men det er lite truleg.> > Den viktigaste grunnen til at vi ikkje kan og vil satsa på Hunspell, > er at Hunspell er spesialisert programvare (i hovudsak) laga for å > korrigera tekst, men utan den naudsynte språkteknologiske djubda ein > treng for å vera heilt språkuavhengig (jf at det finst alle moglege > slags tilpassingar for ulike språk, istf allmenne generaliseringar). > Det vi har drøymt om heile tida, og no ser for oss kan bli ein > realitet, er ein stavekontroll basert på transduserteknologi (helst > vekta slik teknologi). Teknologien i seg sjølv er velprøvd (det > matematiske grunnlaget er kjent frå 80-talet), har vorte prøvd på eit > utal ulike språk, er rask (kring 100 000 analyser pr sekund eller > meir, som for ein stavekontroll grovt rekna svarar til talet på > forslag pr sekund, eller talet på godkjende/forkasta ord pr sekund -- > MINUS overhead i samband med stavekontroll-API-ar m.m.).> > Det er samtidig den teknologien vi bruker for å analysera tekst, desse > analysene er i sin tur grunnlaget for meir avansert språkleg analyse, > som i sin tur kan bli til t.d. ein grammatikkontroll.> > Vi (Divuvn-gjengen og språkteknologimiljøet ved Univ. i Tromsø) *veit* > at vi kan handtera samisk (og i prinsipp alle andre språk) med denne > teknologien. Vi har røynsle nok til å seia at dette er framtida, og at > Hunspell (for oss) er eit sidespor - naudsynt til no, men like fullt > eit sidespor.> > Ja, det finst anna språkteknologi (eller teknologi for ordanalyse, > m.a. Hunspell), og ja, vi veit at ikkje all språkteknologi eignar seg > for stavekontroll og andre korrekturprogram. Men for språk med > komplekse ord (mykje bøying, samansetjing, anna ordlaging) er denne > teknologien den einaste farbare. Alle språka vi arbeider med høyrer > til denne kategorien, inkl. norsk. Hunspell klarar av ein del av desse > språka, men som eg nemnde i ein annan e-post, så er formatet så > krøkkete for språk som finsk og samisk at vi helst ikkje vil gjera det > (finsk er i denne samanhangen vanskelegare enn samisk, dvs for > Hunspell, men er relativt trivielt for transduserteknologi).> > Sjølv om transduserteknologien er gamal, har det ikkje tidlegare > funnest implementasjonar som open kjeldekode. Dette har endra seg dei > siste åra (det siste året), slik at det no faktisk er mogleg å sjå for > seg ein stavekontroll basert på denne teknologien.> > Sjur> > > _______________________________________________> i18n-no mailing list> i18n-no@lister.ping.uio.no> https://lister.ping.uio.no/mailman/lister.ping.uio.no/listinfo/i18n-no _________________________________________________________________ Få Windows Live Messenger på mobilen. http://windowslivemobile.msn.com/Homepage.aspx?lang=nb-no&ocid=30032
Sam Wilson skrev:
Dicite Iesvs: "Patre, svm vidimvs domvm tvvm ex hic."> From: sjur.moshagen@kolumbus.fi> To: i18n-no@lister.ping.uio.no> Date: Thu, 12 Feb 2009 13:44:53 +0200> Subject: Re: [i18n-no] Hvordan sjekker vi kvalitetsendringer i stavekontrollen?> > Den 12. feb. 2009 kl. 13.10 skrev Karl Ove Hufthammer:> > >> Hunspell har verkty for å handtera i det minste delar av ein slik> >> strategi, men eg er usikker på om det går å implementera alt. > >> Hunspell> >> har derimot ikkje dei verktya vi treng for å handtera samansetjing i> >> samisk, der det finst enno meir kompliserte mønster (t.d. at det> >> fyrste ordet vanlegvis lagar samansetjing i nominativ, dvs vanleg> >> grunnform, men det etterfylgjande ordet krev at det føregåande ordet> >> står i genitiv eintal eller fleirtal - det er i praksis uråd for > >> oss å> >> formulera dette programmatisk i Hunspell). Vi kjem derfor truleg > >> til å> >> gje opp Hunspell, og satsa på ein ny stavekontroll vi sjølve kjem til> >> å vera med på å utvikla (open kjeldekode, sjølvsagt).> >> > Kunne ikkje ein idé heller vera å prøva å forbetra Hunspell til å > > støtta> > dette. Eller er oppbygginga av Hunspell so forskjellig at dette > > ikkje er> > mulig?> > Det finst mange andre grunnar til at vi ikkje vil satsa på Hunspell, > uansett. Hunspell er for oss eit derivert format, som ligg ganske > langt unna vår eigen kjeldekode, og konverteringa frå koden vår til
Hunspell er ikkje triviell, og enno langt frå feilfri og komplett.
Vi > vil uansett satsa på denne nye hesten, og *ev* halda ved like dei > Hunspell-implementasjonane vi har, men det er lite truleg.> > Den viktigaste grunnen til at vi ikkje kan og vil satsa på Hunspell,
er at Hunspell er spesialisert programvare (i hovudsak) laga for å korrigera tekst, men utan den naudsynte språkteknologiske djubda
ein > treng for å vera heilt språkuavhengig (jf at det finst alle moglege > slags tilpassingar for ulike språk, istf allmenne generaliseringar). > Det vi har drøymt om heile tida, og no ser for oss kan bli ein > realitet, er ein stavekontroll basert på transduserteknologi (helst > vekta slik teknologi). Teknologien i seg sjølv er velprøvd (det > matematiske grunnlaget er kjent frå 80-talet), har vorte prøvd på eit > utal ulike språk, er rask (kring 100 000 analyser pr sekund eller > meir, som for ein stavekontroll grovt rekna svarar til talet på > forslag pr sekund, eller talet på godkjende/forkasta ord pr sekund -- > MINUS overhead i samband med stavekontroll-API-ar m.m.).> > Det er samtidig den teknologien vi bruker for å analysera tekst, desse > analysene er i sin tur grunnlaget for meir avansert språkleg analyse, > som i sin tur kan bli til t.d. ein grammatikkontroll.> > Vi (Divuvn-gjengen og språkteknologimiljøet ved Univ. i Tromsø) *veit* > at vi kan handtera samisk (og i prinsipp alle andre språk) med denne > teknologien. Vi har røynsle nok til å seia at dette er framtida, og at > Hunspell (for oss) er eit sidespor - naudsynt til no, men like fullt > eit sidespor.> > Ja, det finst anna språkteknologi (eller teknologi for ordanalyse, > m.a. Hunspell), og ja, vi veit at ikkje all språkteknologi eignar seg > for stavekontroll og andre korrekturprogram. Men for språk med > komplekse ord (mykje bøying, samansetjing, anna ordlaging) er denne > teknologien den einaste farbare. Alle språka vi arbeider med høyrer > til denne kategorien, inkl. norsk. Hunspell klarar av ein del av desse > språka, men som eg nemnde i ein annan e-post, så er formatet så > krøkkete for språk som finsk og samisk at vi helst ikkje vil gjera det > (finsk er i denne samanhangen vanskelegare enn samisk, dvs for > Hunspell, men er relativt trivielt for transduserteknologi).> > Sjølv om transduserteknologien er gamal, har det ikkje tidlegare > funnest implementasjonar som open kjeldekode. Dette har endra seg dei > siste åra (det siste året), slik at det no faktisk er mogleg å sjå for > seg ein stavekontroll basert på denne teknologien.> > Sjur> >
Dette var bortimot uleselig. Kan den som sendte dette sendte det som er ny tekst om igjen?
-Axel
On Fri, 2009-02-13 at 12:18 +0100, Axel Bojer wrote:
Sam Wilson skrev:
Dicite Iesvs: "Patre, svm vidimvs domvm tvvm ex hic."
Dette var bortimot uleselig. Kan den som sendte dette sendte det som er ny tekst om igjen?
det var einaste ny tekst, han berre "kapra" ein eksisterande tråd for å sende inn oppdatering av Konversation-omsetjinga (sjå vedlegget -- såg legitim ut for meg.)
Subject: Re: [i18n-no] Konversation oversatt til Norsk (Bokmål)> From: kjetilho@ifi.uio.no> To: axelb@skolelinux.no> CC: wilsonsamm@hotmail.com; i18n-no@lister.ping.uio.no> Date: Fri, 13 Feb 2009 12:35:03 +0100> > On Fri, 2009-02-13 at 12:18 +0100, Axel Bojer wrote:> > Sam Wilson skrev:>> > Dicite Iesvs: "Patre, svm vidimvs domvm tvvm ex hic."> >> > Dette var bortimot uleselig. Kan den som sendte dette sendte det som er> > ny tekst om igjen?>> det var einaste ny tekst, han berre "kapra" ein eksisterande tråd for å> sende inn oppdatering av Konversation-omsetjinga (sjå vedlegget -- såg> legitim ut for meg.)>>-- > med venleg helsing,> Kjetil T.>Ja, beklager uleselig formatering. Det skulle også være ei melding fra meg i eposten, men hu såg ikke ut til å ha blitt med.Blir oversettelsen lagt til i SVN-lageret vårt, slik at den blir med i neste KDE-utgivelse? - Sam M WPS: Sørene
_________________________________________________________________ Med MSN på mobilen holder du deg oppdatert. http://info.mobile.no.msn.com/pc/default.aspx?ocid=30032
Sam Wilson skrev:
Subject: Re: [i18n-no] Konversation oversatt til Norsk (Bokmål)> From: kjetilho@ifi.uio.no> To: axelb@skolelinux.no> CC: wilsonsamm@hotmail.com; i18n-no@lister.ping.uio.no> Date: Fri, 13 Feb 2009 12:35:03 +0100> > On Fri, 2009-02-13 at 12:18 +0100, Axel Bojer wrote:> > Sam Wilson skrev:>> > Dicite Iesvs: "Patre, svm vidimvs domvm tvvm ex hic."> >> > Dette var bortimot uleselig. Kan den som sendte dette sendte det som er> > ny tekst om igjen?>> det var einaste ny tekst, han berre "kapra" ein eksisterande tråd for å> sende inn oppdatering av Konversation-omsetjinga (sjå vedlegget -- såg> legitim ut for meg.)>>-- > med venleg helsing,> Kjetil T.
(...)
Ja, beklager uleselig formatering. Det skulle også være ei melding fra meg i eposten, men hu såg ikke ut til å ha blitt med.Blir oversettelsen lagt til i SVN-lageret vårt, slik at den blir med i neste KDE-utgivelse? - Sam M WPS: Sørene
E-postprogrammetr ditt legger alt på en linje, og dermed omformateres alle sitattegnene som vanlig tekst, det er problemet. (Rettet litt på det ovenfor). Jeg kan legge inn oversettelsen, merk forøvrig at vi skriver tjener, ikke server, på norsk se: http://i18n.skolelinux.no/nb/Fellesordl.eng-no.html
Mvh Axel Bojer
Torsdag 12. februar 2009 skreiv Karl Ove Hufthammer:
Ja. Den førebelse løysinga mi på dette er å gå gjennom alle orda, og markera om dei skal ha fuge-s, fuge-e, nullbinding eller ikkje kan inngå i samsettingar. Eg har no so vidt begynt på substantiva. Det er rundt 80 000 ord å gå gjennom manuelt, men det er overkommelig … :-/
Det går seint men bra med dette prosjektet. Har no fått lagt til støtte for samansette ord (men fugeinfooversikta er langt frå komplett enno – cirka 1 % ferdig). Har òg fått lagt til støtta for genitiv-s for alle orda som skal ha det.
Men eitt problem eg har oppdaga er overgenerering som godtar typiske stavefeil. For eksempel vil eit ord som «hanskjønnsbøying» («han» + «skjønn» + fuge-s + «bøying») verta godteken, og til og med foreslått. Litt usikker på korleis me (best) kan hindra dette. Forslag?
Karl Ove Hufthammer wrote:
Men eitt problem eg har oppdaga er overgenerering som godtar typiske stavefeil. For eksempel vil eit ord som «hanskjønnsbøying» («han» + «skjønn»
- fuge-s + «bøying») verta godteken, og til og med foreslått. Litt usikker på
korleis me (best) kan hindra dette. Forslag?
Karl Ove,
Du kan eksperimentere med "REP"-operatoren i hunspell. Du skal visstnok kunne definere substitusjoner basert på vanlige feil, og hvis noen av disse kan generere ett av ordene i ordlista, vil den overgenererte sammensetningen bli flagget som feil.
Det forutsetter altså at "hankjønnsbøying" er i ordlista.
Jeg har aldri brukt denne funksjonen, men det er verdt et forsøk ...
Mvh, Lars Nygaard
Onsdag 18. februar 2009 skreiv lars nygaard:
Du kan eksperimentere med "REP"-operatoren i hunspell. Du skal visstnok kunne definere substitusjoner basert på vanlige feil, og hvis noen av disse kan generere ett av ordene i ordlista, vil den overgenererte sammensetningen bli flagget som feil.
Det forutsetter altså at "hankjønnsbøying" er i ordlista.
Og det er det ikkje.
Ei enkel løysing kan vera å rett og slett forby ord som «kjønn», «skjønn», «kjede» og «skjede» i samansettingar. Dette vil forby for mange ord, men er kanskje betre enn alternativet. (Ordet «hankjønnsbøying» vert då framleis godteke, då orda «hankjønn» og «bøying» finst i ordlista.)
Jeg har aldri brukt denne funksjonen, men det er verdt et forsøk ...
Bruk av REP er heilt nødvendig for å få ei brukbar ordliste.
Den 6. feb. 2009 kl. 12.35 skrev Sjur Nørstebø Moshagen:
Til no har det vore tungvint å testa stavekontrollar automatisk sjølv om ein har hatt tilgang på eit korrekt-korpus, og det har vore vanskeleg å jamføra resultata frå ulike stavekontrollar. Men i Divvun- prosjektet har vi no laga ein testbenk som kan ta ulike typar testdata som inndata, ein kan spesifisera kva for stavekontroll ein vil testa, og testbenken produserer ein testrapport i XML som representerer testresultata frå ulike typar stavekontrollar i same format. Vi kan altså testa fleire ulike stavekontrollar på nøyaktig same data, og jamføra resultata, med berre éin kommando pr stavekontroll.
Eg presenterte testbenken vår på ein konferanse i Stockholm i November, og artikkelsamlinga derifrå er no tilgjengeleg på nettet. Artikkelen min om testbenken finn de på:
http://hdl.handle.net/10062/8697
Der er artikkelen min (på engelsk) tilgjengeleg som ei pdf-fil, lenka står i ein grå boks midt på sida.
Sjur