Tysdag 22. mai 2007 skreiv lars nygaard:
Dette kan være av interesse:
Absolutt. Kva er grunnen til hunspell i staden for aspell?
Den 26. mai. 2007 kl. 17.37 skrev Karl Ove Hufthammer:
Tysdag 22. mai 2007 skreiv lars nygaard:
Dette kan være av interesse:
Absolutt. Kva er grunnen til hunspell i staden for aspell?
Eg veit ikkje kvifor Lars Nygaard har valt hunspell, men ville ha gjort det same sjølv. Heilt kort oppsummert kan ein seia det slik at for eit språk som norsk, er det på tide å kasta aspell på historias skraphaug, og hunspell er det beste alternativet som finst tilgjengeleg som open kjeldekode.
Litt meir detaljert om desse bastante påstandane:
Norsk har, som mange andre språk, (meir eller mindre) fri samansetjing, og eit bøyingssystem som er ein god del meir komplekst enn engelsk (men som likevel er latterleg enkelt jf med mange andre språk). Og norsk har ein litt brukandes avleiing (i hop utgjer desse tre fenomena grovt sett det ein kallar morfologi i språkvitskapen). Aspell er innanfor visse grenser i stand til å handtera bøying og avleiing, men er fullstendig sjanselaus når det gjeld ein fornuftig og korrekt formalisering av samansetjing - det vesle som finst er berre tull. Dette betyr i praksis at Aspell-baserte stavekontrollar for norsk for dei fleste brukarar *alltid* vil koma til kort, og ikkje bli eit fullgodt verkty.
Hunspell, derimot, har laga eit skikkeleg rammeverk for å handtera og formalisera både bøying, avleiing og samansetjing, og er så godt som perfekt for norsk - vi treng ikkje meir. (Derimot er det ikkje godt nok for språk som finsk og samisk, sjølv om det er mogleg å koma rundt dei relevante manglane.)
Datafilene frå norsk ordbank inneheld diverre ikkje informasjon om samansetjing, men når Lars Nygaard har valt å bruka hunspell framfor aspell tolkar eg det som at han ser framover, og det er eg svært glad for. Dette er verkeleg det vi treng:)
Det neste vi treng er å byggja ut dataa frå norsk ordbank til å inkludera informasjon om samansetjing for å utnytta styrken til hunspell for å få betre dekning. Aspell-støtta burde endrast til å bli eit derivat frå hunspellversjonen utan samansetjingsinfo (som Aspell ikkje kan bruka), og som dermed berre inneheld dei orda som er eksplisitt innlagde. Ein slik stavekontroll har òg viktige bruksområde, men for fleirtalet brukarar er ein god og presis samansetjingsmodell i stavekontrollen det einaste fornuftige.
Beste helsing Sjur
[Sjur Nørstebø Moshagen]
Eg veit ikkje kvifor Lars Nygaard har valt hunspell, men ville ha gjort det same sjølv. Heilt kort oppsummert kan ein seia det slik at for eit språk som norsk, er det på tide å kasta aspell på historias skraphaug, og hunspell er det beste alternativet som finst tilgjengeleg som open kjeldekode.
Dog er det ganske irrelevant hva en kunne tenke seg å kaste så lenge det varierer hva de ulike programmene støtter av stavekontroll. Så vidt jeg vet støtter emacs kun ispell (har den lært aspell?), mens f.eks. KDE forstår aspell, og OpenOffice.org kun forstår myspell. Det betyr at hvis en ønsker at stavekontrollen skal fungere i alle programmer må en støtte flere systemer inntil noen implementerer støtte for hunspell i alle programmer.
Hvilke programmer er det som støtter hunspell?
Vennlig hilsen,
Petter Reinholdtsen skreiv:
Dog er det ganske irrelevant hva en kunne tenke seg å kaste så lenge det varierer hva de ulike programmene støtter av stavekontroll. Så vidt jeg vet støtter emacs kun ispell (har den lært aspell?), mens f.eks. KDE forstår aspell, og OpenOffice.org kun forstår myspell. Det betyr at hvis en ønsker at stavekontrollen skal fungere i alle programmer må en støtte flere systemer inntil noen implementerer støtte for hunspell i alle programmer.
Hvilke programmer er det som støtter hunspell?
Hunspell byggjer på Myspell. OpenOffice.org bytte til Hunspell for eit par versjonar sidan.
I sommar skal eg skal arbeida ein del med å forbetra dei norske stavekontrollane i OpenOffice.org, så eg ser for tida på korleis finessene i Hunspell kan utnyttast.
Er forresten ikkje Ispell-grensesnittet ganske standard? Eg trur både Hunspell og Myspell støttar det.
hunspell -v
@(#) International Ispell Version 3.2.06 (but really Hunspell 1.1.5)
Med helsing, Gaute Hvoslef Kvalnes
Petter Reinholdtsen skrev:
[Sjur Nørstebø Moshagen]
Eg veit ikkje kvifor Lars Nygaard har valt hunspell, men ville ha gjort det same sjølv. Heilt kort oppsummert kan ein seia det slik at for eit språk som norsk, er det på tide å kasta aspell på historias skraphaug, og hunspell er det beste alternativet som finst tilgjengeleg som open kjeldekode.
Dog er det ganske irrelevant hva en kunne tenke seg å kaste så lenge det varierer hva de ulike programmene støtter av stavekontroll. Så vidt jeg vet støtter emacs kun ispell (har den lært aspell?), mens f.eks. KDE forstår aspell, og OpenOffice.org kun forstår myspell. Det betyr at hvis en ønsker at stavekontrollen skal fungere i alle programmer må en støtte flere systemer inntil noen implementerer støtte for hunspell i alle programmer.
Hvilke programmer er det som støtter hunspell?
Fra og med vershon 2.0.2 bruker OOo hunspell
http://lingucomponent.openoffice.org/
Tidligere versjoner brukte myspell (kanskje derfor skriptet med thesarus ikke virker ennå? bare et skudd i blinde :-)
Mvh Axel
Petter Reinholdtsen wrote:
Det betyr at hvis en ønsker at stavekontrollen skal fungere i alle programmer må en støtte flere systemer inntil noen implementerer støtte for hunspell i alle programmer.
Jepp, ting bør fungere for ispell/aspell også. Det burde være greit å ta i bruk den dic-fila jeg har lagt ut for disse programmene også: det er bare å lage en hash-fil av dem, men jeg husker ikke helt hvilken aspell/ispell-kommandoer man bruker, men det er det sikkert noen på lista som vet ...
mvh, lars nygaard
Sjur Nørstebø Moshagen wrote:
Hunspell, derimot, har laga eit skikkeleg rammeverk for å handtera og formalisera både bøying, avleiing og samansetjing, og er så godt som perfekt for norsk - vi treng ikkje meir. (Derimot er det ikkje godt nok for språk som finsk og samisk, sjølv om det er mogleg å koma rundt dei relevante manglane.)
Datafilene frå norsk ordbank inneheld diverre ikkje informasjon om samansetjing, men når Lars Nygaard har valt å bruka hunspell framfor aspell tolkar eg det som at han ser framover, og det er eg svært glad for. Dette er verkeleg det vi treng:)
Det neste vi treng er å byggja ut dataa frå norsk ordbank til å inkludera informasjon om samansetjing for å utnytta styrken til hunspell for å få betre dekning.
Det stemmer, ja. Hunspell har gode sammensetningshåndteringsmuligheter, men det er en utfordring å bruke disse mulighetene til å lage en sammensetningsmodul med en god balanse mellom presisjon og funnrate (altså som aksepterer alle korrekte sammensetninger, men ikke tror at feilstavede ord er sammensetninger). Jeg har lagt til flagget "/root" for ord som er i grunnform; det er ment som en hjelp for sammensetningsmodulen.
Her er det altså behov for frivillige ...
mvh, lars nygaard
lars nygaard skrev:
Sjur Nørstebø Moshagen wrote:
Hunspell, derimot, har laga eit skikkeleg rammeverk for å handtera og formalisera både bøying, avleiing og samansetjing, og er så godt som perfekt for norsk - vi treng ikkje meir. (Derimot er det ikkje godt nok for språk som finsk og samisk, sjølv om det er mogleg å koma rundt dei relevante manglane.)
Datafilene frå norsk ordbank inneheld diverre ikkje informasjon om samansetjing, men når Lars Nygaard har valt å bruka hunspell framfor aspell tolkar eg det som at han ser framover, og det er eg svært glad for. Dette er verkeleg det vi treng:)
Det neste vi treng er å byggja ut dataa frå norsk ordbank til å inkludera informasjon om samansetjing for å utnytta styrken til hunspell for å få betre dekning.
Det stemmer, ja. Hunspell har gode sammensetningshåndteringsmuligheter, men det er en utfordring å bruke disse mulighetene til å lage en sammensetningsmodul med en god balanse mellom presisjon og funnrate (altså som aksepterer alle korrekte sammensetninger, men ikke tror at feilstavede ord er sammensetninger). Jeg har lagt til flagget "/root" for ord som er i grunnform; det er ment som en hjelp for sammensetningsmodulen.
Her er det altså behov for frivillige ...
mvh, lars nygaard
Men hvorfor to prosjekter? Vi har jo allerede no.speling. org, som har de gamle ordlistene, der vi også skal legge inn ordbankens ord (de vi ikke har) of kvalitetssikre de bare vi har. Hva er fordelen med en egen plassering / et eget prosjekt for Hunspell?
Mvh Axel Bojer
Axel Bojer wrote:
Her er det altså behov for frivillige ...
Men hvorfor to prosjekter? Vi har jo allerede no.speling. org, som har de gamle ordlistene, der vi også skal legge inn ordbankens ord (de vi ikke har) of kvalitetssikre de bare vi har. Hva er fordelen med en egen plassering / et eget prosjekt for Hunspell?
Nei, det er ikke meningen å starte et eget prosjekt. Jeg laget hunspell-listene til eget bruk, og gjør dem simpelthen tilgjengelig for alle som er interesserte. Jeg ingen planer om å gjøre noe mer ut av det.
mvh, lars nygaard
Lars Nygaard skrev:
Axel Bojer wrote:
Her er det altså behov for frivillige ...
Men hvorfor to prosjekter? Vi har jo allerede no.speling. org, som har de gamle ordlistene, der vi også skal legge inn ordbankens ord (de vi ikke har) of kvalitetssikre de bare vi har. Hva er fordelen med en egen plassering / et eget prosjekt for Hunspell?
Nei, det er ikke meningen å starte et eget prosjekt. Jeg laget hunspell-listene til eget bruk, og gjør dem simpelthen tilgjengelig for alle som er interesserte. Jeg ingen planer om å gjøre noe mer ut av det.
Ah, det er forklarer det hele :-D
MvhAxel Bojer
lars nygaard skreiv:
Det stemmer, ja. Hunspell har gode sammensetningshåndteringsmuligheter, men det er en utfordring å bruke disse mulighetene til å lage en sammensetningsmodul med en god balanse mellom presisjon og funnrate (altså som aksepterer alle korrekte sammensetninger, men ikke tror at feilstavede ord er sammensetninger). Jeg har lagt til flagget "/root" for ord som er i grunnform; det er ment som en hjelp for sammensetningsmodulen.
Hunspell tolkar /root som fire flagg: r, o, o og t.
I mine forsøk på å bli kjend med Hunspell har eg sett på korleis bøyingsmønstra kan kodast i .aff-fila, slik at sjølve ordlista (.dic) vert vesentleg kortare. Så langt har eg ikkje gjort noko som ikkje ispell òg klarar, men eg har no fått litt meir innsikt i korleis stavekontrollen er bygd opp.
Eg er usikker på kva nytte stavekontrollen har av bøyingsinformasjon, som Hunspell har rik støtte for. Er det nyttig å vita at «bilen» er eit hankjønnssubstantiv i bunden form eintal, eller er det tilstrekkeleg å vita at det er eit lovleg ord? Samansetjingsanalysen har kanskje nytte av det? «Biltur» og «bilturen» er lov, men ikkje «bilentur».
Veit nokon om litteratur/artiklar som kan vera relevant?
Med helsing, Gaute Hvoslef Kvalnes
Gaute Hvoslef Kvalnes wrote:
Eg er usikker på kva nytte stavekontrollen har av bøyingsinformasjon, som Hunspell har rik støtte for. Er det nyttig å vita at «bilen» er eit hankjønnssubstantiv i bunden form eintal, eller er det tilstrekkeleg å vita at det er eit lovleg ord? Samansetjingsanalysen har kanskje nytte av det? «Biltur» og «bilturen» er lov, men ikkje «bilentur».
Bøying er ikke så viktig; det springende punkt er om ordet er i grunnform eller bøyd form. Her er den enkle formelen for sammesatte ord:
(grunnform [s|e]?)+ bøyd-form
Det er noen unntak (jf. "Sammensatte ord". Norsk Lingvistisk Tidsskrift, 2001, 59-92.). Problemet er at denne formelen overgenererer massivt, og man må begrense den for at ikke alle ord har en mulig lesning som sammensetning (jf. http://folk.uio.no/jannebj/Scan.Conf.Turku-96.ps).
og
Sjur Nørstebø Moshagen skreiv:
Det neste vi treng er å byggja ut dataa frå norsk ordbank til å inkludera informasjon om samansetjing for å utnytta styrken til hunspell for å få betre dekning.
Kan du skissera kva for informasjon som trengst? Eg har prøvd meg fram (og lese litt), og har ein viss idé om kva som må til:
Det er enkelt å opna for fri samansetjing (slik at ord som «sykkelbutikk» blir godtekne). Det er òg enkelt å leggja visse føringar på bruken av -e- og -s- (reglane 35, 22, 40 og 42 i Johannessen og Hauglin (1996) [1]).
Det er ikkje fullt så lett å innskrenka dekninga til desse reglane. Visse ord ser ut til å krevja -e-, eller -s-, eller ingenting:
«slott» tek *alltid* -s-: slottsball, slottshage, slottseigar, slottsferie
Det nesten likelydande ordet «flått» kan derimot *ikkje* ta -s-: flåttbitt, flåttinfeksjon, flåttangrep
«fisk» tek *alltid* -e-: fisketur, fiskegarn, fiskeslo, fiskebåt
Går det an å forutsjå slikt, eller er det informasjon som må leggjast til kvart enkelt ord?
[1] http://folk.uio.no/jannebj/Scan.Conf.Turku-96.ps
Med helsing, Gaute Hvoslef Kvalnes
Gaute Hvoslef Kvalnes wrote:
Det er ikkje fullt så lett å innskrenka dekninga til desse reglane. Visse ord ser ut til å krevja -e-, eller -s-, eller ingenting:
«slott» tek *alltid* -s-: slottsball, slottshage, slottseigar, slottsferie
Det nesten likelydande ordet «flått» kan derimot *ikkje* ta -s-: flåttbitt, flåttinfeksjon, flåttangrep
«fisk» tek *alltid* -e-: fisketur, fiskegarn, fiskeslo, fiskebåt
Går det an å forutsjå slikt, eller er det informasjon som må leggjast til kvart enkelt ord?
Det finnes regler (av typen "arveord på en stavelse som slutter på konsonant, tar fuge-e), men de er så fulle av unntak at konklusjonen er at det må legges til hvert enkelt ord for å få høy kvalitet på sammensetningsmodulen. Jeg anbefaler å lese artikkelen "bindebokstaver" i boka Språkvett (Dag Gundersen, red; Kunnskapsforlaget). Det viktigste er:
- de fleste ord har alltid s, alltid e, eller alltid ingenting - for en del ord varierer det avhengig av etterledd - noen ganger er det valgfritt (og noen få ganger gir fuge-bokstaver betydning: "sjefsekretær" vs. "sjefssekretær"). - noen etterledd er spesielle ("løshet", "grad", "unge" etc.) - bindebokstaver oppfører seg annerledes i ord med tre eller flere segmenter, for å markere strukturen i ordet ("slagverk", vs. "oppslagsverk").
mvh, lars nygaard
Det finnes regler (av typen "arveord på en stavelse som slutter på konsonant, tar fuge-e), men de er så fulle av unntak at konklusjonen er at det må legges til hvert enkelt ord for å få høy kvalitet på sammensetningsmodulen.
"Høy kvalitet" vil i denne sammenhengen si "bedre enn Word, i alle fall".
-lars
lars nygaard wrote:
Det finnes regler (av typen "arveord på en stavelse som slutter på konsonant, tar fuge-e), men de er så fulle av unntak at konklusjonen er at det må legges til hvert enkelt ord for å få høy kvalitet på sammensetningsmodulen.
Jag tror att rätt väg är att börja med att fråga sig, vad som menas med kvalitet i det här sammanhanget. Kan vi mäta (måle) kvaliteten? I så fall bör vi: 1. mäta före, 2. förändra funktionen, 3. mäta efteråt, 4. jämföra och utvärdera.
Folk på den här listan är väl programvaruutvecklare och känner till "regressionstestning", det vill säga att man har en uppsättning testfall som man prövar på varje ny release, för att säkerställa att allting fungerar som det brukar.
Jag gjorde en testsida på OpenOffice-wikin för svensk stavningskontroll. Det är bara en text [1], som man kan pröva att stavningskontrollera, för att se vilka fel som upptäcks. Något liknande borde göras för norska (och dess varianter).
[1] http://wiki.services.openoffice.org/wiki/User:LA2/Test_av_stavningskontrolle...
Speciellt sektionen "Stavfel" borde vara intressant, där man finner både vanliga felstavningar (abbonent, abbonemang, abonent, abonemang) och deras korrekta motsvarigheter (abonnent, abonnemang).
Jag hade stor hjälp av en lista [2] som finns på svenska Wikipedia. Detta kanske också finns på de norska varianterna av Wikipedia?
[2] http://sv.wikipedia.org/wiki/Wikipedia:Lista_%C3%B6ver_vanliga_spr%C3%A5kfel
"Folk är dåliga på att stava. Det finns det statestik på."
Den 1. jun. 2007 kl. 20.20 skrev lars nygaard:
Gaute Hvoslef Kvalnes wrote:
Det er ikkje fullt så lett å innskrenka dekninga til desse reglane. Visse ord ser ut til å krevja -e-, eller -s-, eller ingenting:
«slott» tek *alltid* -s-: slottsball, slottshage, slottseigar, slottsferie
Det nesten likelydande ordet «flått» kan derimot *ikkje* ta -s-: flåttbitt, flåttinfeksjon, flåttangrep
«fisk» tek *alltid* -e-: fisketur, fiskegarn, fiskeslo, fiskebåt
Går det an å forutsjå slikt, eller er det informasjon som må leggjast til kvart enkelt ord?
Det finnes regler (av typen "arveord på en stavelse som slutter på konsonant, tar fuge-e),
"trikk" er eit slikt arveord - trikketur ;)
men de er så fulle av unntak at konklusjonen er at det må legges til hvert enkelt ord for å få høy kvalitet på sammensetningsmodulen. Jeg anbefaler å lese artikkelen "bindebokstaver" i boka Språkvett (Dag Gundersen, red; Kunnskapsforlaget). Det viktigste er:
- de fleste ord har alltid s, alltid e, eller alltid ingenting
- for en del ord varierer det avhengig av etterledd
- noen ganger er det valgfritt (og noen få ganger gir fuge-
bokstaver betydning: "sjefsekretær" vs. "sjefssekretær").
- noen etterledd er spesielle ("løshet", "grad", "unge" etc.)
- bindebokstaver oppfører seg annerledes i ord med tre eller flere
segmenter, for å markere strukturen i ordet ("slagverk", vs. "oppslagsverk").
dømet over med "trikk" fylgjer akkurat dette mønsteret - om du kombinerer "bytrikk" og "trikketur", er resultatet ulikt avhengig av om du meiner trikketur til byen ("bytrikketur") eller ein tur med bytrikken ("bytrikktur").
I tillegg finst det ein viss variasjon mellom ulike dialektar.
Dette er nemnt for å visa tre ting:
- det finst ein eigen grammatikk for samansetjingar i norsk (det er den einaste måten ein kan forklara korleis eit nyord som "trikk" oppfører seg) - det er mykje upløygd mark her - sjølv dei mest lærde er nærmast i det blå (jf vedtaket til Språkrådet for ca 10 år sidan, då dei prøvde å "vedta"/normera samansetjingar med bok-) - ein god stavekontroll (og dette er "enkelt" å måla: ein som korrekt fangar opp korrekt samansette ord utan å markera dei som feilskrivne, og avviser, dvs varslar som feilskrivingar, samansette ord som er feil samansette - dei fleste med norsk som morsmål (og ev ei stød kjensle for samansetjingar) veit automatisk kva som er rett og feil) må ta omsyn til samansetjingar, og kompleksiteten i dei
Og akkurat når det gjeld samansetjingar ligg stavekontrollen i MS Word milevis føre alt som heiter open source stavekontroll for norsk - eg veit, eg var med på å laga han;) (og berre så det er sagt: eg er smerteleg klar over alle manglane i han òg)
Sjur
lars nygaard skreiv:
Det finnes regler (av typen "arveord på en stavelse som slutter på konsonant, tar fuge-e), men de er så fulle av unntak at konklusjonen er at det må legges til hvert enkelt ord for å få høy kvalitet på sammensetningsmodulen.
Høg kvalitet er målet, ja :-)
Det er eit par ting eg kunne tenkt meg klare svar på, så eg ikkje legg ned mykje arbeid på feil spor. Viss eg har forstått dette rett, er det to hovudoppgåver:
a - å klassifisera røtene etter kva slags samansetjingar dei lagar: null, -s-, -e- eller variantar av desse.
b - å laga reglar for korleis røter av dei ulike klassane kan setjast saman.
Er det rett av meg å gå ut frå at stavekontrollen må godta meiningslause ord (av typen «komfyrlærling»)? Det er vel uoverkommeleg å forutsjå om samansetjingar er meiningsfylte eller ikkje. (Det er derimot kanskje ein fordel om stavekontrollen ikkje er så ivrig på å *føreslå* konstruerte ord?)
Med helsing, Gaute Hvoslef Kvalnes
Gaute Hvoslef Kvalnes wrote:
Det er eit par ting eg kunne tenkt meg klare svar på, så eg ikkje legg ned mykje arbeid på feil spor. Viss eg har forstått dette rett, er det to hovudoppgåver:
a - å klassifisera røtene etter kva slags samansetjingar dei lagar: null, -s-, -e- eller variantar av desse.
b - å laga reglar for korleis røter av dei ulike klassane kan setjast saman.
Det stemmer.
Er det rett av meg å gå ut frå at stavekontrollen må godta meiningslause ord (av typen «komfyrlærling»)? Det er vel uoverkommeleg å forutsjå om samansetjingar er meiningsfylte eller ikkje. (Det er derimot kanskje ein fordel om stavekontrollen ikkje er så ivrig på å *føreslå* konstruerte ord?)
Ja, du må godta meningsløse sammensetninger, også som forslag. Kanskje kan man utelukke noen typer, men jeg tror det er temmelig vanskelig.
-lars