Rapporten for stavekontrollprosjektet, finner dere her: http://tinyurl.com/3xgg4z
Den ble sendt inn, og er bekreftet mottatt, hos FAD.
-Axel
[Axel Bojer]
Rapporten for stavekontrollprosjektet, finner dere her: http://tinyurl.com/3xgg4z
Jeg fant ikke en rapport, men en søknad om 20000,- til OOo-stiftelsen om arbeid med stavekontrollen. Fint at det er framgang der. Merket meg dog denne setningne, som gir et litt misvisende inntrykk:
For å få lagt Ordbankens ord inn i de frie ordlistene, kreves det ikke mer enn rundt 3 dagers arbeide.
Ordbankens ord er allerede lagt inn i de frie ordlistene, i hvert fall en tidligere utgave, og ny utgave av stavekontrollen er gitt ut med disse ordene. Det trengs dog en oppdatering, da noen av ordene i den tidligere utgaven av ordbankens lister er fjernet igjen, og derfor bør ut av stavekontrollen.
Vennlig hilsen,
Petter Reinholdtsen skrev:
[Axel Bojer]
Rapporten for stavekontrollprosjektet, finner dere her: http://tinyurl.com/3xgg4z
Jeg fant ikke en rapport, men en søknad om 20000,- til OOo-stiftelsen om arbeid med stavekontrollen. Fint at det er framgang der. Merket meg dog denne setningne, som gir et litt misvisende inntrykk:
For å få lagt Ordbankens ord inn i de frie ordlistene, kreves det ikke mer enn rundt 3 dagers arbeide.
Ja, feil lenke, beklager. Prøver igjen: http://tinyurl.com/d3t2sp
Ordbankens ord er allerede lagt inn i de frie ordlistene, i hvert fall en tidligere utgave, og ny utgave av stavekontrollen er gitt ut med disse ordene. Det trengs dog en oppdatering, da noen av ordene i den tidligere utgaven av ordbankens lister er fjernet igjen, og derfor bør ut av stavekontrollen.
Ja, og ordbanken har lagt inn nye ord også. Noen ide om hvor vanskelig/omfattende dette er?
Har prøvd å dokumentere både dette og alt annet vi vet om her: http://no.speling.org/stavekontroll-dokumentasjon.pdf
Fint om noen kan ta en titt, utfyllende informasjon og rettelser tas imot med takk :-)
Hilsen Axel
Axel Bojer:
Ja, og ordbanken har lagt inn nye ord også. Noen ide om hvor vanskelig/omfattende dette er?
Har prøvd å dokumentere både dette og alt annet vi vet om her: http://no.speling.org/stavekontroll-dokumentasjon.pdf
Eg har nokre spørsmål.
For det første har eg endelig fått prøvd stavekontrollen (i Fedora) via hunspell, og der kom tipsa ved feilstavingar *veldig* tregt. So vidt eg kan sjå frå
http://markmail.org/thread/4eyanjmhqb2nfuh5
har korleis affiksfila er laga og organisert veldig mykje å seia for kor raskt dette går. Har de planar om å forbetra affiksfila, og kva metodikk har de brukt for å bygga opp den gjeldande affiksfila?
Spørsmål to går på bygging av nye stavekontrollfiler. Eg har lyst til å bygga mine eigne stavekontrollfiler, berre basert på data frå Norsk ordbank (med autogenerering av genitivsformer, sjølvsagt).
Grunnen er at eg er fryktelig uinteressert i å bruka ein stavekontroll som inneheld ord som nokon folk *synest* burde vera med, men som verken står i Nynorskordboka eller Bokmålsordboka. Kor enkelt vil dette vera for meg å få til dersom eg ikkje har behov for å støtta utdaterte format som ispell, men vil heller halda meg til aspell og hunspell (eller kanskje berre hunspell, om det er lettare)? Kort sagt vil eg berre mata ei lang lista over ord inn eit program/skript, og få ut ein stavekontroll i andre enden. Er dette mulig å få gjort automatisk?
[Karl Ove Hufthammer]
har korleis affiksfila er laga og organisert veldig mykje å seia for kor raskt dette går. Har de planar om å forbetra affiksfila, og kva metodikk har de brukt for å bygga opp den gjeldande affiksfila?
Affix-fila ble laget før 2000, og ingen av dagens deltagere kjenner til hvordan den ble laget. Personlig har jeg ingen planer om å lære meg formatet eller forbedre den. Vet ikke hva andre har planer om.
Spørsmål to går på bygging av nye stavekontrollfiler. Eg har lyst til å bygga mine eigne stavekontrollfiler, berre basert på data frå Norsk ordbank (med autogenerering av genitivsformer, sjølvsagt).
Grunnen er at eg er fryktelig uinteressert i å bruka ein stavekontroll som inneheld ord som nokon folk *synest* burde vera med, men som verken står i Nynorskordboka eller Bokmålsordboka.
Lykke til. Jeg tror du har et urealistisk forhold til hvor komplett ordbanken er, men er interessert i å høre mer om hva du finner ut. Sjekk spesielt sammensatte ord, der ordbanken virker å ha kuttet det meste av kjente sammensetninger.
Kor enkelt vil dette vera for meg å få til dersom eg ikkje har behov for å støtta utdaterte format som ispell, men vil heller halda meg til aspell og hunspell (eller kanskje berre hunspell, om det er lettare)? Kort sagt vil eg berre mata ei lang lista over ord inn eit program/skript, og få ut ein stavekontroll i andre enden. Er dette mulig å få gjort automatisk?
Jeg ville byttet ut norsk.words i dagens stavekontrollpakke med listen over ord du vil ha med, og latt det ferdige byggesystemet ta seg av resten. Da får du støtte for det samme som dagens stavekontrollpakke, og slipper å finne ut av alt som må forstås for å lage et eget opplegg. :) Du trenger kun to "ordklasser" i norsk.words, B og * for henholdsvis bokmål og nynorsk.
Vennlig hilsen,
Petter Reinholdtsen:
Affix-fila ble laget før 2000, og ingen av dagens deltagere kjenner til hvordan den ble laget. Personlig har jeg ingen planer om å lære meg formatet eller forbedre den. Vet ikke hva andre har planer om.
Takk for informasjonen.
Grunnen er at eg er fryktelig uinteressert i å bruka ein stavekontroll som inneheld ord som nokon folk *synest* burde vera med, men som verken står i Nynorskordboka eller Bokmålsordboka.
Lykke til. Jeg tror du har et urealistisk forhold til hvor komplett ordbanken er, men er interessert i å høre mer om hva du finner ut.
Eg veit utmerka godt kor komplett/ukomplett Ordbanken er. Ordbanken har nøyaktig det Nynorskordboka og Bokmålsordboka har, og det er i utgangspunktet veldig bra. Eventuell støtte for (andre) samansette får komma seinare (og er veldig ønskjelig), då kanskje på eit (halv)automatisert vis.
Sjekk spesielt sammensatte ord, der ordbanken virker å ha kuttet det meste av kjente sammensetninger.
Det hadde berre vore eit poeng viss stavekontrollprosjektet hadde hatt særlig fleire samansettingar, og desse var av høg kvalitet. Slik synest det ikkje i dag. For det første verkar det veldig tilfeldig kva samansette ord som vert lagde til (og ein del «pussige» ord er med), og for det andre er det berre enkeltbøyingar av orda som vert lagde til, òg utan informasjon om kva type ord og bøying som vert brukte, noko som førerer til ein veldig inkonsekvent stavekontroll, og gjer det heller ikkje mogleg å utvikla ein grammatikkontroll eller liknande språkverktøy basert på databasen seinare.
For å ta eit tilfeldig eksempel: Stavenkontrollen (bokmål) inneheld no ordet «meditasjonsteknikker». Men verken grunnordet «meditasjonsteknikk», «meditasjonsteknikken» eller «meditasjonsteknikkene» er med.
Dette er kanskje spesielt uheldig for nynorsk, som jo kan ha mange ulike bøyingar av eitt og same ord. Når einskildbøyingar manglar, mistar eg tiltrua til stavekontrollen. Eg klarar lettare å leva med at det manglar eitt og anna samansett ord (og stavekontrollen kan etter det eg forstå òg settast opp til å godta samansette ord automatisk, sjølv om ein naturlig nok då vil risikera å få godtatt «ulovlige» ord).
Elles verkar det òg heller tilfeldig kva ord som er merkte som bokmålsord, nynorskord og fellesord («meditasjonsteknikk*» er for eksempel ikkje med i nynorskstavekontrollen).
Jeg ville byttet ut norsk.words i dagens stavekontrollpakke med listen over ord du vil ha med, og latt det ferdige byggesystemet ta seg av resten. Da får du støtte for det samme som dagens stavekontrollpakke, og slipper å finne ut av alt som må forstås for å lage et eget opplegg. :) Du trenger kun to "ordklasser" i norsk.words, B og * for henholdsvis bokmål og nynorsk.
OK. Eg får prøva det. So kan eg eventuelt sjå på affiksfila seinare, om det skulle visa seg nyttig.
Karl Ove Hufthammer skrev: (...)
Det hadde berre vore eit poeng viss stavekontrollprosjektet hadde hatt særlig fleire samansettingar, og desse var av høg kvalitet. Slik synest det ikkje i dag. For det første verkar det veldig tilfeldig kva samansette ord som vert lagde til (og ein del «pussige» ord er med), og for det andre er det berre enkeltbøyingar av orda som vert lagde til, òg utan informasjon om kva type ord og bøying som vert brukte, noko som førerer til ein veldig inkonsekvent stavekontroll, og gjer det heller ikkje mogleg å utvikla ein grammatikkontroll eller liknande språkverktøy basert på databasen seinare.
For å ta eit tilfeldig eksempel: Stavenkontrollen (bokmål) inneheld no ordet «meditasjonsteknikker». Men verken grunnordet «meditasjonsteknikk», «meditasjonsteknikken» eller «meditasjonsteknikkene» er med.
Dette er kanskje spesielt uheldig for nynorsk, som jo kan ha mange ulike bøyingar av eitt og same ord. Når einskildbøyingar manglar, mistar eg tiltrua til stavekontrollen. Eg klarar lettare å leva med at det manglar eitt og anna samansett ord (og stavekontrollen kan etter det eg forstå òg settast opp til å godta samansette ord automatisk, sjølv om ein naturlig nok då vil risikera å få godtatt «ulovlige» ord).
Elles verkar det òg heller tilfeldig kva ord som er merkte som bokmålsord, nynorskord og fellesord («meditasjonsteknikk*» er for eksempel ikkje med i nynorskstavekontrollen).
Mye av dette kan vel automatiseres? Vet noe av det ble gjort tidligere ... Selv heller jeg vel heller til at så lenge ordet er korrekt, der det bedre å ta det med. En eventuell grammatikkontroll er vel milevis unna, selv om det sikkert er kjekt å ha?
Jeg ville byttet ut norsk.words i dagens stavekontrollpakke med listen over ord du vil ha med, og latt det ferdige byggesystemet ta seg av resten. Da får du støtte for det samme som dagens stavekontrollpakke, og slipper å finne ut av alt som må forstås for å lage et eget opplegg. :) Du trenger kun to "ordklasser" i norsk.words, B og * for henholdsvis bokmål og nynorsk.
OK. Eg får prøva det. So kan eg eventuelt sjå på affiksfila seinare, om det skulle visa seg nyttig.
Ville vært veldig fint om du orker å dokumentere, eller iallfall nevne, hva du finner ut her på lista.
Som nevnt bør http://no.speling.org/stavekontroll-dokumentasjon.pdf dokumentere alt vi vet, selv om det er mange huller og ting som kan forbedres. For en kort innføring bare i selve byggeprosessen, se: http://no.speling.org/lagNyeOrdlister.html
-Axel
Onsdag 4. februar 2009 skreiv Axel Bojer:
Mye av dette kan vel automatiseres?
I utgangspunktet kan vel alt av genereringa av fullformsformer automatiserast; det er berre å velja retta paradigmekode for kvart grunnord. Definisjonane av paradigma er definert i paradigme*-filene i eksporten av Norsk ordbank.
Men det som manglar er programvare for generering av fullformene utfrå grunnformer. Dette har tydeligvis dei som arbeidar med Norsk ordbank, men det er ikkje tilgjengelig for oss.
En eventuell grammatikkontroll er vel milevis unna, selv om det sikkert er kjekt å ha?
Skal ein laga ein grammatikkontroll er ein orddatabase som Norsk ordbank nødvendig. «Lause» ord slik stavekontrolldatabasen inneheld er verdilaus til dette.
Men eg kjenner heller ikkje til nokon som arbeidar med ein fri grammatikkontroll.
[Karl Ove Hufthammer]
Men det som manglar er programvare for generering av fullformene utfrå grunnformer. Dette har tydeligvis dei som arbeidar med Norsk ordbank, men det er ikkje tilgjengelig for oss.
Mulig jeg er har misforstått her, men jeg trodde det var dette f.eks. ispell kunne gjøre, gitt en komplett affix-fil, når en bruker dem i expand-mode slik som dette:
% echo kvinne/ACDEFGHJR^uz | ispell -e kvinne kvinn kvinna kvinnelige kvinneaktige kvinnene kvinnelig kvinneaktig kvinnen kvinner kvinnes kvinnas kvinnenes kvinnens kvinners %
Hver av tegnene etter / representerer så vidt jeg har forstått bøyningsmønster som gjelder for grunnformen. Disse bøyningsmønstrene er definert i affix-fila.
Men eg kjenner heller ikkje til nokon som arbeidar med ein fri grammatikkontroll.
Håper noen velger å lage en slik snart. :)
Vennlig hilsen,
Onsdag 4. februar 2009 skreiv Petter Reinholdtsen:
Men det som manglar er programvare for generering av fullformene utfrå grunnformer. Dette har tydeligvis dei som arbeidar med Norsk ordbank, men det er ikkje tilgjengelig for oss.
Mulig jeg er har misforstått her, men jeg trodde det var dette f.eks. ispell kunne gjøre, gitt en komplett affix-fil, når en bruker dem i expand-mode slik som dette:
% echo kvinne/ACDEFGHJR^uz | ispell -e kvinne kvinn kvinna kvinnelige kvinneaktige kvinnene kvinnelig kvinneaktig kvinnen kvinner kvinnes kvinnas kvinnenes kvinnens kvinners %
Ein kan ikkje generera fullformer utan å veta kva paradigme eit ord kjem inn under. «kvinneaktig» er for eksempel ikkje ei bøying av «kvinne». Og «kvinn» er ikkje eingong eit ord!
Fullformene for kvinne er (på nynorsk):
kvinne kvinne subst fem appell eint ub kvinne kvinna subst fem appell eint bu kvinne kvinner subst fem appell fl ub kvinne kvinnor subst fem appell fl ub kvinne kvinnene subst fem appell fl bu kvinne kvinnone subst fem appell fl bu
[Karl Ove Hufthammer]
Ein kan ikkje generera fullformer utan å veta kva paradigme eit ord kjem inn under. «kvinneaktig» er for eksempel ikkje ei bøying av «kvinne». Og «kvinn» er ikkje eingong eit ord!
Jeg tror du misforstår hva jeg forsøker å si, når du velger å diskutere ordene i stedet for mekanismen. Dine kommentarer går jo ikke på mekanismen, men kvaliteten på affix-innholdet og listen med regler som skal anvendes på et gitt grunnord, som begge er irrelevante for mekanismen.
Mekanismen var det jeg forsøkte å forklare noe om, nemlig at den tar et grunnord og regler for å generere fullformer basert på grunnordene, og kommer med alle ordene, hvis affix-filen er komplett og korrekt, og riktig sett med regler assosieres med et gitt ord. Jeg antar en kan lage en affix-fil ut fra regelsettet til ordbanken, og dermed få tilsvarende mekanisme som det ordbanken har.
Takk for tipset om 'kvinn'. Har send negativ stemme inn for 'kvinn' på bokmål, slik at den blir fjernet fra stavekontrollen i framtiden, og antar nynorskkorrekturleserne fikser nynorskdelene.
Vennlig hilsen,
[Karl Ove Hufthammer]
Eg veit utmerka godt kor komplett/ukomplett Ordbanken er. Ordbanken har nøyaktig det Nynorskordboka og Bokmålsordboka har,
Snakker du her om Nynorskordboka og Bokmålsordboka på web? Jeg trodde ordbanken og de to ordbøkene på web var to separate databaser, og at det ikke var sjekket at de samme ordene er med der. Har jeg tatt feil?
Det hadde berre vore eit poeng viss stavekontrollprosjektet hadde hatt særlig fleire samansettingar, og desse var av høg kvalitet. Slik synest det ikkje i dag.
Fint at du kommer med konkrete tilbakemeldinger om hva som er galt. :)
For det første verkar det veldig tilfeldig kva samansette ord som vert lagde til (og ein del «pussige» ord er med),
Jeg har fått forklart at de ordene som er med er de som ble observert brukt i norske aviser da stavekontrolldatabasen ble til. Jeg tror dermed ikke det er tilfeldig. :)
og for det andre er det berre enkeltbøyingar av orda som vert lagde til, òg utan informasjon om kva type ord og bøying som vert brukte, noko som førerer til ein veldig inkonsekvent stavekontroll,
Hvordan ville tilgangen på alle bøyninger og informasjon om type ord og bøyning føre til bedre stavekontroll?
og gjer det heller ikkje mogleg å utvikla ein grammatikkontroll eller liknande språkverktøy basert på databasen seinare.
Helt enig. Ordbasen til stavekontrollen er laget for stavekontroll, og er nok lite egnet for annet bruk. :)
Finnes det fritt tilgjengelig gramatikkkontroll eller andre lignende språkverktøy som kunne vært tilpasset til bokmål og nynorsk, eller må det skrives først?
For å ta eit tilfeldig eksempel: Stavenkontrollen (bokmål) inneheld no ordet «meditasjonsteknikker». Men verken grunnordet «meditasjonsteknikk», «meditasjonsteknikken» eller «meditasjonsteknikkene» er med.
Takk for tipset. Har lagt de tre ordene inn i no.speling.org for bokmål, slik at de kommer inn i stavekontrollen ved neste oppdatering. Oppdatering av nynorsk-orddatabasen overlater jeg til noen som er bedre i nynorsk enn meg.
Elles verkar det òg heller tilfeldig kva ord som er merkte som bokmålsord, nynorskord og fellesord («meditasjonsteknikk*» er for eksempel ikkje med i nynorskstavekontrollen).
Jepp, det må nynorskfolk på banen for å få bedre stavekontroll for nynorsk. :)
Vennlig hilsen,
Onsdag 4. februar 2009 skreiv Petter Reinholdtsen:
[Karl Ove Hufthammer]
Eg veit utmerka godt kor komplett/ukomplett Ordbanken er. Ordbanken har nøyaktig det Nynorskordboka og Bokmålsordboka har,
Snakker du her om Nynorskordboka og Bokmålsordboka på web?
Ja. Eller dei trykte utgåvene. Innhaldet skal vera det same.
Jeg trodde ordbanken og de to ordbøkene på web var to separate databaser, og at det ikke var sjekket at de samme ordene er med der. Har jeg tatt feil?
Det er to separate databasar som vert representert på same sida. Den eine inneheld artikkeltekstane med eksempel på ord og forklaringar (høgrekolonnen), og den andre inneheld bøyingane (venstrekolonnen). Ordoppføringane i dei to basane er knytte saman, og skal vera identiske (sjølv om det sjølvsagt kan vera feil).
For det første verkar det veldig tilfeldig kva samansette ord som vert lagde til (og ein del «pussige» ord er med),
Jeg har fått forklart at de ordene som er med er de som ble observert brukt i norske aviser da stavekontrolldatabasen ble til. Jeg tror dermed ikke det er tilfeldig. :)
Då er det tilfeldig. Dette til orientering.
og for det andre er det berre enkeltbøyingar av orda som vert lagde til, òg utan informasjon om kva type ord og bøying som vert brukte, noko som førerer til ein veldig inkonsekvent stavekontroll,
Hvordan ville tilgangen på alle bøyninger og informasjon om type ord og bøyning føre til bedre stavekontroll?
Er ikkje det openbart? Viss stavekontrollen hadde hatt alle bøyingane av eit ord, ville han ikkje sagt ordforma som ikkje var feilstava var feilstava. Han ville heller ikkje komma ved forvirrande forslag om retting, som for eksempel at «meditasjonsteknikker» bør rettast til «meditasjonsteknikken».
Når det gjeld informasjon om type ord, vil dette berre vera til nytte for ein eventuell meir avansert stavekontroll (som for eksempel kan finna ut ordet «då» er feilstava sidan det berre står ein plass for eksempel ord som «få» kan gjera). Det var for øvrig ikkje det eg tenkte på.