Jeg har laget en testutgave av stavekontroll-pakken, etter å ha skrevet om mye av byggereglene samt tatt inn regler for aspell og myspell basert på Debian-pakken.
Jeg tror det er lurt å gi ut det vi har nå, før vi tar i bruk den nye orddatabasen, slik at vi har noe å falle tilbake på.
En testutgave er tilgjengelig fra URL:http://folk.uio.no/pre/spell-norwegian-2.0.0.test.20051229.tar.gz. Kan dere teste denne og melde ifra om den fungerer eller ikke, så skal jeg lage en ordentlig utgivelse når jeg ser tilbakemeldingene.
CC til vedlikeholderen i Debian, som jeg håper kan teste om det lar seg gjøre å bygge debian-pakker fra denne. :)
Vennlig hilsen,
[Petter Reinholdtsen]
En testutgave er tilgjengelig fra URL:http://folk.uio.no/pre/spell-norwegian-2.0.0.test.20051229.tar.gz. Kan dere teste denne og melde ifra om den fungerer eller ikke, så skal jeg lage en ordentlig utgivelse når jeg ser tilbakemeldingene.
I prosessen med å teste dette på RH sammen med Kjartan Maraas, så oppdaget jeg endelig hva det mystiske formatet som rådatafilen i stavekontrollen er laget på er. .sq er ikke et undelig ispell-spesifikk dataformat, det er et arkaisk komprimerings-system kalt squeeze. Når filen ble pakket ut (med unsq), så var det jo åpenbart hvordan en legger inn nye ord. :)
Jeg har nå pakket ut filen i CVS, og foreslår at vi lar gzip av kildekodepakken ta seg av komprimeringen heretter. :)
Da jeg endelig har forstått hvordan en legger inn nye ord i stavekontrolle, så har jeg benyttet sjansen til å legge inn endel av de som manglet. Det er dog ikke nok å legge inn slike manuelt. Vi trenger den korrekturlesingen som Håvard har fått på bena for å sjekke de ordene vi allerede har, og vi trenger frekvensinformasjon for å vite hvilke ord som skal være med.
Jeg har også oppdatert missing.nb med en rekke ord som jeg fant i ~/.ispell_norsk, dvs. ord som noen har lagt inn som ekstra ord til ispell. Der bør alle ord som mangler legges inn først.
Nye ord i stavekontrollen legges inn ved å oppdatere norsk.words, og formatet er beskrevet på toppen. Når det gjelder frekvenstallet, så jeg har brukt tall like over den nye grenseverdien for å sikre at ordene blir med i stavekontrollen for bokmål. Men vi trenger ekte frekvensinfo for å gjøre dette skikkelig.
Noen protester på at jeg gir ut det vi har nå som versjon 2.1 av stavekontrollen? Her er de endringene jeg har notert i NEWS-filen:
Release 2.1 (2005-12-XX)
* Now being group maintained on Alioth. * Updated package to use new email address for Rune Kleveland. * Rewrote build rules based on Debian patches, to make it easier to make binary packages based on this source. * Rewrite build rules to use the language codes 'nb' and 'nn' instead of 'norsk' and 'nynorsk'. * Added build rules for aspell and myspell, based on the rules in the debian package. * Started on myspell (OOo) thesaurus files for bokmål (nb). * Added new script 'bokmaal', capable of looking up words on the web service available from URL:http://www.dokpro.uio.no/. * Lower the nb frequence cutoff point fom >9 to >7, to get more words included in the spell check systems.
* New words: - DVD (nb,nn). - Internett (nb,nn), internett-* (nb,nn). - internett-leverandør (nb,nn), internett-leverandøren (nb), internett-leverandører (nb). - navne-tjener (nb), navne-tjenere (nb), navne-tjeneren (nb). - Reinholdtsen (nb,nn). - sikkerhets-oppdatering (nb), sikkerhets-oppdateringen (nb), sikkerhets-oppdateringene (nb). - Skolelinux (nb), Skulelinux (nn). * Changed words: - Internett-adressene: freq ""->8, to make it visible as a nb word. - Linux: freq 0->8 - Linux-*: freq 0->8
Petter Reinholdtsen skrev:
I prosessen med å teste dette på RH sammen med Kjartan Maraas, så oppdaget jeg endelig hva det mystiske formatet som rådatafilen i stavekontrollen er laget på er. .sq er ikke et undelig ispell-spesifikk dataformat, det er et arkaisk komprimerings-system kalt squeeze. Når filen ble pakket ut (med unsq), så var det jo åpenbart hvordan en legger inn nye ord. :)
Jeg har nå pakket ut filen i CVS, og foreslår at vi lar gzip av kildekodepakken ta seg av komprimeringen heretter. :)
Hvis du sorterer ordlisten inden du hælder den gennem `sq`, så er det _langt_ mere effektivt end bare at bruge `gzip` eller `bzip2`.
Jacob
[Jacob Sparre Andersen]
Hvis du sorterer ordlisten inden du hælder den gennem `sq`, så er det _langt_ mere effektivt end bare at bruge `gzip` eller `bzip2`.
Da jeg så på størrelsesforskjellene, så var den sorterte originalfilen 14 MiB, .sq-filen 6 MiB og .gz-filen 2 MiB. gzip virker da bedre enn .sq, selv om ordlisten er sortert.
Uansett blir det mye enklere å vedlikeholde kildekoden hvis den ikke har et ekstra lag med komprimering, sa jeg ønsker å la filen være ukomprimert i CVS og kildekodepakken.
Da er ny utgave av stavekontrollen gitt ut. Den er tilgjengelig fra URL:https://alioth.debian.org/projects/spell-norwegian/. Det er muligens noe galt med byggereglene for aspell, men jeg fant ikke ut av det og sender den derfor ut for mer debugging.
Vi bør kanskje sende ut en pressemelding om at vi nå endelig har fått orden på videreutvikling av stavekontrollen for bokmål og nynorsk, da det jo har vært endel klager over kvaliteten på stavekontrollen, og de som har slike klager bør vite hvor de bør sende sine forslag?
Her er utdrag fra NEWS-filen:
Release 2.0.1 (2005-12-31)
* Now being group maintained on Alioth. * Updated package to use new email address for Rune Kleveland. * Rewrote build rules based on Debian patches, to make it easier to make binary packages based on this source. * Rewrite build rules to use the language codes 'nb' and 'nn' instead of 'norsk' and 'nynorsk'. * Added build rules for aspell and myspell, based on the rules in the debian package. * Started on myspell (OOo) thesaurus files for bokmål (nb). * Added new script 'bokmaal', capable of looking up words on the web service available from URL:http://www.dokpro.uio.no/. * Lower the nb frequence cutoff point from >9 to >0, to get more words included in the spell check systems for nb.
* New words: - DVD (nb,nn). - fil-rettighet (nb), fil-rettigheten (nb), fil-rettigheter (nb) - ignoranse (nb). - Internett (nb,nn), internett-* (nb,nn). - internett-leverandør (nb,nn), internett-leverandøren (nb), internett-leverandører (nb). - kontrakts-forslag (nb), kontrakts-forslaget (nb). - krypto (nb). - navne-tjener (nb), navne-tjenere (nb), navne-tjeneren (nb). - Reinholdtsen (nb,nn). - sikkerhets-oppdatering (nb), sikkerhets-oppdateringen (nb), sikkerhets-oppdateringene (nb). - Skolelinux (nb), Skulelinux (nn). - Skolelinuxprosjektet (nb), Skulelinuxprosjektet (nn). * Changed words: - Internett-adressene: freq ""->2, to make it visible as a nb word. - Linux: freq 0->2 - Linux-*: freq 0->2 - rekursiv: req 0->2
Jeg la ut nok en ny stavekontroll i går, versjon 2.0.0. Den er tilgjengelig fra URL:https://alioth.debian.org/projects/spell-norwegian/. Det er fortsatt muligens noe galt med byggereglene for aspell.
Her er endringene siden 2.0.1:
* Corrected myspell dict file count line. * Made it easier to replace 'echo -e' for platforms where -e is not a valid option to echo. * Added 'install-doc' target to install documentation files. * Install ispell dictionaries using 'nb' and 'nn' names, and make symlinks to these from the old names. * Add script and make rule 'freq-update' to update the frequency information based on data from NTA, URL:http://helmer.aksis.uib.no/nta/.
* New words: - fremover (nb). - Internet (nb,nn). - internettet (nb). - sær-emne (nb). - vassdrags-tiltak (nb).
* Changed words: - Updated lots of words with freq 0 to the freq value provided from NTA. This added 9787 words to the nb list. - Update frequency information for all new words in 2.0.1. Set to '1' for words not available from NTA, to make sure they are included in the nb dictionary.
Jeg synes fortsatt vi bør sende ut en pressemelding om dette og informere om hvordan en skal melde fra om feil og forslag til forbedringer i stavekontrollen.
Håvard, burde vi ha en webside ala URL:http://da.speling.org/fejlmelding/?
Og kan noen snart fortelle hvor det blir av ordene jeg sender inn til korrektur (at) nb.speling.org, og når de kommer på web eller i CVS?
Torsdag 5. januar 2006 11:17 skreiv Petter Reinholdtsen:
* New words: - fremover (nb). - Internet (nb,nn).
Dette er då ikkje rett. Internett *skal* skrivast med dobbeltkonsonant, og Internet er feil.
- internettet (nb).
Dette er òg feil. Internettet er ei gyldig form, men skal ha stor I.
- sær-emne (nb).
Dette bør vel skrivast i eitt ord? Det er iallfall det som er vanlig.
- vassdrags-tiltak (nb).
Igjen i eitt ord.
Torsdag 5. januar 2006 11:17 skreiv Petter Reinholdtsen:
* New words: - fremover (nb). - Internet (nb,nn).
Dette er då ikkje rett. Internett *skal* skrivast med dobbeltkonsonant, og Internet er feil.
- internettet (nb).
Dette er òg feil. Internettet er ei gyldig form, men skal ha stor I.
- sær-emne (nb).
Dette bør vel skrivast i eitt ord? Det er iallfall det som er vanlig.
- vassdrags-tiltak (nb).
Igjen i eitt ord.
Bra å få tilbakemelding. Kanskje du vil være med som korrekturleser av stavekontrollen?
[Karl Ove Hufthammer]
Dette er då ikkje rett. Internett *skal* skrivast med dobbeltkonsonant, og Internet er feil.
Derom strides visst de lærde. Jeg mener at 'Internet' er et egennavn fra USA, mens noen mener det er et ord som skal oversettes til 'Internett'.
- internettet (nb).
Dette er òg feil. Internettet er ei gyldig form, men skal ha stor I.
Det kommer vel an på om en snakker om det store verdensomspennende eller et tilfeldig valgt nett satt sammen av mange nett. Med liten forbokstav er det det siste.
- sær-emne (nb).
Dette bør vel skrivast i eitt ord? Det er iallfall det som er vanlig.
- vassdrags-tiltak (nb).
Igjen i eitt ord.
Med forbehold om at jeg har misforstått byggesystemet, så er ikke bindestreken her noe annet en markør for å vise hvilke ord som utgjør det sammensatte ordet, dvs. at det ikke er en tekstlig bindestrek. Dog har jeg ikke helt forstått alt dette ennå, så jeg tar gjerne imot hjelp til å finne ut av det. :)
Torsdag 5. januar 2006 12:10 skreiv Petter Reinholdtsen:
Bra å få tilbakemelding. Kanskje du vil være med som korrekturleser av stavekontrollen?
Nei.
Dette er då ikkje rett. Internett *skal* skrivast med dobbeltkonsonant, og Internet er feil.
Derom strides visst de lærde.
Nei, dei lærde er faktisk einige om dette; det er (nokon få) andre som strides.
Jeg mener at 'Internet' er et egennavn fra USA, mens noen mener det er et ord som skal oversettes til 'Internett'.
Det er eit særnamn frå USA, men særnamn heiter ofte andre ting på norsk. Det er for eksempel feil å ta inn ord som France, Pacific Ocean og 北京 i ordboka. På norske heiter dette Frankrike, Stillehavet og Beijing. Dei er like fullt særnamn.
Og det er vedtatt av Språkrådet at Internett *skal* heita Internett eller Internettet på norsk. Alt anna blir feil. (Og det er spesielt ille at ei *ordbok* skal innehelda slike feil.)
- internettet (nb).
Dette er òg feil. Internettet er ei gyldig form, men skal ha stor I.
Det kommer vel an på om en snakker om det store verdensomspennende eller et tilfeldig valgt nett satt sammen av mange nett. Med liten forbokstav er det det siste.
Ja, det har du rett i. Men då er det snakk om bestemt form av ordet «internett», med bøying som «nett» (og som *bør* vera med i ordboka).
Med forbehold om at jeg har misforstått byggesystemet, så er ikke bindestreken her noe annet en markør for å vise hvilke ord som utgjør det sammensatte ordet, dvs. at det ikke er en tekstlig bindestrek.
OK. Vil dette altso seia at me ikkje kan ha med ord som inneheld bindestrek i ordlista? Eksempel: e-post, u-land, p-pille.
OK. Vil dette altso seia at me ikkje kan ha med ord som inneheld bindestrek i ordlista? Eksempel: e-post, u-land, p-pille.
I Evolution har ein byrja å skriva "email" i staden for "e-mail". Eg hadde gjerne sett at det same vart gjort på norsk, men det må vel gjennom Språkrådet det også?
Åsmund Skjæveland skreiv:
OK. Vil dette altso seia at me ikkje kan ha med ord som inneheld bindestrek i ordlista? Eksempel: e-post, u-land, p-pille.
I Evolution har ein byrja å skriva "email" i staden for "e-mail".
Og merk at dette står i engelske ordbøker (eks. OED og Collins).
Eg hadde gjerne sett at det same vart gjort på norsk, men det må vel gjennom Språkrådet det også?
Ja. Og det tvilar eg på at går, iallfall med det første. Sjå elles:
http://www.sprakrad.no/templates/Page.aspx?id=634#e-post2 og http://www.sprakrad.no/templates/Page.aspx?id=168 (siste avsnitt)
Sjølv likar eg «e-post» godt.
tor, 05,.01.2006 kl. 15.15 +0100, skrev Karl Ove Hufthammer:
Åsmund Skjæveland skreiv:
Og merk at dette står i engelske ordbøker (eks. OED og Collins).
Eg hadde gjerne sett at det same vart gjort på norsk, men det må vel gjennom Språkrådet det også?
Ja. Og det tvilar eg på at går, iallfall med det første. Sjå elles:
http://www.sprakrad.no/templates/Page.aspx?id=634#e-post2 og http://www.sprakrad.no/templates/Page.aspx?id=168 (siste avsnitt)
Æh. Slik jeg ser det, vil ordet «epost» komme inn i språket som en vanlig forkortelse av «e-post». «e-post» er langt mer brukt enn de andre eksemplene språkrådet har nevnt, og kunne bli forkortet på samme måte som «ubåt» og andre sammensatte ord som etter hvert mister bindestreken.
Synes også det blir litt rart når «e-post» blir satt sammen med andre ord til for eksempel «e-post-melding» eller «e-postmelding». De to bindestrekene får ulik betydning, eventuelt er den riktig plassert? Synes «epost-melding» ser bedre ut. Eller er det andre og bedre måter å skille mellom spesifikk («en e-post») og uspesifikk («e-post» generelt) bruk av ordet?
Men betyr det at man skal tillate «epost» i ordlista? Tja.
Harald
Fredag 6. januar 2006 15:38 skreiv Harald Thingelstad:
Æh. Slik jeg ser det, vil ordet «epost» komme inn i språket som en vanlig forkortelse av «e-post».
Det kan vera. Men i omsetjingane av KDE og annan fri programvare bør me bruka offisiell norsk rettskriving. Om «epost» éin eller annan gong i framtida kjem inn i rettskrivinga, kan me eventuelt vurdera å gå over til dette då.
Synes også det blir litt rart når «e-post» blir satt sammen med andre ord til for eksempel «e-post-melding» eller «e-postmelding». De to bindestrekene får ulik betydning, eventuelt er den riktig plassert?
Det er berre den siste forma som er korrekt. Og det er den me brukar i omsetjingane (men *veldig* ofte vil berre «e-post» eller «melding» vera heilt dekkande, og den beste omsettinga).
Men betyr det at man skal tillate «epost» i ordlista? Tja.
Nei, IMNSHO.
Fredag 06 januar 2006 15:59, skrev Karl Ove Hufthammer:
Men i omsetjingane av KDE og annan fri programvare bør me bruka offisiell norsk rettskriving. Om «epost» éin eller annan gong i framtida kjem inn i rettskrivinga, kan me eventuelt vurdera å gå over til dette då.
Et google-søk gav 9.620.000 treff på «e-post», og 3.910.000 treff på «epost». Nettaviser, dokumenter og en rekke nettsider bruker «e-post» som hovedregel. Reklame og typiske IT-sider har et stort innslag av den uriktige forkortelsen «epost». Det spesielle var at det faktisk stor Epost med stor E på mange sider. Dette er bare helt feil. e-post er ikke et egennavn. Eksempel:
http://www.usit.uio.no/it/hjelp/e-post/eudora/eudoratips/forsvunnenEpost.htm...
Denne siden har både e-post og Epost:
http://www.fjordkraft.no/servlet/se.ementor.econgero.servlet.presentation.Ma...
Så la oss holde oss til e-post som avløserord som det også står i Bokmålsordboka til dokpro-prosjektet på Universitetet i Oslo.
- Knut
[Karl Ove Hufthammer]
Det er eit særnamn frå USA, men særnamn heiter ofte andre ting på norsk. Det er for eksempel feil å ta inn ord som France, Pacific Ocean og ?????? i ordboka. På norske heiter dette Frankrike, Stillehavet og Beijing. Dei er like fullt særnamn.
Ingen av eksemplene er navn på ting fra USA, men navn der Norge har hatt direkte kontakt utenom USA.
Navn på byer og personer i USA, f.eks. San Francisco, Los Angeles, Bush og Moore, blir ikke oversatt.
Ja, det har du rett i. Men då er det snakk om bestemt form av ordet «internett», med bøying som «nett» (og som *bør* vera med i ordboka).
Ja, det var det ordet jeg håper jeg la inn. Hvis det ikke var det som skjedde, så vil jeg gjerne opplyses om hvordan jeg skulle lagt det inn.
OK. Vil dette altso seia at me ikkje kan ha med ord som inneheld bindestrek i ordlista? Eksempel: e-post, u-land, p-pille.
Hvis jeg forstår det korrekt, så er det ikke mulig å legge inn ord med bindestrek i dagens stavekontrollsystem. Jeg håper det blir bedre med det nye opplegget.
Torsdag 5. januar 2006 15:25 skreiv Petter Reinholdtsen:
Det er eit særnamn frå USA, men særnamn heiter ofte andre ting på norsk. Det er for eksempel feil å ta inn ord som France, Pacific Ocean og ?????? i ordboka. På norske heiter dette Frankrike, Stillehavet og Beijing. Dei er like fullt særnamn.
Ingen av eksemplene er navn på ting fra USA, men navn der Norge har hatt direkte kontakt utenom USA.
Om særnamn kjem frå USA eller frå andre plassar er då revnande likegyldig (med unntak av at ord skriven med det latinske alfabetet kan brukast direkte på norsk, utan transkribering).
Navn på byer og personer i USA, f.eks. San Francisco, Los Angeles, Bush og Moore, blir ikke oversatt.
Mens for eksempel
Appalachane Sacramentoelva Marshalløyane Niagarafossen Nord-Dakota og ikkje minst Det kvite huset
*blir* omsett til norsk (nokre av desse er òg lovlige med engelsk skrivemåte).
Men alt dette er irrelevant. Det viktige er at på norsk er Internett/Internettet einaste korrekte former for orda, mens Internet/Internetet ikkje er det, og har ingenting i ein stavekontroll å gjera.
Ja, det har du rett i. Men då er det snakk om bestemt form av ordet «internett», med bøying som «nett» (og som *bør* vera med i ordboka).
Ja, det var det ordet jeg håper jeg la inn. Hvis det ikke var det som skjedde, så vil jeg gjerne opplyses om hvordan jeg skulle lagt det inn.
Skulle du ikkje lagt inn ordet «internett», med dei fire bøyingane, og ikkje enkeltordet «internettet»?
Eg har ikkje peiling på korleis dette skal gjerast, då dette stavekontrollprosjektet ikkje interesserer meg serlig.
[Petter Reinholdtsen]
Håvard, burde vi ha en webside ala URL:http://da.speling.org/fejlmelding/?
Hm, det ser ut til at webskjemaet som var der nettopp er blitt byttet ut med en ren tekstside som ber folk sende mail. Aner ikke hvorfor, men det jeg forsøkte å spørre om var om vi skulle ha et webskjema der folk kunne sende inn korreksjoner.
Og kan noen snart fortelle hvor det blir av ordene jeg sender inn til korrektur (at) nb.speling.org, og når de kommer på web eller i CVS?
Håper fortsatt noen kan svare på dette.
Petter Reinholdtsen skrev:
[Petter Reinholdtsen]
Håvard, burde vi ha en webside ala URL:http://da.speling.org/fejlmelding/?
Hm, det ser ut til at webskjemaet som var der nettopp er blitt byttet ut med en ren tekstside som ber folk sende mail. Aner ikke hvorfor, men det jeg forsøkte å spørre om var om vi skulle ha et webskjema der folk kunne sende inn korreksjoner.
Det bør vi absolutt ha. Om vi skal ha eit skjemabasert web-grensesnitt eller om vi skal be folk sende e-post er ei anna sak. Vi bør strebe etter å få til eit web-grensesnitt. Problemet mitt er at web-design er ikkje akkurat mi sterke side.
Og kan noen snart fortelle hvor det blir av ordene jeg sender inn til korrektur (at) nb.speling.org, og når de kommer på web eller i CVS?
Håper fortsatt noen kan svare på dette.
Dette er noko eg treng litt hjelp til. Eg får laga statistikkar som vert lagt på mitt web-område på tyge (tyge.sslug.dk/~korsvoll). Men eg veit ikkje korleis eg skal setje det opp slik at vi får vist det på ei web-side.
Håvard