Hei. Spell-norwegian-heimsida[1] seier at prosjektet inneheld:
* Affix rules (in ispell format, automatically transformed to aspell and myspell format).
Så då eg lasta ned ordbokpakka (no_NO-pack2-2.2.zip[2]), venta eg at dei affiksfilene som fylgde med, var ispell-kompatible. Og òg Readme-fila i denne pakka opplyser at det er ei Ispell-pakke: «README-file for the distribution of the Norwegian dictionaries for ISPELL.»
Men då eg køyrde Ispell sin hash-produksjonskommando[3], fekk eg melding om feil på fyrste line i affiks-fila. (Eg fek òg melding om feil i ordboka - men dette retta seg når eg sette lineskiftformat til MacOS format - spør meg ikkje kvifor.)
Grunnen til feilmeldinga for affiksfilene syner seg vera at dei affiks-filene som vert distribuerte i denne paka, er i Hunspell-format - og ikkje i Ispell-format.
Dei opphavlege - og Ispell-kompatible - affiks-filene, ligg i staden i spell-norwegian-pakka[4] og heiter "nn.aff.in" og "nb.aff.in". Då eg køyrde buildhash mot desse filene (iallfall galdt det bokmålsversjonen), gjekk det stort sett bra - men det kom nokre feilmeldingar (for orddboksord som hadde punktum i seg mm). Eg veit ikkje om dette kom av avgrensingar i Ispell eller om det kom av at ispell-affiksfilene ikkje har vore oppdaterte på ei stund eller om ordbøkene ikkje lenger er ispell-kompatible.
At sjølve ordbokpakka manglar affiksfiler i Ispell-format, ser ut til å ha vore tilfelle i mange år.
Framlegg (under føresetnad av at ispell og hunspell har same ordbokformat): Affiksfilene for både ispell og hunspell (og aspell?) bør distribuerast saman med ordboksfilene (og det bør gå fram av namnet på affiksfilene kva for eit affiksfilformat det er snakk om).
[1] http://no.speling.org/ [2] https://alioth.debian.org/frs/download.php/file/4168/no_NO-pack2-2.2.zip [3] buildhash nn_NO.dic nn_NO.aff nn_NO.hash [4] https://alioth.debian.org/frs/download.php/file/4167/spell-norwegian-2.2.tar...
Med venleg helsing Leif Halvard Silli
[Leif Halvard Silli]
Hei.
Hei og takk for at du tar kontakt med oss som bryr oss om den frie norske stavekontrollen. Den trenger flere som bryr seg og helst også folk med tid til å drive videreutvikling. :)
Spell-norwegian-heimsida[1] seier at prosjektet inneheld:
- Affix rules (in ispell format, automatically transformed to aspell and
myspell format).
Så då eg lasta ned ordbokpakka (no_NO-pack2-2.2.zip[2]), venta eg at dei affiksfilene som fylgde med, var ispell-kompatible. Og òg Readme-fila i denne pakka opplyser at det er ei Ispell-pakke: «README-file for the distribution of the Norwegian dictionaries for ISPELL.»
Her er nok egentlig feilen. 'for ISPELL' var nok riktig da README-fila ble skrevet for lenge siden, men nå er det for ispell, aspell, myspell og hunspell, og pack2-fila du lastet ned er så vidt jeg husker laget for å være OOo-kompatibel og ikke en ispell-fil. 'for ISPELL' bør nok fjernes fra overskriften for å minske sjansen for misforståelser. Vi lager ikke separat ispell-pakke for nedlasting. I hovedsak på grunn av at ispell er mest brukt på Linux og alle linux-distribusjoner jeg kjenner til inkluderer norsk stavekontroll for ispell selv og det dermed ikke er behov for en separat distribusjon fra stavekontrollprosjektet. Distribusjonene tar kildekodepakken og lager ispell-, aspell-, myspell- og hunspell-pakker til brukerne side.
Når det er sagt, Tør jeg spørre hvorfor du forsøker å bruke ispell? Det er jo det minst funksjonelle stavekontrollsystemet på Linux. Jeg innbiller meg at hunspell er det mest funksjonelle, slik at det kanskje er bedre å legge innsatsen der hvis du har et valg.
Dei opphavlege - og Ispell-kompatible - affiks-filene, ligg i staden i spell-norwegian-pakka[4] og heiter "nn.aff.in" og "nb.aff.in". Då eg køyrde buildhash mot desse filene (iallfall galdt det bokmålsversjonen), gjekk det stort sett bra - men det kom nokre feilmeldingar (for orddboksord som hadde punktum i seg mm). Eg veit ikkje om dette kom av avgrensingar i Ispell eller om det kom av at ispell-affiksfilene ikkje har vore oppdaterte på ei stund eller om ordbøkene ikkje lenger er ispell-kompatible.
Det kommer nok av at du har brukt råfiler som skal brukes under bygging av stavekontrollpakker, ikke selve aff-filene.
At sjølve ordbokpakka manglar affiksfiler i Ispell-format, ser ut til å ha vore tilfelle i mange år.
pack2-fila skal ikke ha, og har aldri hatt ispell-relevante filer.
Framlegg (under føresetnad av at ispell og hunspell har same ordbokformat): Affiksfilene for både ispell og hunspell (og aspell?) bør distribuerast saman med ordboksfilene (og det bør gå fram av namnet på affiksfilene kva for eit affiksfilformat det er snakk om).
Kan du forklare litt mer hva slags brukeropplevelse du tenker på? Når holder det ikke med Linux-distribusjonens egne pakker for norsk stavekontroll?
For å oppsummere:
no_NO-pack2-2.2.zip er en fil vi startet å lage da OpenOffice.org manglet norsk stavekontroll inkludert på Windows og Mac.
spell-norwegian-2.2.tar.gz er kildekoden til stavekontrollen og inneholder det som trengs for å bygge stavekontrollfiler til ulike konsumenter som ispell, aspell, myspell og hunspell. En må kjøre 'make' for å lage filene som konsumentene trenger, de finnes ikke i tarballen i ferdigbygget form.
On 29 Sep 2016, at 7:54, Petter Reinholdtsen wrote:
[Leif Halvard Silli]
Hei.
Hei og takk for at du tar kontakt med oss som bryr oss om den frie norske stavekontrollen. Den trenger flere som bryr seg og helst også folk med tid til å drive videreutvikling. :)
Eg vil gjerne yta min skjerv - over tid ...
Spell-norwegian-heimsida[1] seier at prosjektet inneheld:
- Affix rules (in ispell format, automatically transformed to aspell
and myspell format).
Så då eg lasta ned ordbokpakka (no_NO-pack2-2.2.zip[2]), venta eg at dei affiksfilene som fylgde med, var ispell-kompatible. Og òg Readme-fila i denne pakka opplyser at det er ei Ispell-pakke: «README-file for the distribution of the Norwegian dictionaries for ISPELL.»
Her er nok egentlig feilen. 'for ISPELL' var nok riktig da README-fila ble skrevet for lenge siden, men nå er det for ispell, aspell, myspell og hunspell, og pack2-fila du lastet ned er så vidt jeg husker laget for å være OOo-kompatibel og ikke en ispell-fil. 'for ISPELL' bør nok fjernes fra overskriften for å minske sjansen for misforståelser.
Dersom pack2 berre er meint å vera kompatible med Hunspell, burde innhald og innpakking vore reindyrka so dette var lett å forstå. Men då er det ikkje nok å berre byta ut overskrifta - også resten av innhaldet i den fila handlar om ISPELL. Endå tydlegare hadde det vore dersom ein gjekk over til UTF-8-format, som hunspell støttar, men ikkje ispell.
Er ordboksformatet ulikt for ispell og hunspell? Eg var under inntrykk av ordboksfilene var like, so lenge ein held seg til ISO-8859-1 og at det berre var affiksformata som var ulike. Dersom dei er like, so kunne ferdiglaga affiksfiler for ispell med føremun fylgd med i pack2.
(For meg ser ser ordboksfilene for ispell og hunspell ut til å vera like - eg køyrde iallfall denne kommandoen:
ispell -e -d ./mydict.hash < mydict.txt > mydict.wl
både mot nb_NO.dic frå pack2 med hjelp av nb.aff.in og mot den ordboka som make genererte, inkludert nb.aff som make generete, og fekk heilt like filer.)
Vi lager ikke separat ispell-pakke for nedlasting.
Ikkje dess mindre står det på heimsida at «Aspell and ispell packages are coming soon», sjå http://no.speling.org/#Download
I hovedsak på grunn av at ispell er mest brukt på Linux og alle linux-distribusjoner jeg kjenner til inkluderer norsk stavekontroll for ispell selv og det dermed ikke er behov for en separat distribusjon fra stavekontrollprosjektet. Distribusjonene tar kildekodepakken og lager ispell-, aspell-, myspell- og hunspell-pakker til brukerne side.
Kildekodepakken = 'spell-norwegian-2.2', forstår eg no.
Når det er sagt, Tør jeg spørre hvorfor du forsøker å bruke ispell? Det er jo det minst funksjonelle stavekontrollsystemet på Linux. Jeg innbiller meg at hunspell er det mest funksjonelle, slik at det kanskje er bedre å legge innsatsen der hvis du har et valg.
Eg la inn ispell fordi eg hadde bruk for å generera ei ordliste med alle bøygde av orda for bruk i eit anna ordlisteformat som generer ordlistene med hjelp av ordlister som innehald alle bøygde former. Eg freista å fylgja denne oppskrifta: http://www.xmlmind.com/xmleditor/_dictbuilder/doc/from_ispell.html
Eg har òg lagt inn Hunspell og har prøvd å skapa ei slik ordliste med hjelp av unmunch-verktyet.
Kommandoline: unmunch nb_NO.dic nb_NO.aff >bokmaal.txt
Eg burde kanskje dobbeltsjekka, men utfallet av denne kommanodoen ser ut til å vera ei mykje stuttare fil en den fila eg til slutt greidde å laga med hjelp av ISPELL og ISPELL sitt buildhash-verkty. Eg er difor ikkje uviss på om Hunspell sitt unmunch-verkty skapar ei ordliste som er so komplett som den ispell lagar.
Dei opphavlege - og Ispell-kompatible - affiks-filene, ligg i staden i spell-norwegian-pakka[4] og heiter "nn.aff.in" og "nb.aff.in". Då eg køyrde buildhash mot desse filene (iallfall galdt det bokmålsversjonen), gjekk det stort sett bra - men det kom nokre feilmeldingar (for orddboksord som hadde punktum i seg mm). Eg veit ikkje om dette kom av avgrensingar i Ispell eller om det kom av at ispell-affiksfilene ikkje har vore oppdaterte på ei stund eller om ordbøkene ikkje lenger er ispell-kompatible.
Det kommer nok av at du har brukt råfiler som skal brukes under bygging av stavekontrollpakker, ikke selve aff-filene.
Fila 'nb.aff.in' ser heilt ut som ei affiks fil. Eg køyrde make på kjeldekodepakka, og den einaste skilnaden på 'nb.aff.in' og 'nb.aff' syner seg å vera visse ting relatert til bokstavane îÎ (LATIN SMALL LETTER I WITH CIRCUMFLEX og LATIN CAPITAL LETTER I WITH CIRCUMFLEX). Det med iI med sirkumfleks virkar litt som ein feil - men det er jo berre ei gissing frå mi side.
Kvar er forresten det norske ispell-prosjektet? Ligg det norske ispell-prosjektet eigentleg ligg her?: http://spell-no.sourceforge.net/
At sjølve ordbokpakka manglar affiksfiler i Ispell-format, ser ut til å ha vore tilfelle i mange år.
pack2-fila skal ikke ha, og har aldri hatt ispell-relevante filer.
(Sjå eventuelt det eg har sagt/spurd om ovanfor.)
Framlegg (under føresetnad av at ispell og hunspell har same ordbokformat): Affiksfilene for både ispell og hunspell (og aspell?) bør distribuerast saman med ordboksfilene (og det bør gå fram av namnet på affiksfilene kva for eit affiksfilformat det er snakk om).
Kan du forklare litt mer hva slags brukeropplevelse du tenker på?
Eg tenkjer på den brukaropplevinga ein får når ein kjem til http://no.speling.org og les det som står der og deretter lastar ned filene ifrå https://alioth.debian.org/frs/?group_id=30577. Kanskje er http://no.speling.org noko av det viktigaste å oppdatere ...
Når holder det ikke med Linux-distribusjonens egne pakker for norsk stavekontroll?
Tja. På Mac har ein t.d. homebrew (http://brew.sh) og på Windows har ein Scoop (http://scoop.sh) som let deg installera all slag unix/linux-program. Til dømes kan ein slik installera ispell og hunspell etc. Iallfall på Mac er brew svært populært, slik eg oppfattar det.
For å oppsummere:
no_NO-pack2-2.2.zip er en fil vi startet å lage da OpenOffice.org manglet norsk stavekontroll inkludert på Windows og Mac.
OK.
spell-norwegian-2.2.tar.gz er kildekoden til stavekontrollen og inneholder det som trengs for å bygge stavekontrollfiler til ulike konsumenter som ispell, aspell, myspell og hunspell. En må kjøre 'make' for å lage filene som konsumentene trenger, de finnes ikke i tarballen i ferdigbygget form.
Hjå meg gjekk det OK å køyra make fram til eg fekk denne meldinga:
make: *** [nb.mch] Error 1
Leif Halvard Silli
[Leif Halvard Silli]
Eg vil gjerne yta min skjerv - over tid ...
Hurra!
Er ordboksformatet ulikt for ispell og hunspell?
Jeg husker ikke. :)
Ikkje dess mindre står det på heimsida at «Aspell and ispell packages are coming soon», sjå http://no.speling.org/#Download
Heh, lurer på hvem som har lagt inn det. :)
Eg la inn ispell fordi eg hadde bruk for å generera ei ordliste med alle bøygde av orda for bruk i eit anna ordlisteformat som generer ordlistene med hjelp av ordlister som innehald alle bøygde former.
Det høres ut som om du ville være bedre tjent med å starte med norsk.words og hente ut fullformlista fra den.
Kvar er forresten det norske ispell-prosjektet? Ligg det norske ispell-prosjektet eigentleg ligg her?: http://spell-no.sourceforge.net/
Nei, <URL: https://alioth.debian.org/projects/spell-norwegian/ > er stedet. Det finnes så vidt jeg vet bare et prosjekt for fritt tilgjengelig stavekontroll på bokmål og nynorsk, som blant annet tilbyr ispell-støtte.
Jeg har vage minner om at <URL: http://spell-no.sourceforge.net/ > og <URL: https://sourceforge.net/projects/spell-no/ > var et forsøk av en som ville lage synonymordbok, men jeg husker ikke noe spesielt rundt dette.
Hjå meg gjekk det OK å køyra make fram til eg fekk denne meldinga:
make: *** [nb.mch] Error 1
Kanskje du mangler noen avhengigheter. Se f.eks. hva Debian-pakken trenger for å bygge, <URL: https://packages.qa.debian.org/n/norwegian.html >
Mitt problem er at jeg har for mange prosjekter jeg er involvert i, og stavekontrollen er et godt stykke ned på prioriteringslisten for tiden.
"Leif Halvard Silli" verktystell@russisk.no čálii:
Eg la inn ispell fordi eg hadde bruk for å generera ei ordliste med alle bøygde av orda for bruk i eit anna ordlisteformat som generer ordlistene med hjelp av ordlister som innehald alle bøygde former.
Då trur eg det blir lettare å gå rett til kjelda: https://savannah.nongnu.org/projects/ordbanken/
On 29 Sep 2016, at 15:11, Kevin Brubeck Unhammer wrote:
"Leif Halvard Silli" verktystell@russisk.no čálii:
Eg la inn ispell fordi eg hadde bruk for å generera ei ordliste med alle bøygde av orda for bruk i eit anna ordlisteformat som generer ordlistene med hjelp av ordlister som innehald alle bøygde former.
Då trur eg det blir lettare å gå rett til kjelda: https://savannah.nongnu.org/projects/ordbanken/
Sjå det! Hjarteleg takk for tipset - det skal eg verkeleg sjå på. Det er løye kor god hjelp det er i å snakka saman!
[Kevin Brubeck Unhammer]
Då trur eg det blir lettare å gå rett til kjelda: https://savannah.nongnu.org/projects/ordbanken/
Ja, hvis han ikke trenger sammensatte ord. I så fall er ordbanken en dårlig kilde. Eller har de begynt å ta inn mye brukte sammensetninger nå?
Og for å ikke forvirre noen, ordbanken fra UiO er en av flere kilder til ord i den norske stavekontrollen. "rett til kilden" kan gi inntrykk av at det er kilden til den norske stavekontrollen, og det er langt fra tilfellet.
On 29 Sep 2016, at 15:54, Petter Reinholdtsen wrote:
[Kevin Brubeck Unhammer]
Då trur eg det blir lettare å gå rett til kjelda: https://savannah.nongnu.org/projects/ordbanken/
Ja, hvis han ikke trenger sammensatte ord. I så fall er ordbanken en dårlig kilde. Eller har de begynt å ta inn mye brukte sammensetninger nå?
Dette er eg usikker på. Det ordboksprogrammet det er snakk om har ein funksjon for samansette ord som går ut på at ein kan setja ei grense for kor få bokstavar det kan vera i ord som kan hektast på andre ord. Det er jo ein helt generell funksjon der du t.d. set grensa til 3 teikn. Då burde programmet, til dømes, godta 'tilsvininga' men ikkje 'utsvinginga'. Som generell funksjon har det ikkje noko metainformasjon om det einskilde ordet å gjera.
Kva med t.d. Hunspell og Ispell? Kan dei lagra info om kva slag ord som er lov å setja saman?
Og for å ikke forvirre noen, ordbanken fra UiO er en av flere kilder til ord i den norske stavekontrollen. "rett til kilden" kan gi inntrykk av at det er kilden til den norske stavekontrollen, og det er langt fra tilfellet.
Greitt å ha med seg!