Hei
No har eg laga eit forbetra e-postmottak i perl på speling.org. Det betyr at vi kan ta i mot quoted-printable. Alle teiknesett blir omgjort til UTF-8 og alt blir lagra som UTF-8 i kjeldefila.
Det skal ikkje vere så vanskeleg å lage meir sofistikert mottaksrutine i perl der ein sorterer ut e-postar frå adresser som ikkje er i korrekturlesarlista.
Håvard
[Håvard Korsvoll]
No har eg laga eit forbetra e-postmottak i perl på speling.org. Det betyr at vi kan ta i mot quoted-printable. Alle teiknesett blir omgjort til UTF-8 og alt blir lagra som UTF-8 i kjeldefila.
Hurra. Genialt. Da skal jeg endre mine biter slik at de er forberedt på å finne UTF-8 i source.gz. Har du fikset Q-P-tegnene i kildekodefilen? Her er de transformasjonene jeg har måttet gjøre på nb-filen for å kompensere for feil:
$(SED) -e s/=f8/ø/g \ -e s/=F8/ø/g \ -e s/=E5/å/g \ -e s/=3D/=/g \ -e s/=E6/æ/g \ -e 's/, =//g' \ -e 's/forvrengt./forvrengt,/g' \ -e 's/SYNONYM: språk=vitenskap/SYNONYM: språkvitenskap/g' \ -e 's/SYNONYM: overdimensjonert; rommelig; ruvende; stor; svær; uhyrlig/SYNONYM: overdimensjonert, rommelig, ruvende, stor, svær, uhyrlig/g' \
Det skal ikkje vere så vanskeleg å lage meir sofistikert mottaksrutine i perl der ein sorterer ut e-postar frå adresser som ikkje er i korrekturlesarlista.
Nydelig. Jeg foreslår at vi utsetter det til vi ser at det er nødvendig. Jeg tror ikke vi kommer til å bli utsatt for sabotasje med det første.
[Petter Reinholdtsen]
Hurra. Genialt. Da skal jeg endre mine biter slik at de er forberedt på å finne UTF-8 i source.gz.
Jeg tok en titt, og vil bruke 'iconv' for å få iso-8859-1 inntil videre.
Har du fikset Q-P-tegnene i kildekodefilen? Her er de transformasjonene jeg har måttet gjøre på nb-filen for å kompensere for feil:
Nå var den nye versjonen dukket opp, så jeg fikk sammenlignet. Det ser ut til at det meste er korrigert, unntatt denne endringen i et synonymfelt: 's/forvrengt./forvrengt,/g'.
Det ser forresten ut til at UTF-konverteringen har gått galt. Når jeg tester med 'iconv -f utf-8 -t iso-8859-1 < source-nb |tail', så får jeg beskjed om 'conv: ulovlig inndatasekvens ved posisjon 32230'.
Det er 'WORD: Ã dal' iconv påstår ikke er UTF-8. Det skulle stått ødal, tror jeg. Konverteringen din har feilet på ett eller annet vis.
Det ser forresten ut til at korrekturlesingsmailene bør endres til å fortelle at den sender ut UTF-8. Jeg fikk en mail med 'ø' i idag, og mailprogrammet viste det ikke fram korrekt.
[Petter Reinholdtsen]
Hurra. Genialt. Da skal jeg endre mine biter slik at de er forberedt på å finne UTF-8 i source.gz.
Jeg tok en titt, og vil bruke 'iconv' for å få iso-8859-1 inntil videre.
Har du fikset Q-P-tegnene i kildekodefilen? Her er de transformasjonene jeg har måttet gjøre på nb-filen for å kompensere for feil:
Nå var den nye versjonen dukket opp, så jeg fikk sammenlignet. Det ser ut til at det meste er korrigert, unntatt denne endringen i et synonymfelt: 's/forvrengt./forvrengt,/g'.
Stemmer, den har eg nok gløymd.
Det ser forresten ut til at UTF-konverteringen har gått galt. Når jeg tester med 'iconv -f utf-8 -t iso-8859-1 < source-nb |tail', så får jeg beskjed om 'conv: ulovlig inndatasekvens ved posisjon 32230'.
Det er 'WORD: Ã dal' iconv påstår ikke er UTF-8. Det skulle stått ødal, tror jeg. Konverteringen din har feilet på ett eller annet vis.
Ok, kanskje vi må gå tilbake til latin1. Det kan vere at scripta som er i speling.org-systemet ikkje fungerer rett for UTF8. Jacob: veit du om det er noko problem med å bruke UTF-8?
Det ser forresten ut til at korrekturlesingsmailene bør endres til å fortelle at den sender ut UTF-8. Jeg fikk en mail med 'ø' i idag, og mailprogrammet viste det ikke fram korrekt.
Ja, det har eg ikkje oppdatert. Men det er ikkje noko problem å fikse.
Håvard
Det ser forresten ut til at UTF-konverteringen har gått galt. Når jeg tester med 'iconv -f utf-8 -t iso-8859-1 < source-nb |tail', så får jeg beskjed om 'conv: ulovlig inndatasekvens ved posisjon 32230'.
Det er 'WORD: Ã dal' iconv påstår ikke er UTF-8. Det skulle stått ødal, tror jeg. Konverteringen din har feilet på ett eller annet vis.
Ok, kanskje vi må gå tilbake til latin1. Det kan vere at scripta som er i speling.org-systemet ikkje fungerer rett for UTF8. Jacob: veit du om det er noko problem med å bruke UTF-8?
Eg får dessverre ikkje gjort noko med dette før etter helga.
Håvard
[Håvard Korsvoll]
Eg får dessverre ikkje gjort noko med dette før etter helga.
Hva skal til for at flere enn deg kan fikse slike ting? Egentlig burde vel alle medlemmene i alioth-prosjektet ha tilgang. Kan det fikses?
[Håvard Korsvoll]
Eg får dessverre ikkje gjort noko med dette før etter helga.
Hva skal til for at flere enn deg kan fikse slike ting? Egentlig burde vel alle medlemmene i alioth-prosjektet ha tilgang. Kan det fikses?
Dei må få konto på tyge.sslug.dk. Alternativet er jo at vi set opp speling.org på ei anna maskin der vi sjølv har administrasjonen. For å få konto må du spørre Jacob.
Håvard
Petter Reinholdtsen skrev:
[Håvard Korsvoll]
Eg får dessverre ikkje gjort noko med dette før etter helga.
Hva skal til for at flere enn deg kan fikse slike ting?
At de relevante personer får en konto på Tyge og bliver medlemmer af "speling(nb|nn)"-grupperne på maskinen. Man beder om en konto ved at skrive til admin@tyge.sslug.dk. Oplysningerne der skal med er:
+ Projekt (de norske ordlister) + Navn + Foretrukket brugernavn + Offentlig SSH-nøgle + Telefonnummer - helst mobil
Jacob
PS: Stavekontrol og unicode hænger meget dårligt sammen. Unicodes normaliseringsregler kan let lave kage i teksterne, da de ikke er bijektive.
[Jacob Sparre Andersen]
At de relevante personer får en konto på Tyge og bliver medlemmer af "speling(nb|nn)"-grupperne på maskinen. Man beder om en konto ved at skrive til admin@tyge.sslug.dk. Oplysningerne der skal med er:
OK, det skal jeg få gjort. Håper de andre prosjektdeltagerne gjør det samme.
PS: Stavekontrol og unicode hænger meget dårligt sammen. Unicodes normaliseringsregler kan let lave kage i teksterne, da de ikke er bijektive.
Can you repeat this in English? I'm unable to make sense of it in Danish, and I suspect the words means slightly different things in Norwegian.
When you write unicode, do you mean unicode, ISO 10646 or UTF-8?
In any case, we are talking about the storage format of the word database, not spell checking as such. Not sure how your statement relates to that, which is part of the reason I am confused and ask for more info.
Petter Reinholdtsen skrev:
[Jacob Sparre Andersen]
At de relevante personer får en konto på Tyge og bliver medlemmer af "speling(nb|nn)"-grupperne på maskinen.
OK, det skal jeg få gjort. Håper de andre prosjektdeltagerne gjør det samme.
Fint.
PS: Stavekontrol og unicode hænger meget dårligt sammen. Unicodes normaliseringsregler kan let lave kage i teksterne, da de ikke er bijektive.
Can you repeat this in English?
Det kan jeg da godt.
It is problematic to do spell checking of texts encoded in a ISO-10646/Unicode encoding (among which UTF-8 is the best known). This is because ISO-10646/Unicode contains some normalisation rules, which only work one-way. - And that way happens to be the wrong way; letters are converted to graphics.
One of the effects of this is that you may see a spell checking tool posing this question "The word 'blåbærgrød' is misspelled. Did you mean 'blåbærgrød'?".
When you write unicode, do you mean unicode, ISO 10646 or UTF-8?
I mean ISO-10646 and Unicode in general. The specific choice of encoding does not matter, since the normalisation rules (AFAIK) are common for all of them.
In any case, we are talking about the storage format of the word database, not spell checking as such. Not sure how your statement relates to that, which is part of the reason I am confused and ask for more info.
The problem is that with UTF-8 coding of the database, you can have eight different UTF-8 strings looking like "blåbærgrød" in the database.
We can sort of work around the problem by introducing some language specific normalisation rules on top of the Unicode rules. We will still see problems, but they will be limited to special cases.
Another way to work around the problem is to run a program which tags graphics coded strings in the database as likely errors, so they can be weeded out quickly.
Linux tools are generally nice and don't use the Unicode normalisation rules. Mac OS X, on the other hand, always uses the normalisation rules.
Jacob
Håvard Korsvoll wrote:
Jacob: veit du om det er noko problem med å bruke UTF-8?
Det vil ikke undre mig spor, hvis der er problemer. Programmerne er skrevet specifikt til Latin-1, og jeg tror godt det kan forekomme at der er tjek for om tegn er kontroltegn eller deslige.
Dertil kommer så problemet med unicode-normalisering, der kan finde på at konvertere et 'å' til 'a+°', men ikke må konvertere den anden vej. Dette er også et problem for dem der programmerer stavekontrolprogrammer.
Jacob
Håvard Korsvoll wrote:
Jacob: veit du om det er noko problem med å bruke UTF-8?
Det vil ikke undre mig spor, hvis der er problemer. Programmerne er skrevet specifikt til Latin-1, og jeg tror godt det kan forekomme at der er tjek for om tegn er kontroltegn eller deslige.
Dertil kommer så problemet med unicode-normalisering, der kan finde på at konvertere et 'å' til 'a+°', men ikke må konvertere den anden vej. Dette er også et problem for dem der programmerer stavekontrolprogrammer.
OK, då forandrar eg teiknkodinga tilbake til latin1 i kveld.
Håvard
[Håvard Korsvoll]
No har eg laga eit forbetra e-postmottak i perl på speling.org. Det betyr at vi kan ta i mot quoted-printable. Alle teiknesett blir omgjort til UTF-8 og alt blir lagra som UTF-8 i kjeldefila.
Hurra. Genialt. Da skal jeg endre mine biter slik at de er forberedt på å finne UTF-8 i source.gz. Har du fikset Q-P-tegnene i kildekodefilen? Her er de transformasjonene jeg har måttet gjøre på nb-filen for å kompensere for feil:
$(SED) -e s/=f8/ø/g \ -e s/=F8/ø/g \ -e s/=E5/å/g \ -e s/=3D/=/g \ -e s/=E6/æ/g \ -e 's/, =//g' \ -e 's/forvrengt./forvrengt,/g' \ -e 's/SYNONYM: språk=vitenskap/SYNONYM: språkvitenskap/g' \ -e 's/SYNONYM: overdimensjonert; rommelig; ruvende; stor; svær; uhyrlig/SYNONYM: overdimensjonert, rommelig, ruvende, stor,svær, uhyrlig/g' \
Jepp, eg har køyrt dette på kjeldefila.
Håvard
[Håvard Korsvoll]
Jepp, eg har køyrt dette på kjeldefila.
Merk at jeg oppdaget at denne tok mer enn den skulle:
-e 's/forvrengt./forvrengt,/g'
Det burde ha stått 'forvrengt.' i stedet, for å ikke matche på 'forvrengte'.
Filen jeg hentet ned tidligere i dag hadde fortsatt de overnevnte problemene i SYNONYM-feltet. Antar det kommer av at du fikset det i dag og ikke i går.