Hei,
Jeg er ny her, rekruttert korrekturleser rett før jul, og klarer omtrent å holde tritt med ordene jeg blir bedt om å sjekke. Hvis spørsmålene jeg har nedenfor er diskutert til døde tidligere beklager jeg, og vil sette pris på en velrettet peker.
Jeg bekymrer meg imidlertid om hvorvidt denne korrekturen bare blir rent midlertidig. Problemet er med hvordan bøyninger og avledede former blir representert. Om jeg har forstått rett (mitt inntrykk av de ordene jeg får tilsendt) blir alle former egne oppføringer. Er dere ikke redde for at en slik ordliste blir svært tung å vedlikeholde? For ikke å snakke om å holde en synonymordliste koordinert. Om vi antar at "krakk" og "skammel" er synonymer, må vi altså ha oppføringer for
krakk skammel krakken skammelen krakker skamler krakkene skamlene krakks skammels krakkens skammelens krakkers skamlers krakkenes skamlenes
samt (formodentlig) alle disse må markeres som hverandres synonymer.
Sjansen for at dette gjøres konsistent mellom de forskjellige bøyningsformene i alle 16 oppføringer er, såvidt jeg kan forstå, temmelig liten, spesielt ettersom en enkelt korrekturleser bare vil se et fåtall av disse formene.
Noen spørsmål i den sammenheng:
- Inneholder ikke verktøy som bruker ordlister noen som helst "regler" eller gramatikk i tillegg til en liste med ord?
- Er det rimelig å ha alle genitiv-s-former i ordlista? Burde ikke slike former indikeres som en tillatt avledning av grunnformen istedenfor? Norsk er da ikke det eneste språket som gjør denslags.
Jeg har fått forståelse av at verktøyene som brukes til ordlista idag ikke håndterer bøyningsmønster og bøyningsformer på noe fornuftig vis (oppskriften på http://no.speling.org/filformat.html anbefaler oppføring av ROOT, CLASS, CONJUGATION og CONJUGATION-RULE, men etter første runde med korrektur fikk jeg beskjed om at det ikke var noe poeng med dette allikevel) Jeg antar det er en god grunn til at verktøyet ikke håndterer bøyninger: at ingen har tid eller ork til å gjøre det?
Jeg har allikevel noen forslag til hvordan vi kan lette overgangen til et fremtidig verktøy som håndterer bøyninger -- igjen, beklager hvis disse forslagene bare avslører at jeg ikke skjønner verktøyene og deres begrensninger godt nok.
- At vi i korrekturlesinga prøvde å sørge for at ROOT var med, selv om resten av bøyningsfeltene ikke er det (kan jeg få ROOT med i utsendinga, forresten?)
- At synonymer bare føres opp i grunnformen av ord (krakk, skammel)
- At jeg får ord på samme stamme ved utsending av ord til korrekturlesing
- Jeg kunne også godt tenke meg et online verktøy (til intern bruk) hvor jeg kan søke i de oppføringene som allerede finnes på et ord eller deler av et ord, slik at jeg kan forsøke å gjøre min korrektur mest mulig konsistent med det som allerede finnes. Det behøver ikke være polert eller noe slikt; noe som fungerer a la "grep" er godt nok for meg hvis jeg også får en beskrivelse av formatet på søkeresultatene.
Det var alt i denne omgang!
Mvh,
Tom Grydeland skrev:
Jeg er ny her, rekruttert korrekturleser rett før jul, og klarer omtrent å holde tritt med ordene jeg blir bedt om å sjekke. Hvis spørsmålene jeg har nedenfor er diskutert til døde tidligere beklager jeg, og vil sette pris på en velrettet peker.
Spørgsmålene er blevet omtalt før, men vi kan vel altid snakke lidt videre om det.
Jeg bekymrer meg imidlertid om hvorvidt denne korrekturen bare blir rent midlertidig.
Har du læst http://edb.jacob-sparre.dk/problems_with_the_current_speling_org_system? Afsnit 5.5 forklarer hvordan vi kan overføre data fra det nuværende system til et der er mere grammatikbevidst.
Problemet er med hvordan bøyninger og avledede former blir representert. Om jeg har forstått rett (mitt inntrykk av de ordene jeg får tilsendt) blir alle former egne oppføringer.
Ja. Men med »ROOT«-feltet kan du kæde de forskellige former sammen.
Er dere ikke redde for at en slik ordliste blir svært tung å vedlikeholde?
Jo. Det er derfor vi har brug for at tage os sammen til at skrive et bedre system.
For ikke å snakke om å holde en synonymordliste koordinert. Om vi antar at "krakk" og "skammel" er synonymer, må vi altså ha oppføringer for
krakk skammel krakken skammelen krakker skamler krakkene skamlene krakks skammels krakkens skammelens krakkers skamlers krakkenes skamlenes
samt (formodentlig) alle disse må markeres som hverandres synonymer.
Det er ikke så svært, hvis bare:
a) Alle bøjningerne af »krakk« har feltet »ROOT: krakk« samt »CONJUGATION«.
b) Alle bøjningerne af »skammel« har feltet »ROOT: skammel« samt »CONJUGATION«.
c) Ordet »krakk« har feltet »SYNONYM: skammel«.
Nu har vi oplysninger nok til at vi kan:
a) gennemgå ordlisten for ord med »ROOT: krakk«
b) bemærke deres »CONJUGATION«
c) slå op om der er nogle ord med »ROOT: skammel« der har samme »CONJUGATION«, og i givet fald registrere de to ord som synonymer.
Sjansen for at dette gjøres konsistent mellom de forskjellige bøyningsformene i alle 16 oppføringer er, såvidt jeg kan forstå, temmelig liten, spesielt ettersom en enkelt korrekturleser bare vil se et fåtall av disse formene.
Derfor er det nyttigt at vi bruger felterne »ROOT« og »CONJUGATION«.
Noen spørsmål i den sammenheng:
- Inneholder ikke verktøy som bruker ordlister noen som helst "regler" eller gramatikk i tillegg til en liste med ord?
Ispells affikskomprimeringsregler bygger typisk på grammatiske regler. Det sker at jeg bruger affikskomprimerede ordlister til hurtigt at korrekturlæse en større samling ord.
Henrik Christian Grove har skrevet programmet »dte« (http://www.sslug.se/%7Egrove/dte/index.shtml), som vi er nogle stykker, der bruger til vores korrekturlæsning. Med det kan man skrive en korrekturlæsningspost som:
WORD: (formands|korrekturlæsnings|udgifts|udsigts)?=post#som bil STATUS: + EDITOR: Jacob Sparre Andersen
Og (i Vi) med tastetrykkene »:%!LANG=da_DK dte« få det foldet ud til 391 linjer med i alt 40 stavemåder af 5 ord:
WORD: post STATUS: + CONJUGATION-RULE: som abe EDITOR: Jacob Sparre Andersen ROOT: post CONJUGATION: Ubestemt ental CLASS: Navneord, fælleskøn
WORD: posts STATUS: + CONJUGATION-RULE: som abe EDITOR: Jacob Sparre Andersen HYPHENATION: post!s ROOT: post CONJUGATION: Ejefald af ubestemt ental CLASS: Navneord, fælleskøn
[...]
Det gør korrekturlæsningen lidt lettere, samtidig med at det giver lidt ekstra grammatiske oplysninger.
- Er det rimelig å ha alle genitiv-s-former i ordlista?
Alle dem som folk bruger.
Burde ikke slike former indikeres som en tillatt avledning av grunnformen istedenfor? Norsk er da ikke det eneste språket som gjør denslags.
Det er også sådan det ender med at stå i den affikskomprimerede ordliste til Ispell. Men hvordan vil du holde styr på hvilke ord det er tilladt at føje et ejefalds-s til?
Jeg har fått forståelse av at verktøyene som brukes til ordlista idag ikke håndterer bøyningsmønster og bøyningsformer på noe fornuftig vis (oppskriften på http://no.speling.org/filformat.html anbefaler oppføring av ROOT, CLASS, CONJUGATION og CONJUGATION-RULE, men etter første runde med korrektur fikk jeg beskjed om at det ikke var noe poeng med dette allikevel) Jeg antar det er en god grunn til at verktøyet ikke håndterer bøyninger: at ingen har tid eller ork til å gjøre det?
Stavekontrolprogrammerne er netop _stave_kontrolprogrammer. De interesserer sig således ikke for grammatik. Så længe det primære projekt er at gøre ordlisten bedre til stavekontrol, er felter som »ROOT« og »CLASS« af begrænset nytte.
Hvis man se længere frem, så er de ekstra felter interessante. Problemet lige nu er at vi ikke kan rette fejl i de ekstra felter med det nuværende system.
Jeg har allikevel noen forslag til hvordan vi kan lette overgangen til et fremtidig verktøy som håndterer bøyninger -- igjen, beklager hvis disse forslagene bare avslører at jeg ikke skjønner verktøyene og deres begrensninger godt nok.
- At vi i korrekturlesinga prøvde å sørge for at ROOT var med, selv om resten av bøyningsfeltene ikke er det
Det lyder som en fornuftig plan.
(kan jeg få ROOT med i utsendinga, forresten?)
Det kan du godt, men det kræver at vi går ind og indsætter en ny linje under linje 209 i »export_editor-specific_unchecked_log«. Og så vil det i første omgang betyde at alle korrekturlæserne får »ROOT«-feltet med.
- At synonymer bare føres opp i grunnformen av ord (krakk, skammel)
Fornuftigt.
- At jeg får ord på samme stamme ved utsending av ord til korrekturlesing
Det kan vi godt gøre, men det er sådan set med vilje at systemet tager lidt tilfældigt rundt i samlingen. Hvis du vil generere samlede blokke, kan jeg anbefale »dte«. Der er ikke en opsætningsfil til bokmål endnu, men jeg er sikker på at Henrik gerne giver lidt råd om hvordan du kan skrive en på grundlag af den danske opsætningsfil.
- Jeg kunne også godt tenke meg et online verktøy (til intern bruk) hvor jeg kan søke i de oppføringene som allerede finnes på et ord eller deler av et ord, slik at jeg kan forsøke å gjøre min korrektur mest mulig konsistent med det som allerede finnes. Det behøver ikke være polert eller noe slikt; noe som fungerer a la "grep" er godt nok for meg hvis jeg også får en beskrivelse av formatet på søkeresultatene.
Det jeg gør er at jeg af og til henter en kopi af ordlisten (kildetekst+oversat udgave) ned på min egen maskine. Der kan jeg så bruge »grep« og andre, mere specifikke værktøjer på filerne.
God fornøjelse,
Jacob
On 2/14/07, Jacob Sparre Andersen sparre@sslug.dk wrote:
Har du læst http://edb.jacob-sparre.dk/problems_with_the_current_speling_org_system? Afsnit 5.5 forklarer hvordan vi kan overføre data fra det nuværende system til et der er mere grammatikbevidst.
Nei, den visste jeg ikke om. Interessant, og dekker det meste av det jeg har ttenkt på, og en god del mer.
Ja. Men med »ROOT«-feltet kan du kæde de forskellige former sammen.
[...]
Derfor er det nyttigt at vi bruger felterne »ROOT« og »CONJUGATION«.
Tillater meg å stokke litt om på dine kommentarer her:
- At vi i korrekturlesinga prøvde å sørge for at ROOT var med, selv om resten av bøyningsfeltene ikke er det
Det lyder som en fornuftig plan.
(kan jeg få ROOT med i utsendinga, forresten?)
Det kan du godt, men det kræver at vi går ind og indsætter en ny linje under linje 209 i »export_editor-specific_unchecked_log«. Og så vil det i første omgang betyde at alle korrekturlæserne får »ROOT«-feltet med.
I tråd med det som er skrevet over vil jeg si dette er en stor fordel!
Henrik Christian Grove har skrevet programmet »dte« (http://www.sslug.se/%7Egrove/dte/index.shtml), som vi er nogle stykker, der bruger til vores korrekturlæsning. Med det kan man skrive en korrekturlæsningspost som:
WORD: (formands|korrekturlæsnings|udgifts|udsigts)?=post#som bil STATUS: + EDITOR: Jacob Sparre Andersen
Og (i Vi) med tastetrykkene »:%!LANG=da_DK dte« få det foldet ud til 391 linjer med i alt 40 stavemåder af 5 ord:
WORD: post STATUS: + CONJUGATION-RULE: som abe EDITOR: Jacob Sparre Andersen ROOT: post CONJUGATION: Ubestemt ental CLASS: Navneord, fælleskøn
WORD: posts STATUS: + CONJUGATION-RULE: som abe EDITOR: Jacob Sparre Andersen HYPHENATION: post!s ROOT: post CONJUGATION: Ejefald af ubestemt ental CLASS: Navneord, fælleskøn
[...]
Det gør korrekturlæsningen lidt lettere, samtidig med at det giver lidt ekstra grammatiske oplysninger.
Nyttig! Skal se nærmere på det.
- Er det rimelig å ha alle genitiv-s-former i ordlista?
Alle dem som folk bruger.
Burde ikke slike former indikeres som en tillatt avledning av grunnformen istedenfor? Norsk er da ikke det eneste språket som gjør denslags.
Det er også sådan det ender med at stå i den affikskomprimerede ordliste til Ispell. Men hvordan vil du holde styr på hvilke ord det er tilladt at føje et ejefalds-s til?
Uten at jeg kjenner verktøyene som skal brukes til å behandle korrekturen er det vanskelig å komme med et praktisk forslag, men jeg kunne tenke meg det kan gjøres med et felt som indikerer hvilken (eller hvilke?) genitivformer som er tillatte.
WORD: bil GENITIV: =s
WORD: hus GENITIV: ='
men jeg vet ikke hvordan det skal fungere sammen med bøyningsmønstre.
Stavekontrolprogrammerne er netop _stave_kontrolprogrammer. De interesserer sig således ikke for grammatik. Så længe det primære projekt er at gøre ordlisten bedre til stavekontrol, er felter som »ROOT« og »CLASS« af begrænset nytte.
Det er vel rett hva angår ispell og lignende. En stavekontroll som skal kunne skille mellom "være" og "været" er avhengig av å interessere seg for grammatikk.
[...]
Det kan vi godt gøre, men det er sådan set med vilje at systemet tager lidt tilfældigt rundt i samlingen. Hvis du vil generere samlede blokke, kan jeg anbefale »dte«. Der er ikke en opsætningsfil til bokmål endnu, men jeg er sikker på at Henrik gerne giver lidt råd om hvordan du kan skrive en på grundlag af den danske opsætningsfil.
Det kan jeg godt kikke på.
Det jeg gør er at jeg af og til henter en kopi af ordlisten (kildetekst+oversat udgave) ned på min egen maskine. Der kan jeg så bruge »grep« og andre, mere specifikke værktøjer på filerne.
Hvor finner jeg denne?
God fornøjelse,
Jacob
Takk,
On 2/14/07, Tom Grydeland tom.grydeland@gmail.com wrote:
Det jeg gør er at jeg af og til henter en kopi af ordlisten (kildetekst+oversat udgave) ned på min egen maskine. Der kan jeg så bruge »grep« og andre, mere specifikke værktøjer på filerne.
Hvor finner jeg denne?
For bokmål: http://tyge.sslug.dk/~korsvoll/nb.speling.org/htdocs/status/words.good.gz
Dette er ord frå databasen som er godkjende minst ein gong
Du kan også laste ned kodelageret vårt i CVS frå alioth: https://alioth.debian.org/scm/?group_id=30577
Her finn du byggjereglar for ordlistene, og fila som vi byggjer frå norsk.words. norsk.words blir oppdatert med ord frå databasen etterkvart som dei kjem inn.
Håvard
Tom Grydeland skrev:
[ Mener du dit »Reply-To« alvorligt? Ønsker du at resten af listen ikke skal se mine svar på dine spørgsmål? Eller er du bare kommet til at sætte dit postprogram uhensigtsmæssigt op? ]
On 2/14/07, Jacob Sparre Andersen sparre@sslug.dk wrote:
Det kan du godt, men det kræver at vi går ind og indsætter en ny linje under linje 209 i »export_editor-specific_unchecked_log«. Og så vil det i første omgang betyde at alle korrekturlæserne får »ROOT«-feltet med.
I tråd med det som er skrevet over vil jeg si dette er en stor fordel!
O.k. Jeg har implementeret det nu. Der går lige lidt tid, før jeg har opgraderet installationen på Tyge (alias »nb.speling.org«)
Samtidig har jeg også udvidet muligheden for at levere gæt til felterne, så man både kan levere gæt til »ROOT« og »CLASS« felterne. Det gøres med tabulatorseparerede filer, hvor første søjle er ordet og anden søjle er gættet på hvad der skal stå i feltet. Filen »/var/speling.org/nb/guesses.root« er beregnet til bud på hvad der skal stå i »ROOT«-feltet, og filen »/var/speling.org/nb/guesses.class« er beregnet til bud på hvad der skal stå i »CLASS«-feltet.
De af jer, der har adgang til Tyge kan se på hvordan vi bruger det til den færøske ordliste (udskift »nb« med »fo« i filnavnene).
Uten at jeg kjenner verktøyene som skal brukes til å behandle korrekturen er det vanskelig å komme med et praktisk forslag, men jeg kunne tenke meg det kan gjøres med et felt som indikerer hvilken (eller hvilke?) genitivformer som er tillatte.
WORD: bil GENITIV: =s
WORD: hus GENITIV: ='
Det ser ud som noget du med fordel kunne bruge »CONJUGATION-CLASS«-feltet til.
Stavekontrolprogrammerne er netop _stave_kontrolprogrammer. De interesserer sig således ikke for grammatik. Så længe det primære projekt er at gøre ordlisten bedre til stavekontrol, er felter som »ROOT« og »CLASS« af begrænset nytte.
Det er vel rett hva angår ispell og lignende. En stavekontroll som skal kunne skille mellom "være" og "været" er avhengig av å interessere seg for grammatikk.
Ja. Men så er det ikke (i min ordbog) ikke længere bare en _stave_kontrol.
God fornøjelse,
Jacob
On Thu, 2007-02-15 at 15:13 +0100, Jacob Sparre Andersen wrote:
Tom Grydeland skrev:
[ Mener du dit »Reply-To« alvorligt? Ønsker du at resten af listen ikke skal se mine svar på dine spørgsmål? Eller er du bare kommet til at sætte dit postprogram uhensigtsmæssigt op? ]
Reply-To overstyrer From, ikkje To eller Cc, så det er ingenting feil med å gjere det slik som Tom gjorde -- han får berre ein kopi til uit.no i staden for gmail.com.
legg derimot merke til min eigen Reply-To -- eg set Reply-To for å unngå å få ein kopi i mi private postkasse. ulempen er at det vert vanskeleg for andre å sende svar kun til meg, men det er ikkje så sannsynleg at folk har bruk for det. i grunnen burde eg bruke Mail-Followup-To i staden, men det er ikkje utbreidd å støtte denne headeren.
On 2/14/07, Jacob Sparre Andersen sparre@sslug.dk wrote:
Henrik Christian Grove har skrevet programmet »dte« (http://www.sslug.se/%7Egrove/dte/index.shtml), som vi er nogle stykker, der bruger til vores korrekturlæsning. Med det kan man skrive en korrekturlæsningspost som:
WORD: (formands|korrekturlæsnings|udgifts|udsigts)?=post#som bil STATUS: + EDITOR: Jacob Sparre Andersen
Og (i Vi) med tastetrykkene »:%!LANG=da_DK dte« få det foldet ud til 391 linjer med i alt 40 stavemåder af 5 ord:
WORD: post STATUS: + CONJUGATION-RULE: som abe EDITOR: Jacob Sparre Andersen ROOT: post CONJUGATION: Ubestemt ental CLASS: Navneord, fælleskøn
WORD: posts STATUS: + CONJUGATION-RULE: som abe EDITOR: Jacob Sparre Andersen HYPHENATION: post!s ROOT: post CONJUGATION: Ejefald af ubestemt ental CLASS: Navneord, fælleskøn
[...]
Det gør korrekturlæsningen lidt lettere, samtidig med at det giver lidt ekstra grammatiske oplysninger.
Jeg kunne tenke meg å skrive regler for dte for bokmål. Er det noen som allerede har begynt på dette som jeg burde koordinere med?
- riktig lokale er nb_NO?
God fornøjelse,
Heps!
Jacob
[Tom Grydeland]
- riktig lokale er nb_NO?
Ja. Se URL:http://i18n.skolelinux.no/localekoder.txt for mer info.
Vennlig hilsen,
On 2/15/07, Jacob Sparre Andersen sparre@sslug.dk wrote:
[ Mener du dit »Reply-To« alvorligt? Ønsker du at resten af listen ikke skal se mine svar på dine spørgsmål? Eller er du bare kommet til at sætte dit postprogram uhensigtsmæssigt op? ]
Det er nok det siste. Bedre nå?
On 2/15/07, Tom Grydeland tom.grydeland@gmail.com wrote:
Jeg kunne tenke meg å skrive regler for dte for bokmål. Er det noen som allerede har begynt på dette som jeg burde koordinere med?
Vel, jeg har begynt, og har bøyninger for de vanlige substantivene (f1,m123,n123) samt noen spesialformer. Hvis det ikke er noen grunn til at jeg skal la være kommer jeg til å legge inn hundrevis av ord, bøyninger og sammensatte ord generert med dte og mine mønstre i løpet av de nærmeste dagene.
Mvh,
Tom Grydeland skrev:
On 2/15/07, Jacob Sparre Andersen sparre@sslug.dk wrote:
[ Mener du dit »Reply-To« alvorligt? Ønsker du at resten af listen ikke skal se mine svar på dine spørgsmål? Eller er du bare kommet til at sætte dit postprogram uhensigtsmæssigt op? ]
Det er nok det siste. Bedre nå?
Det ser sådan ud. Tak!
On 2/15/07, Tom Grydeland tom.grydeland@gmail.com wrote:
Jeg kunne tenke meg å skrive regler for dte for bokmål. Er det noen som allerede har begynt på dette som jeg burde koordinere med?
Vel, jeg har begynt, og har bøyninger for de vanlige substantivene (f1,m123,n123) samt noen spesialformer.
Det lyder godt. Jeg vil foreslå at du sender dine regler til Henrik (grove på sslug dk), så han kan distribuere dem sammen med resten af systemet - eller giver ham en URL han kan pege på.
Jacob
Tom Grydeland skrev:
Hei,
(...)
Jeg har allikevel noen forslag til hvordan vi kan lette overgangen til et fremtidig verktøy som håndterer bøyninger -- igjen, beklager hvis disse forslagene bare avslører at jeg ikke skjønner verktøyene og deres begrensninger godt nok.
(...)
- At synonymer bare føres opp i grunnformen av ord (krakk, skammel)
Det er også meningen. Men vi har gått bort fra å bruke speling.org til dette, og bruker isteden http://synonymer.merg.net.
Mvh Axel