Tom Grydeland skrev:
Jeg er ny her, rekruttert korrekturleser rett før jul, og klarer omtrent å holde tritt med ordene jeg blir bedt om å sjekke. Hvis spørsmålene jeg har nedenfor er diskutert til døde tidligere beklager jeg, og vil sette pris på en velrettet peker.
Spørgsmålene er blevet omtalt før, men vi kan vel altid snakke lidt videre om det.
Jeg bekymrer meg imidlertid om hvorvidt denne korrekturen bare blir rent midlertidig.
Har du læst http://edb.jacob-sparre.dk/problems_with_the_current_speling_org_system? Afsnit 5.5 forklarer hvordan vi kan overføre data fra det nuværende system til et der er mere grammatikbevidst.
Problemet er med hvordan bøyninger og avledede former blir representert. Om jeg har forstått rett (mitt inntrykk av de ordene jeg får tilsendt) blir alle former egne oppføringer.
Ja. Men med »ROOT«-feltet kan du kæde de forskellige former sammen.
Er dere ikke redde for at en slik ordliste blir svært tung å vedlikeholde?
Jo. Det er derfor vi har brug for at tage os sammen til at skrive et bedre system.
For ikke å snakke om å holde en synonymordliste koordinert. Om vi antar at "krakk" og "skammel" er synonymer, må vi altså ha oppføringer for
krakk skammel krakken skammelen krakker skamler krakkene skamlene krakks skammels krakkens skammelens krakkers skamlers krakkenes skamlenes
samt (formodentlig) alle disse må markeres som hverandres synonymer.
Det er ikke så svært, hvis bare:
a) Alle bøjningerne af »krakk« har feltet »ROOT: krakk« samt »CONJUGATION«.
b) Alle bøjningerne af »skammel« har feltet »ROOT: skammel« samt »CONJUGATION«.
c) Ordet »krakk« har feltet »SYNONYM: skammel«.
Nu har vi oplysninger nok til at vi kan:
a) gennemgå ordlisten for ord med »ROOT: krakk«
b) bemærke deres »CONJUGATION«
c) slå op om der er nogle ord med »ROOT: skammel« der har samme »CONJUGATION«, og i givet fald registrere de to ord som synonymer.
Sjansen for at dette gjøres konsistent mellom de forskjellige bøyningsformene i alle 16 oppføringer er, såvidt jeg kan forstå, temmelig liten, spesielt ettersom en enkelt korrekturleser bare vil se et fåtall av disse formene.
Derfor er det nyttigt at vi bruger felterne »ROOT« og »CONJUGATION«.
Noen spørsmål i den sammenheng:
- Inneholder ikke verktøy som bruker ordlister noen som helst "regler" eller gramatikk i tillegg til en liste med ord?
Ispells affikskomprimeringsregler bygger typisk på grammatiske regler. Det sker at jeg bruger affikskomprimerede ordlister til hurtigt at korrekturlæse en større samling ord.
Henrik Christian Grove har skrevet programmet »dte« (http://www.sslug.se/%7Egrove/dte/index.shtml), som vi er nogle stykker, der bruger til vores korrekturlæsning. Med det kan man skrive en korrekturlæsningspost som:
WORD: (formands|korrekturlæsnings|udgifts|udsigts)?=post#som bil STATUS: + EDITOR: Jacob Sparre Andersen
Og (i Vi) med tastetrykkene »:%!LANG=da_DK dte« få det foldet ud til 391 linjer med i alt 40 stavemåder af 5 ord:
WORD: post STATUS: + CONJUGATION-RULE: som abe EDITOR: Jacob Sparre Andersen ROOT: post CONJUGATION: Ubestemt ental CLASS: Navneord, fælleskøn
WORD: posts STATUS: + CONJUGATION-RULE: som abe EDITOR: Jacob Sparre Andersen HYPHENATION: post!s ROOT: post CONJUGATION: Ejefald af ubestemt ental CLASS: Navneord, fælleskøn
[...]
Det gør korrekturlæsningen lidt lettere, samtidig med at det giver lidt ekstra grammatiske oplysninger.
- Er det rimelig å ha alle genitiv-s-former i ordlista?
Alle dem som folk bruger.
Burde ikke slike former indikeres som en tillatt avledning av grunnformen istedenfor? Norsk er da ikke det eneste språket som gjør denslags.
Det er også sådan det ender med at stå i den affikskomprimerede ordliste til Ispell. Men hvordan vil du holde styr på hvilke ord det er tilladt at føje et ejefalds-s til?
Jeg har fått forståelse av at verktøyene som brukes til ordlista idag ikke håndterer bøyningsmønster og bøyningsformer på noe fornuftig vis (oppskriften på http://no.speling.org/filformat.html anbefaler oppføring av ROOT, CLASS, CONJUGATION og CONJUGATION-RULE, men etter første runde med korrektur fikk jeg beskjed om at det ikke var noe poeng med dette allikevel) Jeg antar det er en god grunn til at verktøyet ikke håndterer bøyninger: at ingen har tid eller ork til å gjøre det?
Stavekontrolprogrammerne er netop _stave_kontrolprogrammer. De interesserer sig således ikke for grammatik. Så længe det primære projekt er at gøre ordlisten bedre til stavekontrol, er felter som »ROOT« og »CLASS« af begrænset nytte.
Hvis man se længere frem, så er de ekstra felter interessante. Problemet lige nu er at vi ikke kan rette fejl i de ekstra felter med det nuværende system.
Jeg har allikevel noen forslag til hvordan vi kan lette overgangen til et fremtidig verktøy som håndterer bøyninger -- igjen, beklager hvis disse forslagene bare avslører at jeg ikke skjønner verktøyene og deres begrensninger godt nok.
- At vi i korrekturlesinga prøvde å sørge for at ROOT var med, selv om resten av bøyningsfeltene ikke er det
Det lyder som en fornuftig plan.
(kan jeg få ROOT med i utsendinga, forresten?)
Det kan du godt, men det kræver at vi går ind og indsætter en ny linje under linje 209 i »export_editor-specific_unchecked_log«. Og så vil det i første omgang betyde at alle korrekturlæserne får »ROOT«-feltet med.
- At synonymer bare føres opp i grunnformen av ord (krakk, skammel)
Fornuftigt.
- At jeg får ord på samme stamme ved utsending av ord til korrekturlesing
Det kan vi godt gøre, men det er sådan set med vilje at systemet tager lidt tilfældigt rundt i samlingen. Hvis du vil generere samlede blokke, kan jeg anbefale »dte«. Der er ikke en opsætningsfil til bokmål endnu, men jeg er sikker på at Henrik gerne giver lidt råd om hvordan du kan skrive en på grundlag af den danske opsætningsfil.
- Jeg kunne også godt tenke meg et online verktøy (til intern bruk) hvor jeg kan søke i de oppføringene som allerede finnes på et ord eller deler av et ord, slik at jeg kan forsøke å gjøre min korrektur mest mulig konsistent med det som allerede finnes. Det behøver ikke være polert eller noe slikt; noe som fungerer a la "grep" er godt nok for meg hvis jeg også får en beskrivelse av formatet på søkeresultatene.
Det jeg gør er at jeg af og til henter en kopi af ordlisten (kildetekst+oversat udgave) ned på min egen maskine. Der kan jeg så bruge »grep« og andre, mere specifikke værktøjer på filerne.
God fornøjelse,
Jacob