Takk for interessant orientering. :)
[Børre Gaup]
- Introduksjon
Systemet for norsk på www.speling.org bygger på arbeidet til Rune Kleven (?), og er et ispellbasert system. Med dette systemet er det mye som er mulig, og mye som ikke er det. Xspell er automater, men ikke transdusere, og kan dermed ikke fortelle oss om et ord er substantiv eller verb, bare om det er en lovlig streng eller ikke.
Så vidt jeg vet er www.speling.org bygget på arbeidet til danskene for å få et dugnadsprosjekt for klassifisering av ord på plass, og jeg tror ikke det i utgangspunktet har de begrensningene du snakker om her. Norsk-biten av det er helt i start-gropa, så jeg vet ikke helt status der. CC til i18n-no@, som bør vite mer.
Petter Reinholdtsen skrev:
[Børre Gaup]
Systemet for norsk på www.speling.org bygger på arbeidet til Rune Kleven (?), og er et ispellbasert system. Med dette systemet er det mye som er mulig, og mye som ikke er det. Xspell er automater, men ikke transdusere, og kan dermed ikke fortelle oss om et ord er substantiv eller verb, bare om det er en lovlig streng eller ikke.
Så vidt jeg vet er www.speling.org bygget på arbeidet til danskene for å få et dugnadsprosjekt for klassifisering av ord på plass, og jeg tror ikke det i utgangspunktet har de begrensningene du snakker om her. Norsk-biten av det er helt i start-gropa, så jeg vet ikke helt status der. CC til i18n-no@, som bør vite mer.
Det ser ud til at »no.speling.org« (der er et alias for Alioth hos Debian), »www.speling.org« (der et alias for Tyge hos SSLUG), »speling.org«-programpakken og et andet ordlisteprogram bliver blandet sammen her, så jeg vil starte med en lille oversigt over hvad vi snakker om:
------------------------------------------------------------
»speling.org« =============
En samling værktøjer til at korrekturlæse ordlister (som undertegnede er medskyldig i eksistensen af).
»www.speling.org« =================
Websted med henvisninger til udvalgte frie ordlisteprojekter og -programpakker.
»(da|fi|fo|sv|no).speling.org« ==============================
Websteder hvor man kan finde frie ordlister (og eventuelt også være med til at arbejde videre på dem).
Tyge ====
Udviklingsserver hos Skåne Sjælland Linux User Group (SSLUG). Vært for webstederne »da.speling.org«, »fo.speling.org« og »www.speling.org«. Vært for projekter med korrekturlæsning af danske, færøske og norske ordlister med »speling.org«-værktøjerne.
Alioth ======
Udviklingsserver hos Debian. Vært for »no.speling.org«-webstedet.
------------------------------------------------------------
Petter har helt ret i at »speling.org«-værktøjerne kan håndtere oplysninger om ordklasser, bøjningsformer og deslige. Jeg har allerede udnyttet dette (og de oplysninger vi har i det danske ordlisteprojekt) til at demonstrere en prototype på et program der kan fortælle om et givet ord er et plausibelt ord - givet danske regler for sammensatte ord - og hvilke ordklasser det i så fald tilhører.
Her er tallene for hvor mange ord der på nuværende tidspunkt ér klassificerede i den danske ordliste alt efter hvilket udgivelseskriterium vi vælger:
2+) 148878 af 375989 ord (40%) 3+) 129313 af 298673 ord (43%) 4+) 112196 af 205853 ord (55%)
4+ er endnu ikke stor nok til at den er praktisk anvendelig for almindelige brugere. 3+ er på kanten og det er stadig 2+ udgaven der er den vi anbefaler (under betegnelsen »dsdo-1.4«).
Bortset fra den ovennævnte prototype og Hunspell (som jeg ikke har set på endnu) er jeg ikke opmærksom på nogle programmer der potentielt kan udnytte de grammatiske oplysninger vi har samlet i den danske ordliste, men jeg regner med at de kommer - om ikke andet så fordi jeg selv vil skrive et.
Jacob
Petter Reinholdtsen wrote:
Takk for interessant orientering. :)
[Børre Gaup]
- Introduksjon
Systemet for norsk på www.speling.org bygger på arbeidet til Rune Kleven (?), og er et ispellbasert system. Med dette systemet er det mye som er mulig, og mye som ikke er det. Xspell er automater, men ikke transdusere, og kan dermed ikke fortelle oss om et ord er substantiv eller verb, bare om det er en lovlig streng eller ikke.
Så vidt jeg vet er www.speling.org bygget på arbeidet til danskene for å få et dugnadsprosjekt for klassifisering av ord på plass, og jeg tror ikke det i utgangspunktet har de begrensningene du snakker om her. Norsk-biten av det er helt i start-gropa, så jeg vet ikke helt status der. CC til i18n-no@, som bør vite mer.
Hei
Eg har starta å jobbe litt med å få i gang norske ordlister med speling.org. Dette er eigentleg ein base med ord og ikkje noko spesifikk ordliste. Ein kan lagre ein heil masse med informasjon om kvart ord i formatet som speling.org brukar. Du kan lese meir om det her [1]. Frå denne basen med ord (som ikkje er ein database, men reine tekstfiler) kan ein lage ordlister. Det som er kjekt er at systemet kan sende ut ord på e-post til korrekturlesarar, som så kan sende e-post tilbake med rettingar og tillegg.
Eg har no fått ordna konto og oppsett på serveren til danskane. Eg er no i gang med å laste inn orda frå Rune Klevland si ordliste i dette formatet. Så kan dei som vil melde seg på som korrekturlesar, og vi kan starte arbeidet med å få bedre norske ordlister.
Eg ser at danskane har system for å generere ordlister til ispell, aspell, openoffice.org og andre stavekontrollar ut frå denne ordbasen. Det går sikkert fint å låne deira system for dette. Men eg må ha litt hjelp av Jacob Sparre Andersen til dette.
Helsing Håvard
Håvard Korsvoll skrev:
Eg er no i gang med å laste inn orda frå Rune Klevland si ordliste i dette formatet.
Jeg kan afsløre at Håvard allerede har 181.728 ord i bokmålsordlisten og 76.288 i den for nynorsk.
Så kan dei som vil melde seg på som korrekturlesar, og vi kan starte arbeidet med å få bedre norske ordlister.
Systemet er designet sådan at man kan vælge hvor mange ord man vil have forskellige ugedage (praktisk for os der ikke bør bruge for megen tid på ordlisterne på hverdage).
Eg ser at danskane har system for å generere ordlister til ispell, aspell, openoffice.org og andre stavekontrollar ut frå denne ordbasen.
Jep.
Det går sikkert fint å låne deira system for dette. Men eg må ha litt hjelp av Jacob Sparre Andersen til dette.
Jeg må se på at få det program gjort til en del af »speling.org«-pakken. Forhåbentlig kan vi hurtigt komme så langt at Håvard kan generere friske norske ordlistepakker.
Når Håvard og jeg har fået sat postkasserne til korrekturlæsningssystemet op, vil jeg opdatere mit `dictionary_feedback`-program [1], så det automatisk sender nye norske ord fra I- og Aspells brugerordlister til de rette adresser. Jeg giver besked, når den nye udgave af `dictionary_feedback` er klar.
Jacob
[1] http://www.speling.org/#dictionary_feedback
[Håvard Korsvoll]
Eg er no i gang med å laste inn orda frå Rune Klevland si ordliste i dette formatet.
[Jacob Sparre Andersen]
Jeg kan afsløre at Håvard allerede har 181.728 ord i bokmålsordlisten og 76.288 i den for nynorsk.
Det høres veldig bra ut. :)
[Håvard Korsvoll]
Så kan dei som vil melde seg på som korrekturlesar, og vi kan starte arbeidet med å få bedre norske ordlister.
[Jacob Sparre Andersen]
Systemet er designet sådan at man kan vælge hvor mange ord man vil have forskellige ugedage (praktisk for os der ikke bør bruge for megen tid på ordlisterne på hverdage).
Hvordan melder en seg som korrekturleser? Det bør stå noe om dette på URL:http://no.speling.org/.
Kan en også bidra via web? Jeg tror det vil gjøre det enklere for lærere og andre å bidra.
Når Håvard og jeg har fået sat postkasserne til korrekturlæsningssystemet op,
Er dette klart?
Hva med synonymordliste? Kan det hentes ut av denne ord-databasen?
Det som trengs for å lage slik for OOo er en tekstfil med 'ord -> ord, ord, ord', dvs. et ord har følgende ord som synonymer. Formatet er ikke vesentlig (den italienske vedlikeholdes som et excel-regneark er jeg blitt fortalt), men verktøyene som lager datafilen til OOo spiser en semikolonseparert fil med en header besående av lovlige tegn.
Petter Reinholdtsen skrev:
Hvordan melder en seg som korrekturleser?
Ved at skrive til Håvard. Det bør nok være adresserne maintainer@nb.spelingorg og maintainer@nn.speling.org der bliver brugt til dette formål.
Det bør stå noe om dette på URL:http://no.speling.org/.
Enig.
Kan en også bidra via web?
Ikke som det ser ud lige nu, men det vil være meget populært, hvis en eller anden kan lave en PHP-side der kan bruges til det.
Jeg tror det vil gjøre det enklere for lærere og andre å bidra.
Helt enig.
Når Håvard og jeg har fået sat postkasserne til korrekturlæsningssystemet op,
Er dette klart?
Det er tilsyneladende på plads for nynorsk, men ikke for bokmål.
Hva med synonymordliste? Kan det hentes ut av denne ord-databasen?
Der er ikke et program til formålet i »speling.org«-pakken, men det kan klares på kommandolinjen, og det burde ikke være svært at lægge det ind i udgivelsesprocessen.
Det som trengs for å lage slik for OOo er en tekstfil med 'ord -> ord, ord, ord', dvs. et ord har følgende ord som synonymer. Formatet er ikke vesentlig (den italienske vedlikeholdes som et excel-regneark er jeg blitt fortalt), men verktøyene som lager datafilen til OOo spiser en semikolonseparert fil med en header besående av lovlige tegn.
Kan du flikke noget bash-kode sammen, der tager ».ds«-format som inddata, og spytter en OOo-synonymfil ud? Så skal jeg nok lægge det ind i udgivelsesproceduren.
Jacob
[Jacob Sparre Andersen]
Kan du flikke noget bash-kode sammen, der tager ».ds«-format som inddata, og spytter en OOo-synonymfil ud? Så skal jeg nok lægge det ind i udgivelsesproceduren.
Jeg dropper bash, og bruker perl i stedet. Greit?
Jeg tror dette gjør jobben. Det er et kjapt hack. Det er svakt testet på URL:http://da.speling.org/filer/da.source.gz. Det legger ikke ordene inn "begge veier", dvs. kun 'ord1; ord2' og ikke også 'ord2; ord1', men så vidt jeg vet vil OOo-programmet som spiser resultatfilen kompensere for dette. Jeg testet det slik:
zcat da.source.gz | ./speling-extract-synonyms > da.ooo-therasus.txt
Versågod. :)
#!/usr/bin/perl # # Author: Petter Reinholdtsen # Date: 2005-12-02 # # Extract synonyms usable for OOo from the raw data files produced by # www.speling.org software.
use warnings; use strict;
my $debug = 0;
my %words;
my $word; while (<>) { chomp; $word = $1 if /^WORD: (.+)$/; if (/^SYNONYMS?: (.+)$/) { my @synonyms = split(/\s*,\s*/, $1); if (exists $words{$word}) { print "Adding @synonyms\n" if $debug; push @{$words{$word}}, @synonyms; } else { print "Inserting @synonyms\n" if $debug; @{$words{$word}} = @synonyms; } } }
for $word (sort keys %words) { print "$word"; my $lastsynonym = ""; for my $synonym (sort @{$words{$word}}) { print "; $synonym" if ($synonym ne $lastsynonym); $lastsynonym = $synonym; } print "\n"; }
Petter Reinholdtsen skrev:
[Jacob Sparre Andersen]
Kan du flikke noget bash-kode sammen, der tager ».ds«-format som inddata, og spytter en OOo-synonymfil ud? Så skal jeg nok lægge det ind i udgivelsesproceduren.
Jeg dropper bash, og bruker perl i stedet. Greit?
Helt i orden.
Jeg tror dette gjør jobben.
Fint. Tak. Der burde nok være noget tjek for »STATUS: +« og for om ordet er med i ordlisten, men det finder jeg nok ud af. Jeg lægger det ind i »speling.org«-pakken og prøvekører det på de danske og færøske ordlister. Jeg melder tilbage med resultaterne her på listerne.
Det legger ikke ordene inn "begge veier", dvs. kun 'ord1; ord2' og ikke også 'ord2; ord1', men så vidt jeg vet vil OOo-programmet som spiser resultatfilen kompensere for dette.
Det svarer i det mindste til sådan som jeg har forstået at OOo-folkene gerne vil have deres synonymordbog.
Jacob
Petter Reinholdtsen wrote:
Hvordan melder en seg som korrekturleser? Det bør stå noe om dette på URL:http://no.speling.org/.
Hei
Eg må berre orsake at eg ikkje har fått jobba med dette dei siste vekene. Det har vore travelt både på jobb og i fritida. Eg håpar å få gjort noko i løpet av neste veke.
Dei som vil korrekturlese ordlista kan sende ein e-post til meg om kor mange ord dei vil ha tilsendt kvar dag, bokmål eller nynorsk. Eventuelt om ein vil ha fleire/færre ord i helgane eller andre dagar.
Eg har som mål å få opp systemet innan neste fredag, då bør det også vere litt meir informasjon på no.speling.org.
Kan en også bidra via web? Jeg tror det vil gjøre det enklere for lærere og andre å bidra.
Dette håpar eg at vi får til.
Håvard
[Håvard Korsvoll]
Dei som vil korrekturlese ordlista kan sende ein e-post til meg om kor mange ord dei vil ha tilsendt kvar dag, bokmål eller nynorsk. Eventuelt om ein vil ha fleire/færre ord i helgane eller andre dagar.
Jeg forsøker meg med ett ord om dagen. Send ivei. :)
Eg har som mål å få opp systemet innan neste fredag, då bør det også vere litt meir informasjon på no.speling.org.
Nydelig. Jeg aner ikke hva jeg skal gjøre. :)
Petter Reinholdtsen skrev:
Kan en også bidra via web?
Jeg glemte helt at nævne at vi (til dansk og færøsk) har et lille kommandolinjeprogram til at læse korrektur. Det er noget hurtigere at bruge end det postbaserede system, men til gengæld giver man køb på fleksibiliteten i det postbaserede system. Programmet er stadig lidt primitivt (man skal selv indsende den genererede log med korrekturen), men til gengæld sker der ingen ulykker ved at I afprøver den danske udgave.
Der skal laves en (nok minimal) tilpasning, og så skal vi sætte to servere (programmer) op, hvis vi skal stille programmet til rådighed for korrekturlæsning af ordlisterne for bokmål og nynorsk.
Kig på det og sig mig om det er noget vi skal gå videre med. Jeg vil ikke brokke mig spor, hvis der er nogen der laver et bedre/pænere/grafisk program på grundlag af mine ideer.
Jacob
En ting som jeg synes er forvirrende og unødvendig er bruken av forskjellige skilletegn for ord-deling. Ta for eksempel et ord jeg sendte inn i dag:
WORD: sykehjemsplass STATUS: + CLASS: Substantiv (namneord) CONJUGATION: ubestemt eintal HYPHENATION: syke~hjems~plass COMPOSITE-WORD: syke=hjems=plass SYNONYM: CORRECTION: sykehjemsplass
Legg merke til HYPHENATION og COMPOSITE-WORD. Hvorfor brukes ikke samme skilletegn begge plassene. Dokumentasjonen på URL:http://no.speling.org./filformat.html forteller om disse feltene:
HYPHENATION:
Orddeling. Set inn tilder (~), der ordet kan delast og utropsteikn (!) der ordet ikkje kan delast. Merk at det ikkje er nødvendig å setje markeringar der ein er i tvil. For "ordbøker" kan det til dømes vere "ord~b!ø~ker".
COMPOSITE-WORD:
Samansettinga av ordet, viss det er eit samansett ord. For "ordbøker" kan det til dømse vere "ord=bøker". Merk at vi brukar = til å markere samansettingspunktet, på den måten kan vi sjå kor cha-cha-cha=partnar er samansett.
Jeg ville funnet det enklere hvis f.eks. '~' var tegnet som skulle brukes både for å markere orddeling og sammensetning, slik at jeg slipper å undre meg over (og slå opp) om hvor '~' skal brukes, og hvor '=' skal brukes.
Kan script og dokumentasjon endres slik at både '~' og '=' blir akseptert i COMPOSITE-WORD, og så kan vi konvertere de gamle oppføringene til nytt format når det passer seg slik?
Petter Reinholdtsen skrev:
En ting som jeg synes er forvirrende og unødvendig er bruken av forskjellige skilletegn for ord-deling.
Det er sådan set et bevidst valg, da det muliggør brugen af en mere kompakt notation »WORD«-feltet, som man så kan lade et program som `dte` [1] ekspandere inden man sender ordene ind.
Legg merke til HYPHENATION og COMPOSITE-WORD. Hvorfor brukes ikke samme skilletegn begge plassene.
Der er strengt taget ikke noget i vejen for at man accepterer de to tegn som synonyme. Eventuelt kan vi lade modtagerprogrammet på serveren om at omkode til den foretrukne notation.
Jacob
[1] http://www.sslug.dk/%7Egrove/dte/index.shtml
Jacob Sparre Andersen kirjoitti 19. des. 2005 kello 13.40:
En ting som jeg synes er forvirrende og unødvendig er bruken av forskjellige skilletegn for ord-deling.
(...) Der er strengt taget ikke noget i vejen for at man accepterer de to tegn som synonyme. Eventuelt kan vi lade modtagerprogrammet på serveren om at omkode til den foretrukne notation.
Samansetjingspunkt og orddelepunkt er veldefinerte storleikar, og del er grunnleggjande ulike. Spørsmålet er ikkje kor forrvirrande edet er med to ulike symbol, men om det er bruk for å skilje mellom dei to konsepta i programmet. I utgangspunktet vil eg tru at det kan vere nyttig. Vanskane med å skilje mellom dei to teikna er ikkje verre enn at det kan forklarast, og bør ikkje bli brukt som argument mot å gjere dette skiljet.
Ei anna sak er kor naudsynt det er å bruke synbolet for orddelepunkt.Viss alle orddelepunkt kan definerast fonologisk, og alle unntaka er morfologiske, bør det morfologiske teiknet vere nok, jf. Saman=setjings=punkt.
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------
[Trond Trosterud]
Samansetjingspunkt og orddelepunkt er veldefinerte storleikar, og del er grunnleggjande ulike. Spørsmålet er ikkje kor forrvirrande edet er med to ulike symbol, men om det er bruk for å skilje mellom dei to konsepta i programmet.
Når folk skal legge inn informasjon i programmet, så er spørsmålet om det er forvirrende mer relevant enn om programmet internt behandler disse to skillene som to ulike konsepter. Hvilke konsepter programmet trenger å vite om internt er ikke relevant for valg av utvekslingsformat med brukerne. Det er jo tross alt to forskjellige felt (HYPHENATION og COMPOSITE-WORD) som sendes til brukerne. Hvis programmet internt vil slå disse sammen til ett felt, så kan den jo enkelt gjøre det uten at brukerne oppdager endringen.
Jeg blander meg ikke bort i hvordan systemet lagrer informasjonen internt, men synes det vil være greier hvis jeg som skal sende inn data kan gjøre det uten å måtte huske hvilket skilletegn som skal brukes hvor.
Slik det er nå, så slår jeg opp hver gang på URL:http://no.speling.org/filformat.html hver gang jeg skal legge inn både ordskille og forslag til orddeling. Jeg synes det bør være unødvendig og foreslår derfor å forenkle det.
Ei anna sak er kor naudsynt det er å bruke synbolet for orddelepunkt.Viss alle orddelepunkt kan definerast fonologisk, og alle unntaka er morfologiske, bør det morfologiske teiknet vere nok, jf. Saman=setjings=punkt.
Det har jeg ingen peiling på. :)
Petter Reinholdtsen kirjoitti 23. des. 2005 kello 17.03:
Det er jo tross alt to forskjellige felt (HYPHENATION og COMPOSITE-WORD) som sendes til brukerne. Hvis programmet internt vil slå disse sammen til ett felt, så kan den jo enkelt gjøre det uten at brukerne oppdager endringen.
Spørsmålet er "distinksjon eller ikkje distinksjon". Viss du legg data inn i to ulike felt kan symbolet sjølvsagt vere det same, og så kan programmet endre symbolet frå "-" til "=" i det eine feltet og ikkje i det andre når informasjonen seinare blir unifisert.
Ei anna sak er kor naudsynt det er å bruke ulike symbol for orddelepunkt og samansetjingspunkt.Viss alle orddelepunkt kan definerast fonologisk, og alle unntaka er morfologiske, bør det morfologiske samansetjingsteiknet vere nok, jf. Saman=setjings=punkt.
Det har jeg ingen peiling på. :)
Det spørsmålet bør gå til folk med erfaring med slikt arbeid.
Poenget mitt er at så lenge vi har eit program som gjer bruk av denne skilnaden (og det har vi?) så bør han med. To ulike teikn bør vere unødvendig så lenge vi har to ulike felt, men det skapar samtidig redundans. Det med at du ikkje hugsar kva teikn det er kan også fiksast med at dei relevant teikna blir sett i parantes etter presentasjonen til dei ulike felta.
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------
Eg er ikkje med på listene, men svarar i alle fall, sidan eg har fått kopi:
Den 27. des. 2005 kl. 11.24 skrev Trond Trosterud:
Petter Reinholdtsen kirjoitti 23. des. 2005 kello 17.03:
Det er jo tross alt to forskjellige felt (HYPHENATION og COMPOSITE-WORD) som sendes til brukerne. Hvis programmet internt vil slå disse sammen til ett felt, så kan den jo enkelt gjøre det uten at brukerne oppdager endringen.
Spørsmålet er "distinksjon eller ikkje distinksjon". Viss du legg data inn i to ulike felt kan symbolet sjølvsagt vere det same, og så kan programmet endre symbolet frå "-" til "=" i det eine feltet og ikkje i det andre når informasjonen seinare blir unifisert.
Ei anna sak er kor naudsynt det er å bruke ulike symbol for orddelepunkt og samansetjingspunkt.Viss alle orddelepunkt kan definerast fonologisk, og alle unntaka er morfologiske, bør det morfologiske samansetjingsteiknet vere nok, jf. Saman=setjings=punkt.
Det har jeg ingen peiling på. :)
Det spørsmålet bør gå til folk med erfaring med slikt arbeid.
Poenget mitt er at så lenge vi har eit program som gjer bruk av denne skilnaden (og det har vi?) så bør han med. To ulike teikn bør vere unødvendig så lenge vi har to ulike felt, men det skapar samtidig redundans. Det med at du ikkje hugsar kva teikn det er kan også fiksast med at dei relevant teikna blir sett i parantes etter presentasjonen til dei ulike felta.
Utan at eg kjenner den tekniske bakgrunnen for diskusjonen og oppdelinga i felt (og kva eit "felt" er i denne samanhengen), har eg denne merknaden til båe punkta over:
ordelingspunkt er pr. def eit supersett av samansetjingspunkt - alle ordgrenser (=samansetjingspunkt) er orddelingspunkt, og har i tillegg prioritet over andre orddelingspunkt — i det minste ved manuell orddeling, og i system som kan gjera skilnad på prioritetar ved orddeling. Grunnregelen er: del ved ordgrense om mogleg.
Pga denne skilnaden i prioritet, og fordi dei ulike orddelingspunkta (ordgrense, fonologiske og unnatak) potensielt har ulike utganspunkt, bør ein ha ulike symbol for dei. Med eitt likt symbol vil det vera uråd å gjera forskjell på dei, og viktig informasjon vil gå tapt for seinare prosessering.
Dette gjeld uavhengig av kva vertsprogrammet er i stand til (det programmet som skal dela, automatisk eller interaktivt) - orddelingsklienten bør gje så mykje info som mogleg, og så er det opp til klienten å ta omsyn til han eller ikkje.
I høve til interaktiv bruk bør dei tre ulike orddelingspunkta ha ulike symbol, og brukarane lærast opp til å sjå skilnaden mellom dei. Ev. kan ein tenkja seg at det er ei innstilling der ein kan velja om alle slags orddelingspunkt skal slåast i hop til ein type (enklare, men meir feiltruleg orddeling) eller om dei skal vera ulike typar (meir komplisert men samtidig meir korrekt orddeling).
Eg har vore med å laga orddelingskomponenten i MS Office - denne komponenten inneheld morfologisk analyse, og vil alltid føreslå ordgrense som orddelingspunkt. Det er to svakheiter i den løysinga: 1) den morfologiske analysen er ikkje alltid korrekt - dette gjeld særleg samansetjingar av/med korte ord; og 2) MS sin API for orddeling gjer ikkje skilnad på ulike slags orddelingspunkt, og med to punkt med ulik prioritet rett etter kvarandre vil Word ofte velja feil: saman-setjing-s-analyse vil fort kunna bli samansetjing- sanalyse i det ferdige dokumentet (det finst litt mekanikk for å luka ut dei verste bommertane, men dette er lappverk for å bøta på ein alt for enkel API). Altså: dersom ein vil laga god orddeling, må ein ha ein API som tek omsyn til ulike typar orddelingspunkt, ha ein orddelar som kan gje korrekt morfologisk analyse, og bruka eit vertsprogram som er avansert nok til å ta omsyn til ulike slags orddelingspunkt.
Orsak at eg sklei litt ut på slutten, håper det likevel var informativt:-)
Sjur
Trond Trosterud skrev:
Petter Reinholdtsen kirjoitti 23. des. 2005 kello 17.03:
Det er jo tross alt to forskjellige felt (HYPHENATION og COMPOSITE-WORD) som sendes til brukerne. Hvis programmet internt vil slå disse sammen til ett felt, så kan den jo enkelt gjøre det uten at brukerne oppdager endringen.
Rigtigt. Grunden til at vi i DSDO (officielt) bruger to forskellige markører, er at vi har et program der gør at vi kan markere begge oplysninger i »WORD«-feltet (sammen med bøjningsoplysninger), og dernæst få korrekte »WORD«-, »HYPHENATION«- og »COMPOSITE-WORD«-felter genereret udfra de forskellige markører der oprindeligt stod i »WORD«-feltet.
I praksis accepterer vi både ~ og = som markører i både »HYPHENATION«- og »COMPOSITE-WORD«-felterne.
To ulike teikn bør vere unødvendig så lenge vi har to ulike felt,
Enig.
men det skapar samtidig redundans. Det med at du ikkje hugsar kva teikn det er kan også fiksast med at dei relevant teikna blir sett i parantes etter presentasjonen til dei ulike felta.
Vil det ikke være lettere eksplicit at tillade de alternative markører?
Jacob
[Jacob Sparre Andersen]
Rigtigt. Grunden til at vi i DSDO (officielt) bruger to forskellige markører, er at vi har et program der gør at vi kan markere begge oplysninger i »WORD«-feltet (sammen med bøjningsoplysninger), og dernæst få korrekte »WORD«-, »HYPHENATION«- og »COMPOSITE-WORD«-felter genereret udfra de forskellige markører der oprindeligt stod i »WORD«-feltet.
Aha. Det gir mening når det er samme felt, men ikke når det er to separate felt.
I praksis accepterer vi både ~ og = som markører i både »HYPHENATION«- og »COMPOSITE-WORD«-felterne.
Aha.
Vil det ikke være lettere eksplicit at tillade de alternative markører?
Antagelig. Greit for meg. Jeg er spent på når rådataene for bokmål blir tilgjengelig. Jeg har sendt inn endel ord nå, og håper Håvard får lagt ut resultatet på web snart. :)
Hei! Nå har jeg sendt inn endel svar på disse automatiske ord-sjekke-e-postene, men er litt usikker på noen av feltene, utover det som står på spell.norwegian.alioth.debian.org sine sider, og har noen generelle spørsmål:
1. Når man finner en feil i noe man allerede har sendt inn håper jeg det holder å sende de ordene man retter igjen i rettet stand, altså kutter ut de som ble rett, og at automatikken ser av datoen hvilken som er rett? Jeg har gjort det noen ganger.
2. Hvor streng er reglene til «synonymer»? I praksis er jo ingen ord synonyme, så jeg antar det er ment ord som gir en antydning av på hvilken måte ordet skal forstås, slik dokpro.uio.no sine oppslag i bokmåls-/nynorskordboka gjør? Foreslår forøvrig å sette opp alternative bøyningsformer under synonymer, f.eks: fauk og føk, boka og boken.
3. Hva med flertydige ord? Skal man lage en oppføring for hver av betydningene, eller slå dem sammen?
a) F.eks «helliget» Fra bokmålsordboka på nett:
hellige v1 1 holde hellig h-t vorde ditt navn (Matt 6,9, gl oversettelse, nå: la ditt navn holdes hellig) 2 gjøre hellig jeg er Herren som h-r Israel (Esek 37,28) / rettferdiggjøre hensikten h-r middelet 3 vie til en kirke h-t jomfru Maria
1 -> perfektum partisipp(?) 2 -> preteritum 3 -> perfektum partisipp
(Se også: http://no.wikipedia.org/wiki/Verb)
Mitt forslag:
WORD: helliget STATUS: + CLASS: Substantiv CONJUGATION: perfektum partisipp / preteritum (...)
b) Eller: WORD: slasket STATUS: + CLASS: adjektiv CONJUGATION: -et / -ete (to bøyningsformer)
Neste spørsmål til dette er altså: Hvordan skriver vi i så fall to ulike oppføringer på samme linje? (Jeg har altså brukt skråstrek, men det er kanskje feil?)
4. Hvor strenge er vi til nydannelser? Dyrekjære godtok jeg f.eks da det er dannet etter kjent metode: substantiv+kjær, f.eks kvinnekjær og trettekjær. Men siden det ikke står i ordboka (iallfall ikke den på nettet, noen annen har jeg ikke tilgjengelig nå), så kunne vi strengt tatt sagt at det ordet ikke er godtatt, men jeg regner med vi ikke er så strenge? Men om vi blir for liberale så er jo noe av meningen med en stavekontroll borte, hvis den altså godtar feil ord. Rettet f.eks. overtredere til lovovertredere, da bare sistnevnte står i ordboka.
5. Sammensatte ord. Jeg har lagt inn alle sammensatte ord (se ellers forrige punkt).
6. Kan ordene jeg setter inn som synonymer også legges inn automatisk?
7. Ser postene jeg sender kan slå sammen ulike linjer til en, har det noe å si?
8. Kan vi legge inn datoen som en del av emnefeltet, altså ikke bare: [ORDSJEKK] Bokmålsord til korrekturlesing men f.eks: [ORDSJEKK] Bokmålsord til korrekturlesing 17.12.05 Det gjør det lettere å finne fram i dem :-)
----------
Puuh, ble en lang posting, men, men ...
Mvh Axel
[Axel Bojer]
- Når man finner en feil i noe man allerede har sendt inn håper jeg det
holder å sende de ordene man retter igjen i rettet stand, altså kutter ut de som ble rett, og at automatikken ser av datoen hvilken som er rett? Jeg har gjort det noen ganger.
Vet ikke, men antar en må sende inn en negativ oppføring for å markere at en mener ordet er feil.
- Hvor streng er reglene til «synonymer»? I praksis er jo ingen ord
synonyme, så jeg antar det er ment ord som gir en antydning av på hvilken måte ordet skal forstås, slik dokpro.uio.no sine oppslag i bokmåls-/nynorskordboka gjør? Foreslår forøvrig å sette opp alternative bøyningsformer under synonymer, f.eks: fauk og føk, boka og boken.
Min ide for det feltet er å bruke den til å mate thesaurus-biten av OOo, og at det derfor bør inneholde ord med omtrent samme betydning som oppslagsordet. Beskrivelse bør vel legges i feltet DESCRIPTION, så SYNONYM bør dermed brukes til å oppgi ord med samme betydning. Jeg vil jo påstå at det i praksis finnes synonymer, f.eks. er jo sykkel og tohjuling, og magasin og hefte synonyme ord.
- Hva med flertydige ord? Skal man lage en oppføring for hver av
betydningene, eller slå dem sammen?
Jeg har sendt inn flere oppføringer for ord med flere betydninger. Jeg fikk tilsendt 'finere', som jo både er et verb og et adjektiv, og sendte inn begge betydningene.
a) F.eks «helliget» Fra bokmålsordboka på nett:
hellige v1 1 holde hellig h-t vorde ditt navn (Matt 6,9, gl oversettelse, nå: la ditt navn holdes hellig) 2 gjøre hellig jeg er Herren som h-r Israel (Esek 37,28) / rettferdiggjøre hensikten h-r middelet 3 vie til en kirke h-t jomfru Maria
1 -> perfektum partisipp(?) 2 -> preteritum 3 -> perfektum partisipp
(Se også: http://no.wikipedia.org/wiki/Verb)
Mitt forslag:
WORD: helliget STATUS: + CLASS: Substantiv CONJUGATION: perfektum partisipp / preteritum (...)
Er ikke helliget et verb, ikke et substantiv? Jeg skulle gjerne hatt mer info på URL:http://no.speling.org./filformat.html om hvilke conjugation som bør brukes til hvilke klasser, og mer språknøytrale og konsise klassenavn. F.eks. har jeg hittill fyllt inn "Substantiv (namneord)" som klasse, mens jeg har lurt på om det ikke i stedet bare burde stå "Substantiv".
- Ser postene jeg sender kan slå sammen ulike linjer til en, har det
noe å si?
Hva mener du her?
- Kan vi legge inn datoen som en del av emnefeltet, altså ikke bare:
[ORDSJEKK] Bokmålsord til korrekturlesing men f.eks: [ORDSJEKK] Bokmålsord til korrekturlesing 17.12.05 Det gjør det lettere å finne fram i dem :-)
Hvis det skal inn dato, så vil jeg heller ha 2005-12-17 som datoformat.
Ellers så er det bare a oppdatere websidene på alioth med mer og klarere informasjon. :)
Petter Reinholdtsen wrote:
[Axel Bojer]
- Når man finner en feil i noe man allerede har sendt inn håper jeg det
holder å sende de ordene man retter igjen i rettet stand, altså kutter ut de som ble rett, og at automatikken ser av datoen hvilken som er rett? Jeg har gjort det noen ganger.
Vet ikke, men antar en må sende inn en negativ oppføring for å markere at en mener ordet er feil.
Hva mener du konkret med en "negativ oppføring"? :-)
- Hvor streng er reglene til «synonymer»? I praksis er jo ingen ord
synonyme, så jeg antar det er ment ord som gir en antydning av på hvilken måte ordet skal forstås, slik dokpro.uio.no sine oppslag i bokmåls-/nynorskordboka gjør? Foreslår forøvrig å sette opp alternative bøyningsformer under synonymer, f.eks: fauk og føk, boka og boken.
Min ide for det feltet er å bruke den til å mate thesaurus-biten av OOo, og at det derfor bør inneholde ord med omtrent samme betydning som oppslagsordet. Beskrivelse bør vel legges i feltet DESCRIPTION, så SYNONYM bør dermed brukes til å oppgi ord med samme betydning. Jeg vil jo påstå at det i praksis finnes synonymer, f.eks. er jo sykkel og tohjuling, og magasin og hefte synonyme ord.
Ja, ok. Men der det blir usikkert er vel heller bil=skranglekasse=rustholk. Men om det skal brukes i en synonymordbok så bør vel de med, da poenget ikke er å finne klin like ord i en synonymordbok, men ord som ligner.
- Hva med flertydige ord? Skal man lage en oppføring for hver av
betydningene, eller slå dem sammen?
Jeg har sendt inn flere oppføringer for ord med flere betydninger. Jeg fikk tilsendt 'finere', som jo både er et verb og et adjektiv, og sendte inn begge betydningene.
Ok. Skrev du da:
WORD: finere CLASS: verb/substantiv
eller?
a) F.eks «helliget» Fra bokmålsordboka på nett:
hellige v1
(...)
WORD: helliget
(...)
Er ikke helliget et verb, ikke et substantiv? Jeg skulle gjerne hatt
Jo, jeg skrev bare feil :-(
- Ser postene jeg sender kan slå sammen ulike linjer til en, har det
noe å si?
Hva mener du her?
Eks.: WORD: slitere STATUS: + CLASS: substantiv CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere (...)
- Kan vi legge inn datoen som en del av emnefeltet, altså ikke bare:
[ORDSJEKK] Bokmålsord til korrekturlesing men f.eks: [ORDSJEKK] Bokmålsord til korrekturlesing 17.12.05 Det gjør det lettere å finne fram i dem :-)
Hvis det skal inn dato, så vil jeg heller ha 2005-12-17 som datoformat.
:-)
Mvh Axel
[Axel Bojer]
Hva mener du konkret med en "negativ oppføring"? :-)
En der 'STATUS: -' er brukt.
Ja, ok. Men der det blir usikkert er vel heller bil=skranglekasse=rustholk. Men om det skal brukes i en synonymordbok så bør vel de med, da poenget ikke er å finne klin like ord i en synonymordbok, men ord som ligner.
Jepp.
- Hva med flertydige ord? Skal man lage en oppføring for hver av
betydningene, eller slå dem sammen?
Jeg har sendt inn flere oppføringer for ord med flere betydninger. Jeg fikk tilsendt 'finere', som jo både er et verb og et adjektiv, og sendte inn begge betydningene.
Ok. Skrev du da:
WORD: finere CLASS: verb/substantiv
Jeg laget to blokker i mailen, en med
WORD: finere Class: Verb
og en med
WORD: finere CLASS: Substantiv (namneord)
Jeg har også av og til sendt inn flere blokker for et ord jeg fikk tilsendt, med alle bøyningsformene av ordet.
Hvor blir de ordene vi sender inn av? Jeg vil se resultatet på web. Jeg fant ikke noe på alioth, men ser kanskje på feil plass?
- Ser postene jeg sender kan slå sammen ulike linjer til en, har det
noe å si?
Hva mener du her?
Eks.: WORD: slitere STATUS: + CLASS: substantiv CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere (...)
Jeg tror ikke en kan skrive to felter på samme linje, men at en må ha dem på separate linjer, slik:
WORD: slitere STATUS: + CLASS: substantiv CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere
Jeg har aldri sett dem på samme linje. Er du sikker på at det ikke er noe mailprogrammet ditt gjør?
Petter Reinholdtsen wrote:
[Axel Bojer]
Hva mener du konkret med en "negativ oppføring"? :-)
En der 'STATUS: -' er brukt.
Du mener: Først en med status: -, deretter samme ord en gang til, men nå i rett form? Poenget mitt var at ordet er rett, men noe av informasjonen mangler, f.eks kommer jeg på et synonym, eller glemte å sette inn orddelinga mm. Da har jeg bare sendt ordet en gang til i rettet form. Virker ikke det? (...)
- Hva med flertydige ord? Skal man lage en oppføring for hver av
betydningene, eller slå dem sammen?
Jeg har sendt inn flere oppføringer for ord med flere betydninger. Jeg fikk tilsendt 'finere', som jo både er et verb og et adjektiv, og sendte inn begge betydningene.
Ok. Skrev du da:
WORD: finere CLASS: verb/substantiv
Jeg laget to blokker i mailen, en med
WORD: finere Class: Verb
og en med
WORD: finere CLASS: Substantiv (namneord)
Jeg har også av og til sendt inn flere blokker for et ord jeg fikk tilsendt, med alle bøyningsformene av ordet.
ok. Kan noen bekrefte at dette er rett metode (eller vet du selv at det helt sikkert at det er det)? (...)
- Ser postene jeg sender kan slå sammen ulike linjer til en, har det
noe å si?
Hva mener du her?
Eks.: WORD: slitere STATUS: + CLASS: substantiv CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere (...)
Jeg tror ikke en kan skrive to felter på samme linje, men at en må ha dem på separate linjer, slik:
WORD: slitere STATUS: + CLASS: substantiv CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere
Jeg har aldri sett dem på samme linje. Er du sikker på at det ikke er noe mailprogrammet ditt gjør?
Det er absolutt noe e-postprogrammet mitt gjør, særlig når et av felten er tomme, f.eks: SYNONYM: CORRECTION: Karlsrud
Vet ikke helt hvordan jeg skulle ha rettet på det, da dette først skjer idet den sendes og ikke er synlig før den er sendt ...
Mvh Axel
[Axel Bojer]
En der 'STATUS: -' er brukt.
Du mener: Først en med status: -, deretter samme ord en gang til, men nå i rett form? Poenget mitt var at ordet er rett, men noe av informasjonen mangler, f.eks kommer jeg på et synonym, eller glemte å sette inn orddelinga mm. Da har jeg bare sendt ordet en gang til i rettet form. Virker ikke det?
Ah, jo hvis ordet stemmer men meta-informasjonen var feil, så bør nok 'STATUS: +' brukes med oppdatert informasjon. jeg antar at begge dine innsendinger vil bli lagt til i resultatfilen, og at det blir opp til program som leser denne filen å velge hvilken oppføring som skal brukes.
ok. Kan noen bekrefte at dette er rett metode (eller vet du selv at det helt sikkert at det er det)?
Jeg vet det ikke helt sikkert, men så vidt jeg kan se av koden til mottaks-systemet så blir hver blokk lagt til i resultatfilen, og jeg antok derfor at slik dobbeltoppføring er måten å håndtere to ord med samme stavemåte. Det er jo i realiteten to helt separate ord, som tilfeldigvis består av samme bokstavsekvens, og dermed bør de ha separate oppføringer i ord-databasen, synes jeg. :)
Jeg og Axel jobbet med formatbeskrivelsen i kveld, og tror den er klar (med unntak av manglende regelsamling for nynorsk). Er det da noe som er feil, uklart eller bør endres? Her er det som nå står på URL:http://no.speling.org/filformat.html.
no.speling.org
Dei frie norske ordlistene
- er ei samling av norske ord og informasjon om dei.
Skildring av filformatet ordlista vert lagra i
Ordlista vert lagra i ei tekstfil som er bygd på same måte som brevhovuda i e-post. Postane er skilde med blanke linjer. Kvar post er bygd opp av fleire linjer som består av eit feltnamn, strengen «: » og data for feltet.
Feltene WORD, STATUS og EDITOR må brukes. Vi anbefaler i tillegg å føre opp ROOT, CLASS, CONJUGATION og CONJUGATION-RULE hvis ordklassen er kjent, COMPOSITE-WORD hvis ordet er satt sammen av flere ord, HYPHENATION for ord med spesielle orddelingsposisjoner og SYNONYM.
Feltnamn som vert akseptert
WORD: Det ord eller uttrykk som denne posten omhandlar. Til dømes «ordbøker». STATUS: Rett staving (+), feil staving (-) eller uklart (?). CLASS: Les i Wikipedia om ordklassane.
Ordklassane er:
(Skråstreken anger at vala utelukkar kvarandre, medan komma anger at dei er alternativar.) +-------------------------------------------------------------------------+ |Ordklasse |Bøyingsform (CONJUGATION) | |(CLASS) | | |---------------+---------------------------------------------------------| |Substantiv |entall/flertall, bestemt/ubestemt, genitiv | |---------------+---------------------------------------------------------| |Egennavn |genitiv | |---------------+---------------------------------------------------------| |Adjektiv |entall/flertall, positiv/komparativ/superlativ, | | |intetkjønn | |---------------+---------------------------------------------------------| |Adverb |positiv/komparativ/superlativ | |---------------+---------------------------------------------------------| |Verb |infinitiv/presens/preteritum/perfektum partisipp/ | | |imperativ/passiv | |---------------+---------------------------------------------------------| |Pronomen |(bøyest ikkje) | |---------------+---------------------------------------------------------| |Determinativ |(bøyest ikkje) | |---------------+---------------------------------------------------------| |Preposisjon |(bøyest ikkje) | |---------------+---------------------------------------------------------| |Konjunksjon |(bøyest ikkje) | |---------------+---------------------------------------------------------| |Subjunksjon |(bøyest ikkje) | |---------------+---------------------------------------------------------| |Interjeksjon |(bøyest ikkje) | +-------------------------------------------------------------------------+
Det er to kjente regelsamlinger, én for bokmål og én for nynorsk.
Regelsamling for bokmål (språkrådet/nb)
Substantiv
+-------------------------------------------------------------------------+ | |ubestemt, |bestemt, |ubestemt, flertall|bestemt, flertall | | |entall |entall | | | |--+---------------+--------------+------------------+--------------------| |--+---------------+--------------+------------------+--------------------| |f1|bru |brua |bruer |bruene | |--+---------------+--------------+------------------+--------------------| | |pumpe |pumpa |pumper |pumpene | |--+---------------+--------------+------------------+--------------------| |m1|stol |stolen |stoler |stolene | |--+---------------+--------------+------------------+--------------------| | |bakke |bakken |bakker |bakkene | |--+---------------+--------------+------------------+--------------------| |m2|lærer |læreren |lærere |lærerne | |--+---------------+--------------+------------------+--------------------| |m3|bever |beveren |bevere el. bevrer |beverne el. bevrene | |--+---------------+--------------+------------------+--------------------| |n1|slott |slottet |slott |slotta el. slottene | |--+---------------+--------------+------------------+--------------------| |n2|eple |eplet |epler |epla el. eplene | |--+---------------+--------------+------------------+--------------------| |n3|kontor |kontoret |kontor el. |kontora el. | | | | |kontorer |kontorene | |--+---------------+--------------+------------------+--------------------| |n4|salt |saltet |salter |salta el. saltene | +-------------------------------------------------------------------------+
Adjektiv
+--------------------------------------------------------------------+ | |Hankjønn |Hunkjønn |Intetkjønn |Flertall | |--+-----------+-----------+-----------+-----------------------------| |a1|god |god |godt |gode | |--+-----------+-----------+-----------+-----------------------------| |a2|norsk |norsk |norsk |norske | |--+-----------+-----------+-----------+-----------------------------| |a3|ekte |ekte |ekte |ekte | |--+-----------+-----------+-----------+-----------------------------| |a4|oppskjørtet|oppskjørtet|oppskjørtet|oppskjørtede el. oppskjørtete| |--+-----------+-----------+-----------+-----------------------------| |a5|makaber |makaber |makabert |makabre | |--+-----------+-----------+-----------+-----------------------------| | |lunken |lunken |lunkent |lunkne | +--------------------------------------------------------------------+
Verb
+--------------------------------------------------------------------+ | |Infinitiv|Presens (nåtid)|Preteritum (fortid)|Perfektum partisipp| |--+---------+---------------+-------------------+-------------------| |v1|kaste |kaster |kasta el. kastet |kasta el. kastet | |--+---------+---------------+-------------------+-------------------| |v2|lyse |lyser |lyste |lyst | |--+---------+---------------+-------------------+-------------------| |v3|leve |lever |levde |levd | |--+---------+---------------+-------------------+-------------------| |v4|nå |når |nådde |nådd | |--+---------+---------------+-------------------+-------------------| | |bie |bier |bidde |bidd | +--------------------------------------------------------------------+
Legg merke til at vi ikkje reknar egennavn som substantiv.
Regelsamling for nynorsk (språkrådet/nn)
Her må det fylles inn noe
Viss eit ord tilhøyrer fleire klassar, så skal det føras opp fleire gonger, ein for hver klasse. Dette er nødvendig for å kopla bøyningsinformasjon korrekt sammen med klasse. Til dømes ordet hoppe som både er ein hest og verbet å hoppe:
WORD: hoppe CLASS: Substantiv CONJUGATION: ubestemt, entall CONJUGATION-RULE: språkrådet/nb: f1 ...
WORD: hoppe CLASS: Substantiv CONJUGATION: ubestemt, entall CONJUGATION-RULE: språkrådet/nb: m1 ...
WORD: hoppe CLASS: Verb CONJUGATION: infinitiv CONJUGATION-RULE: språkrådet/nb: v1 ...
CONJUGATION: Bøying. Avhengig av ordklassen. Sjå tabellen over. CONJUGATION: bestemt, flertall CONJUGATION-RULE: Regel for bøyinga av ordet. Formatet er anten «som <mønsterord>» eller « <regelsamling>: <regel-id>». Det er en regelsamling definert for bokmål, «språkrådet/nb», og en for nynorsk, «språkrådet/nn». Det er disse regelsamlingene som er angitt over. ROOT: Grunnforma av ordet. For «ordbøker» vil det til dømes vere «ordbok». For utsagnsord er det namnemåten. HYPHENATION: Orddeling. Set inn likskapsteikn (=), der ordet kan delast og utropsteikn (!) der ordet ikkje kan delast. Merk at det ikkje er nødvendig å setje markeringar der ein er i tvil. For «ordbøker» kan det til dømes vere «ord= b!ø=ker». COMPOSITE-WORD: Samansettinga av ordet, viss det er eit samansett ord. For «ordbøker» kan det til dømes vere «ord=bøker». Merk at vi brukar = til å markere samansettingspunktet, på den måten kan vi sjå kor «cha-cha-cha=partnar» er samansett. Sidan orddeling og ordsamansetjing er to ulike felt er det ingen grunn til å gjera skilnad på deleteiknet. SYNONYM: Synonym. For «bil» kan det til dømes stå «automobil», «køyretøy» eller «motorvogn». Fleire val kan stå på ei rekkje om du skiljer dei med komma. Orda går inn i ei synonymordliste ANTONYM: Antonym. For «oppe» kan det til dømes stå «nede». PRONUNCIATION: Uttale. CORRECTION: Retting. Viss ordet er stava feil kan dette feltet brukast til ei gjetting på kva som meinast. AUTHORITY: Ei autoritativ kjelde, der informasjonen i denne post stammar frå. Typisk «Nynorsk ordliste». SOURCE: Kjelde (spesielt til dømet). EXAMPLE: Døme på bruk av ordet. Til dømes «Vi har starta å skrive nokre ordbøker.». CATEGORY: Kategorisering/fagområde. Viss feltet er tomt vert ordet rekna som eit vanleg ord. Ellers så kan det stå ei liste med kategoriar. Det kan blandt anna vere: «fysikk», «medisin», «geologi», «biologi», «kjemi» og «matematikk». Ein spesiell kategori er «generell» som betyr at ordet er eit vanleg ord. COMMENT: Ein generell kommentar, som ikkje passar inn i nokon av dei andre felta. DESCRIPTION: Ein skildring av tydinga av ordet. TRANSLATION-XX-WORD: Kommaseparert liste med omsetjingar av ordet til språket «XX». XX er dei offisielle kodane frå ISO 639. Kjende kodar er: da, de, en, fo (færøysk), fr, it, no, sv TRANSLATION-XX-COMMENT: Forklaring om bruken av omsetjinga til språket XX. Meir om locale-koder, med lenkjer. EDITOR: Namn og e-postadresse til forfattaren av informasjonen i denne posten. DATE: Dato for utarbeiding av denne posten.
-------------------------------------------------------------------------------
Skulelinux sine frie norske ordlister vert utarbeidd i sambarbeid med SSLUG sitt lokaliseringsarbeide.
Denne sida vert vedlikehaldt av Håvard Korsvoll (korsvoll@skulelinux.no)
På Mon, 20 Feb 2006 00:34:16 +0100, skrev Petter Reinholdtsen pere@hungry.com:
Jeg og Axel jobbet med formatbeskrivelsen i kveld, og tror den er klar (med unntak av manglende regelsamling for nynorsk). Er det da noe som er feil, uklart eller bør endres? Her er det som nå står på URL:http://no.speling.org/filformat.html.
...
|---------------+---------------------------------------------------------| |Adjektiv |entall/flertall,positiv/komparativ/superlativ, | | |intetkjønn |
Berre inkjekjønn?
Med helsing, Gaute Hvoslef Kvalnes
mandag 20. februar 2006, 18:00, skrev Gaute Hvoslef Kvalnes:
På Mon, 20 Feb 2006 00:34:16 +0100, skrev Petter Reinholdtsen
Jeg og Axel jobbet med formatbeskrivelsen i kveld, og tror den er klar (med unntak av manglende regelsamling for nynorsk). Er det da noe som er feil, uklart eller bør endres? Her er det som nå står på URL:http://no.speling.org/filformat.html.
...
|---------------+---------------------------------------------------- |-----| Adjektiv |entall/flertall,positiv/komparativ/superlativ, |
|intetkjønn |
Berre inkjekjønn?
Nei, selvsagt ikke, men meningen er at enten angir du intetkjønn eller ingenting. Mulig dette ikke er klart, men hensikten fra min side er å gi brukeren minst mulig å skrive (hannkjønns- og hunnkjønnsvariantene er jo like). Det samme gjelder genitiv, der alternativet er enten genitiv eller ingenting. Skal vi skrive inn en «0» og fortelle at dette er alternativet, altså genitiv/0? I tilfelle intetkjlnn vil ingen angovelse bety hannkjønn eller hunnkjønn, men mulig det finnes en bedre måte å løse dette på?
Mvh Axel
På Tue, 21 Feb 2006 12:48:28 +0100, skrev Axel Bojer axelb@skolelinux.no:
mandag 20. februar 2006, 18:00, skrev Gaute Hvoslef Kvalnes:
Berre inkjekjønn?
Nei, selvsagt ikke, men meningen er at enten angir du intetkjønn eller ingenting. Mulig dette ikke er klart, men hensikten fra min side er å gi brukeren minst mulig å skrive (hannkjønns- og hunnkjønnsvariantene er jo like).
Eg tenkte på eit adjektiv som «liten»:
en liten gutt ei lita jente et lite barn
... men det er nok eit unntak, for eg har ikkje kome på fleire adjektiv med tre ulike former.
Det samme gjelder genitiv, der alternativet er enten genitiv eller ingenting. Skal vi skrive inn en «0» og fortelle at dette er alternativet, altså genitiv/0?
Eg trur det er greitt å la det stå umarkert. Som du seier, er det enklare for brukaren.
I tilfelle intetkjlnn vil ingen angovelse bety hannkjønn eller hunnkjønn, men mulig det finnes en bedre måte å løse dette på?
Kva med felleskjønn/hankjønn/hokjønn/inkjekjønn? Då kan felleskjønn godt vera umarkert, men det er likevel opning for ulike former i hankjønn og hokjønn.
Med helsing, Gaute Hvoslef Kvalnes
PÃ¥ Tue, 21 Feb 2006 12:48:28 +0100, skrev Axel Bojer axelb@skolelinux.no:
mandag 20. februar 2006, 18:00, skrev Gaute Hvoslef Kvalnes:
Berre inkjekjønn?
Nei, selvsagt ikke, men meningen er at enten angir du intetkjønn eller ingenting. Mulig dette ikke er klart, men hensikten fra min side er å gi brukeren minst mulig å skrive (hannkjønns- og hunnkjønnsvariantene er jo like).
Eg tenkte på eit adjektiv som «liten»:
en liten gutt ei lita jente et lite barn
... men det er nok eit unntak, for eg har ikkje kome på fleire adjektiv med tre ulike former.
Hmm, stemmer, men det du skisserer nederst kunne løst det problemet.
Det samme gjelder genitiv, der alternativet er enten genitiv eller ingenting. Skal vi skrive inn en «0» og fortelle at dette er alternativet, altså genitiv/0?
Eg trur det er greitt å la det stå umarkert. Som du seier, er det enklare for brukaren.
ok, da lar vi den stå.
I tilfelle intetkjlnn vil ingen angovelse bety hannkjønn eller hunnkjønn, men mulig det finnes en bedre måte å løse dette på?
Kva med felleskjønn/hankjønn/hokjønn/inkjekjønn? Då kan felleskjønn godt vera umarkert, men det er likevel opning for ulike former i hankjønn og hokjønn.
Ja, den er fin. Mao: ingen angivelse=en fellesform for hann- og hokjønnsord, hokjønn, intetkjønn, hannkjønn angis bare hvis det er en annen form. Det vanligste vil altså være enten ingenting (altså felleskjønn) eller intetkjønn. Men dette må vi kanskje forklare brukerne også, det er kanskje det største problemet? Forstår dere andre lesere av dette hva som menes nå? Hvis ikke betyr det kanskje at ideen ikke er så god :-P Mvh Axel
On 2/21/06, axelb@skolelinux.no axelb@skolelinux.no wrote:
PÃ¥ Tue, 21 Feb 2006 12:48:28 +0100, skrev Axel Bojer axelb@skolelinux.no:
mandag 20. februar 2006, 18:00, skrev Gaute Hvoslef Kvalnes:
Berre inkjekjønn?
Nei, selvsagt ikke, men meningen er at enten angir du intetkjønn eller ingenting. Mulig dette ikke er klart, men hensikten fra min side er å gi brukeren minst mulig å skrive (hannkjønns- og hunnkjønnsvariantene er jo like).
Eg tenkte på eit adjektiv som «liten»:
en liten gutt ei lita jente et lite barn
... men det er nok eit unntak, for eg har ikkje kome på fleire adjektiv med tre ulike former.
I tilfelle intetkjlnn vil ingen angovelse bety hannkjønn eller hunnkjønn, men mulig det finnes en bedre måte å løse dette på?
Kva med felleskjønn/hankjønn/hokjønn/inkjekjønn? Då kan felleskjønn godt vera umarkert, men det er likevel opning for ulike former i hankjønn og hokjønn.
Ja, den er fin. Mao: ingen angivelse=en fellesform for hann- og hokjønnsord, hokjønn, intetkjønn, hannkjønn angis bare hvis det er en annen form. Det vanligste vil altså være enten ingenting (altså felleskjønn) eller intetkjønn. Men dette må vi kanskje forklare brukerne også, det er kanskje det største problemet? Forstår dere andre lesere av dette hva som menes nå? Hvis ikke betyr det kanskje at ideen ikke er så god :-P Mvh Axel
Jeg vil foreslå at i de tilfeller der et ord gjelder flere ting kan disse listes opp med et plusstegn imellom.
WORD: ekte STATUS: ? CLASS: Adjektiv CONJUGATION: entall+flertall, positiv, hannkjønn+hunkjønn+intetkjønn CONJUGATION-RULE: språkrådet/nb: a3 ROOT: ekte HYPHENATION: ek=te //COMPOSITE-WORD: SYNONYM: virkelig, sannferdig ANTONYM: falsk, usannferdig, etterligning //PRONUNCIATION: //CORRECTION: AUTHORITY: http://no.speling.org/filformat.html SOURCE: http://no.speling.org/filformat.html EXAMPLE: At ei ekte prinsesse gir en en ekte frosk et ekte kyss er et av mange ekte eventyrplott. CATEGORY: generell //COMMENT: //DESCRIPTION: //TRANSLATION-XX-WORD: //TRANSLATION-XX-COMMENT: EDITOR: Håkon Løvdal hlovdal@gmail.com DATE: 2006-02-21
Og så tillate forkortelser helt intill at starten av ordet er unikt, dvs CONJUGATION: e+f, p, ha+hu+i (kanskje også med en spesialforkortelse h=hankjønn+hunkjønn)
Dette vil etter min mening være superintuitivt. (Den eneste ulempen jeg kan tenke meg er at noen ville kunne bli fristet til å prøve WORD: hoppe CLASS: verb+substantiv men det er jo allerede forklart at slik sammenslåing ikke skal brukes, så jeg kan ikke se det som noe problem.)
I de tilfeller der et ord har forskjellig bøyning bruker man klipp og lim med en entry (noe godt norsk ord her?) for hver
WORD: liten STATUS: ? CLASS: Adjektiv CONJUGATION: entall, positiv, hannkjønn CONJUGATION-RULE: språkrådet/nb: <<mangler>> ROOT: liten HYPHENATION: lit=en SYNONYM: mikroskopisk ANTONYM: stor, enorm, massiv AUTHORITY: i18n-no@lister.ping.uio.no SOURCE: i18n-no@lister.ping.uio.no EXAMPLE: en liten gutt CATEGORY: generell EDITOR: Håkon Løvdal hlovdal@gmail.com DATE: 2006-02-21
WORD: lita <<alle andre felt som for liten>> CONJUGATION: entall, positiv, hunkjønn HYPHENATION: li=ta EXAMPLE: ei lita jente
WORD: lite <<alle andre felt som for liten>> CONJUGATION: entall, positiv, intetkjønn HYPHENATION: li=te EXAMPLE: et lite barn
WORD: små <<alle andre felt som for liten>> CONJUGATION: flertall, positiv HYPHENATION: s!må EXAMPLE: flere små unger COMMENT: blir det riktig å sette "små" som flertall av liten?
Mvh Håkon Løvdal
PS Det kan vel reises tvil om hvor ekte frosken er i de tilfellene den faktisk er en forhekset prins, men men...
[Håkon Løvdal]
Jeg vil foreslå at i de tilfeller der et ord gjelder flere ting kan disse listes opp med et plusstegn imellom.
Jeg tror det både for konsistensens del og for automatisk lesings del bør skrives separate blokker for alle mulige tolkning av et ord, og at en derfor ikke bør bruke pluss-tegn imellom noen av verdiene.
Det vil være konsistent med hvordan ordklassen skal håndteres, og separate blokker vil være enklere å håndtere maskinelt da en ikke trenger å gjette hvilke varianter som hører sammen.
Axel Bojer skrev:
- Når man finner en feil i noe man allerede har sendt inn
håper jeg det holder å sende de ordene man retter igjen i rettet stand, altså kutter ut de som ble rett, og at automatikken ser av datoen hvilken som er rett? Jeg har gjort det noen ganger.
Det er den bedste procedure, men med det nuværende format er det ikke helt let at rette sine egne fejltagelser i de sekundære felter (andre end »WORD«). Jeg forsøger at finde en fornuftig løsning på problemet.
- Hvor streng er reglene til «synonymer»?
Så strenge som dem der redigerer ordlisten mener de bør være.
Foreslår forøvrig å sette opp alternative bøyningsformer under synonymer, f.eks: fauk og føk, boka og boken.
Det gør vi også i DSDO og FOTR.
- Hva med flertydige ord? Skal man lage en oppføring for
hver av betydningene, eller slå dem sammen?
Ideelt set bør der være en indgang for hver betydning. Hvis man blander flere betydninger sammen i én indgang, kan computeren i det mindste ikke længere hjælpe os med at skelne.
- Hvor strenge er vi til nydannelser?
Det er (som 2.) en redaktionel beslutning som jeg ikke bør blande mig i.
- Sammensatte ord. Jeg har lagt inn alle sammensatte ord
(se ellers forrige punkt).
Det synes jeg også er en god idé.
- Kan ordene jeg setter inn som synonymer også legges inn
automatisk?
Det er der i princippet ikke noget i vejen for. Som systemet kører nu bliver indholdet af felterne »CORRECTION«, »SYNONYM«, »ANTONYM« og »ROOT« dog kun registreret som forslag (»STATUS: ?«) og ikke som deciderede tilføjelser (»STATUS: +«) til ordlisten.
- Ser postene jeg sender kan slå sammen ulike linjer til
en, har det noe å si?
Øh? Jeg kan ikke lige forstå hvad du mener med det.
- Kan vi legge inn datoen som en del av emnefeltet, altså ikke bare:
[ORDSJEKK] Bokmålsord til korrekturlesing men f.eks: [ORDSJEKK] Bokmålsord til korrekturlesing 17.12.05 Det gjør det lettere å finne fram i dem :-)
Det _kan_ man selvfølgelig godt, men der er jo allerede ét datostempel i beskederne.
Jacob
Jacob Sparre Andersen wrote:
Axel Bojer skrev:
- Når man finner en feil i noe man allerede har sendt inn håper jeg
det holder å sende de ordene man retter igjen i rettet stand, altså kutter ut de som ble rett, og at automatikken ser av datoen hvilken som er rett? Jeg har gjort det noen ganger.
Det er den bedste procedure, men med det nuværende format er det ikke helt let at rette sine egne fejltagelser i de sekundære felter (andre end »WORD«). Jeg forsøger at finde en fornuftig løsning på problemet.
Ville vært fint :-) Noen ide om hvordan?
- Hvor streng er reglene til «synonymer»?
Så strenge som dem der redigerer ordlisten mener de bør være.
Foreslår forøvrig å sette opp alternative bøyningsformer under synonymer, f.eks: fauk og føk, boka og boken.
Det gør vi også i DSDO og FOTR.
Vet ikke hva DSDO og FOTR er??
- Hva med flertydige ord? Skal man lage en oppføring for hver av
betydningene, eller slå dem sammen?
Ideelt set bør der være en indgang for hver betydning. Hvis man blander flere betydninger sammen i én indgang, kan computeren i det mindste ikke længere hjælpe os med at skelne.
ok. Nå har jeg også gjort det på noen ord.
- Hvor strenge er vi til nydannelser?
Det er (som 2.) en redaktionel beslutning som jeg ikke bør blande mig i.
:-) Men hva mener dere andre ordrettere (og oversettere)?
- Kan ordene jeg setter inn som synonymer også legges inn automatisk?
Det er der i princippet ikke noget i vejen for. Som systemet kører nu bliver indholdet af felterne »CORRECTION«, »SYNONYM«, »ANTONYM« og »ROOT« dog kun registreret som forslag (»STATUS: ?«) og ikke som deciderede tilføjelser (»STATUS: +«) til ordlisten.
Fint om de kan legges inn, men siden det da mangler annen informasjon, som f.eks. ordklasse, og for å språkvaske er det kanskje like greit om en annen titter på det, altså som "?", eller?
- Ser postene jeg sender kan slå sammen ulike linjer til en, har det
noe å si?
Øh? Jeg kan ikke lige forstå hvad du mener med det.
Jeg mener f.eks: WORD: slitere STATUS: + CLASS: substantiv CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere (...)
- Kan vi legge inn datoen som en del av emnefeltet, altså ikke bare:
[ORDSJEKK] Bokmålsord til korrekturlesing men f.eks: [ORDSJEKK] Bokmålsord til korrekturlesing 17.12.05 Det gjør det lettere å finne fram i dem :-)
Det _kan_ man selvfølgelig godt, men der er jo allerede ét datostempel i beskederne.
Jacob
Det ville vært nyttig, da kan man sortere etter både emne og dato på en gang. Jeg synes det er uheldig med mange emnelinjer som er prikk like men der innholdet er ulike (og det er jo heller ikke en samtale i dem :-)
Mvh Axel
[Axel Bojer]
Det ville vært nyttig, da kan man sortere etter både emne og dato på en gang. Jeg synes det er uheldig med mange emnelinjer som er prikk like men der innholdet er ulike (og det er jo heller ikke en samtale i dem :-)
Personlig må jeg innrømme at jeg synes det er mer nyttig at alle korrekturmeldingene har samme subject, da de blir gruppert fint sammen som en stor tråd med mine svarmeldinger som subtråd til hver autogenererte melding. :)
Poenget mitt er at det du ser som uheldig synes jeg er en fin bonus. :)
Petter Reinholdtsen wrote:
[Axel Bojer]
Det ville vært nyttig, da kan man sortere etter både emne og dato på en gang. Jeg synes det er uheldig med mange emnelinjer som er prikk like men der innholdet er ulike (og det er jo heller ikke en samtale i dem :-)
Personlig må jeg innrømme at jeg synes det er mer nyttig at alle korrekturmeldingene har samme subject, da de blir gruppert fint sammen som en stor tråd med mine svarmeldinger som subtråd til hver autogenererte melding. :)
Altså hvert svar som undertråd til den postingen du har svart på?
Poenget mitt er at det du ser som uheldig synes jeg er en fin bonus. :)
Mulig du har et annet e-postprogram, eller bruker det anderledes. Hos meg havner de i et eneste rot om jeg beholder svarene i samme mappe som de opprinnelige ordsjekk-postingene, litt fordi jeg ikke alltid svarer samme dag. Og det blir tungvint å finne ut hvilket svar som hører til hvilken opprinnelige posting. Men om dette bare er nyttig for meg, så kan vi jo droppe det.
Mvh Axel
Axel Bojer skrev:
Jacob Sparre Andersen skrev:
Det er den bedste procedure, men med det nuværende format er det ikke helt let at rette sine egne fejltagelser i de sekundære felter (andre end »WORD«). Jeg forsøger at finde en fornuftig løsning på problemet.
Noen ide om hvordan?
Ja. Jeg har skrevet »et par sider« om det:
http://edb.jacob-sparre.dk/problems_with_the_current_speling_org_system.pdf
Henrik Grove og jeg prøver begge at tage os sammen til at implementere nogle af ideerne.
Vet ikke hva DSDO og FOTR er??
De frie danske og færøske ordlister.
Det er der i princippet ikke noget i vejen for. Som systemet kører nu bliver indholdet af felterne »CORRECTION«, »SYNONYM«, »ANTONYM« og »ROOT« dog kun registreret som forslag (»STATUS: ?«) og ikke som deciderede tilføjelser (»STATUS: +«) til ordlisten.
Fint om de kan legges inn, men siden det da mangler annen informasjon, som f.eks. ordklasse, og for å språkvaske er det kanskje like greit om en annen titter på det, altså som "?", eller?
De skal nok på et tidspunkt blive udsendt til en korrekturlæser.
- Ser postene jeg sender kan slå sammen ulike linjer til en, har det noe
å si?
Øh? Jeg kan ikke lige forstå hvad du mener med det.
Jeg mener f.eks: WORD: slitere STATUS: + CLASS: substantiv CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere (...)
Det bør du _absolut_ ikke gøre. Det vil ikke give det resultat jeg gætter på at du ønsker.
Jacob
Jacob Sparre Andersen wrote:
Axel Bojer skrev:
Jacob Sparre Andersen skrev:
Det er den bedste procedure, men med det nuværende format er det ikke helt let at rette sine egne fejltagelser i de sekundære felter (andre end »WORD«). Jeg forsøger at finde en fornuftig løsning på problemet.
Noen ide om hvordan?
(...)
Henrik Grove og jeg prøver begge at tage os sammen til at implementere nogle af ideerne.
Ypperlig!
Vet ikke hva DSDO og FOTR er??
De frie danske og færøske ordlister.
ok :-)
Det er der i princippet ikke noget i vejen for. Som systemet kører nu bliver indholdet af felterne »CORRECTION«, »SYNONYM«, »ANTONYM« og »ROOT« dog kun registreret som forslag (»STATUS: ?«) og ikke som deciderede tilføjelser (»STATUS: +«) til ordlisten.
Fint om de kan legges inn, men siden det da mangler annen informasjon, som f.eks. ordklasse, og for å språkvaske er det kanskje like greit om en annen titter på det, altså som "?", eller?
De skal nok på et tidspunkt blive udsendt til en korrekturlæser.
Hmm, da jeg ikke er dansk: mener du med "skal" at det burde skje eller at det kommer til å skje (eller begge? :-) ?
- Ser postene jeg sender kan slå sammen ulike linjer til en, har
det noe å si?
Øh? Jeg kan ikke lige forstå hvad du mener med det.
Jeg mener f.eks: WORD: slitere STATUS: + CLASS: substantiv CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere (...)
Det bør du _absolut_ ikke gøre. Det vil ikke give det resultat jeg gætter på at du ønsker.
Jacob
Hmm, det er nok ikke jeg direkte, men e-postprogrammet mitt :-( Jeg skal se om jeg finner en måte å skru det av eller omgå det på ... Hvordan sjekker jeg hva som faktisk er havnet i ordlistene? De skal kanskje legges på nett når noen har ordnet med det :-)
Mvh Axel
Axel Bojer skrev:
Jacob Sparre Andersen skrev:
Axel Bojer skrev:
De skal nok på et tidspunkt blive udsendt til en korrekturlæser.
Hmm, da jeg ikke er dansk: mener du med "skal" at det burde skje eller at det kommer til å skje (eller begge? :-) ?
I betydningen at det er meget sandsynligt at det sker. Hvis stavemåderne ikke af andre årsager når at blive endeligt godkendte (eller afviste) til at være med i ordlisten, kan du være sikker på at systemet på et tidspunkt vil udsende dem til korrekturlæsning.
CONJUGATION: flertall, ubestemt HYPHENATION: slit~ere (...)
Det bør du _absolut_ ikke gøre. Det vil ikke give det resultat jeg gætter på at du ønsker.
Hmm, det er nok ikke jeg direkte, men e-postprogrammet mitt :-(
Ahhh.
Hvordan sjekker jeg hva som faktisk er havnet i ordlistene? De skal kanskje legges på nett når noen har ordnet med det :-)
Jeg har tænkt på at sætte det op som en mulighed at man som korrekturlæser kan abonnere på med faste mellemrum at få tilsendt en oversigt over hvad man har fået føjet til ordlisten siden sidst. Det bør måske også være sammen med nogle tal for hvordan arbejdet med ordlisten skrider frem og hvor højt man rangerer som korrekturlæser.
Jacob
Jacob Sparre Andersen skrev:
Axel Bojer skrev:
Jacob Sparre Andersen skrev:
Axel Bojer skrev:
(...)
Hvordan sjekker jeg hva som faktisk er havnet i ordlistene? De skal kanskje legges på nett når noen har ordnet med det :-)
Jeg har tænkt på at sætte det op som en mulighed at man som korrekturlæser kan abonnere på med faste mellemrum at få tilsendt en oversigt over hvad man har fået føjet til ordlisten siden sidst. Det bør måske også være sammen med nogle tal for hvordan arbejdet med ordlisten skrider frem og hvor højt man rangerer som korrekturlæser.
Jacob
Det ville i grunnen vært fint, de ordene som er kontrollert bør kanskje komme som en ren liste uten alle under feltene, f.eks som en oppdatering en gang i uka? Ellers vil vel det bare bli masse dobbeltsjekking (hvis ikke trippel-, firpel-, fempel eller hva det nå blir). Tall på hvor mange ord som er sjekket er bra. Vi burde forøvrig også ha en mulighet til å angi at et ord er dobbeltsjekket, altså sjekket av (minst) to uavhengige personer. Statistikken kunne jo vært noe a-la:
1234 ord som ikke er sjekket 321 sjekkede ord 123 nye ord denne uka: bamse ostepai stappmett
osv ... (altså alfabetisk).
Eller?
Og helst i tillegg et sted på nettet der de var listet opp alle sammen med full informasjon (lett leselig :-).
Mvh Axel
Axel Bojer skrev:
Jacob Sparre Andersen skrev:
Axel Bojer skrev:
Jacob Sparre Andersen skrev:
Axel Bojer skrev:
Det ville i grunnen vært fint, de ordene som er kontrollert bør kanskje komme som en ren liste uten alle under feltene, f.eks som en oppdatering en gang i uka?
De lister bliver allerede genereret en gang i døgnet og kan findes i kataloget:
http://tyge.sslug.dk/%7Ekorsvoll/nb.speling.org/htdocs/status/
Ellers vil vel det bare bli masse dobbeltsjekking (hvis ikke trippel-, firpel-, fempel eller hva det nå blir).
Det skal du ikke frygte. Det system der tager sig af at sende ord ud til korrekturlæsning er ikke helt dumt. Det sender ikke ord ud der allerede er godkendte. Og det sender heller ikke en korrekturlæser et ord han/hun allerede har læst korrektur på.
Tall på hvor mange ord som er sjekket er bra.
De tal kan ligeledes findes i ovennævnte katalog.
Vi burde forøvrig også ha en mulighet til å angi at et ord er dobbeltsjekket, altså sjekket av (minst) to uavhengige personer.
Igen tal der findes.
Statistikken kunne jo vært noe a-la:
1234 ord som ikke er sjekket 321 sjekkede ord 123 nye ord denne uka: bamse ostepai stappmett
osv ... (altså alfabetisk).
Eller?
Det jeg ville sende ud var nu i højere grad korrekturlæserspecifikke data; en komplet liste med de nytilkomne poster fra korrekturlæseren (så han/hun) kan se hvordan systemet har forstået de indsendte korrekturbeskeder.
Derudover kunne man tage nogle tal:
Du står som nummer ## på ranglisten over præcise korrekturlæsere med estimerede fejlrater på #,##% i godkendte ord og #,##% i afviste ord.
Du er den ##. flittigste korrekturlæser i den seneste måned.
Med det nuværende tempo er vi færdige med #. runde korrekturlæsning af ordlisten om ## måneder.
Og helst i tillegg et sted på nettet der de var listet opp alle sammen med full informasjon (lett leselig :-).
På http://da.speling.org/status/ kan du se den oversigtsside vi har for den danske ordliste (DSDO).
Jacob
Sundag 18 desember 2005 10:49 skreiv Petter Reinholdtsen:
Legg merke til HYPHENATION og COMPOSITE-WORD. Hvorfor brukes ikke samme skilletegn begge plassene. Dokumentasjonen på URL:http://no.speling.org./filformat.html forteller om disse feltene:
Eg har berre nokre tekniske kommentarar til dette formatet:
For meg er det det same kva teikn som vert brukt for definering orddelane i samansette, men formatet burde vel vera meir framtidsretta, og støtta
1 Fleirnivåorddeling 2 Trippelkonsontantar ved orddeling 3 Lause ordbøyingar
Med fleirnivåorddeling meiner eg prioritering av orddelingar (både for HYPHENATION og COMPOSITE-WORD), slik at «barnehage-tante» vert rekna som ei betre orddeling enn «barne-hagetante». Ein annan nemnte ordet «sykehjemsplass», som kunne skrivast slik:
syke=2hjems=1plass
Støtta for fleirnivåorddeling (på ordlistenivå) er nødvendig for bruk i program med veldig gode orddelingsalgoritmar.
Det andre som hadde vore fint å ha, er automatisk støtte for trippelkonsonantar ved orddeling:
bussjåfør --> buss-sjåfør fjellandskap --> fjell-landskap
Eg har ikkje sett nøye på formatet, men stemmer det at det ikkje støttar «lause bøyingar» av ord? På nynorsk har me for eksempel ordet «menneskja», som berre eksisterer i bestemt form fleirtal.
Karl Ove Hufthammer skrev:
For meg er det det same kva teikn som vert brukt for definering orddelane i samansette, men formatet burde vel vera meir framtidsretta, og støtta
1 Fleirnivåorddeling
Det kunne være interessant. Det er ikke lige noget vi har tænkt over i forbindelse med at vi udarbejdede formatet. Der er i princippet ikke noget i vejen for at lægge det ind. Man skal bare beslutte hvordan. De store problemer kommer omkring »afstemningerne« om hvilke af de foreslåede orddelinger der skal med i den endelige ordbog, men det er helt sikkert noget man kan finde en passende løsning på.
2 Trippelkonsontantar ved orddeling
Jeg var godt klar over at tyskerne har den slags, men beskrivelsen af indholdet i formatet er inspireret af hvordan vi bruger det på dansk, hvor vi ikke har det problem. Er der noget problem i at tillade det? Eller er problemet at automatisere det?
3 Lause ordbøyingar
Eg har ikkje sett nøye på formatet, men stemmer det at det ikkje støttar «lause bøyingar» av ord? På nynorsk har me for eksempel ordet «menneskja», som berre eksisterer i bestemt form fleirtal.
Jeg er ikke helt sikker på betydningen af »lause«, men formatet hindrer ikke registreringen af ord der ikke findes i alle de bøjninger ordklassen normalt har. - Det kræver bare at man har et passende afslappet forhold til den præcise definition af hvad der skal stå i »ROOT«-feltet.
Jacob
On Thu, 2005-12-22 at 12:11 +0100, Karl Ove Hufthammer wrote:
Med fleirnivåorddeling meiner eg prioritering av orddelingar (både for HYPHENATION og COMPOSITE-WORD), slik at «barnehage-tante» vert rekna som ei betre orddeling enn «barne-hagetante». Ein annan nemnte ordet «sykehjemsplass», som kunne skrivast slik:
syke=2hjems=1plass
Støtta for fleirnivåorddeling (på ordlistenivå) er nødvendig for bruk i program med veldig gode orddelingsalgoritmar.
om eg får lov å kome med synspunkt på det syntaktiske sukkeret, så ser dette ganske uestetisk ut. eg vil foreslå at "=" er fyrste prioritet, og at ein valfritt kan leggje til superskript 2 eller 3 for å markere andre og tredje prioritet:
syke=²hjems=plass
"=¹" ville vere ekvivalent med "=". som før kan ein ha fleire orddelingspunkt av ein gitt prioritet.
Det andre som hadde vore fint å ha, er automatisk støtte for trippelkonsonantar ved orddeling:
bussjåfør --> buss-sjåfør fjellandskap --> fjell-landskap
viss det står "buss=sjåfør" i ordlista, kan ikkje då elimineringa av den tredje konsonanten skje automatisk når orddeling ikkje trengs?
Eg har ikkje sett nøye på formatet, men stemmer det at det ikkje støttar «lause bøyingar» av ord? På nynorsk har me for eksempel ordet «menneskja», som berre eksisterer i bestemt form fleirtal.
i Nynorskordboka står dette oppført som eit vanleg hokjønnsord, så eg forstår ikkje eksempelet.
Torsdag 22 desember 2005 23:09 skreiv Kjetil Torgrim Homme:
Støtta for fleirnivåorddeling (på ordlistenivå) er nødvendig for bruk i program med veldig gode orddelingsalgoritmar.
om eg får lov å kome med synspunkt på det syntaktiske sukkeret, så ser dette ganske uestetisk ut. eg vil foreslå at "=" er fyrste prioritet, og at ein valfritt kan leggje til superskript 2 eller 3 for å markere andre og tredje prioritet:
syke=²hjems=plass
Syntaksen eg nemnte var berre meint som eit eksempel; me kan godt ha ein annan.
Men heva skrift vil kanskje vera for komplisert å skriva inn for folk (eg er klar over at Linux-tastaturoppsett gjer det enkelt)?
bussjåfør --> buss-sjåfør fjellandskap --> fjell-landskap
viss det står "buss=sjåfør" i ordlista, kan ikkje då elimineringa av den tredje konsonanten skje automatisk når orddeling ikkje trengs?
Jo det skal kunna gå. Me har so vidt eg veit *aldri* trippelkonsonant i udelte norske ord.
Eg har ikkje sett nøye på formatet, men stemmer det at det ikkje støttar «lause bøyingar» av ord? På nynorsk har me for eksempel ordet «menneskja», som berre eksisterer i bestemt form fleirtal.
i Nynorskordboka står dette oppført som eit vanleg hokjønnsord, så eg forstår ikkje eksempelet.
Var det i den elektroniske du såg i? Denne er ikkje alltid like god reint teknisk sett (og er dessutan håplaust utdatert).
I nynorskordboka på http://ordnett.no/ og i Helleviks vesle gule (eg har ikkje tilgang til den tryke nynorskordboka nett no) står iallfall «menneskja» oppført med denne forma (bestemt form fleirtal) som eineform. Ordnett sine ordbøker er oppdaterte (men ikkje gratis tilgjengelig).
Merk for ordens skyld at «menneskja» og «menneska» er to forskjellige ord, med forskjellige tydingar.