Hei!
vet vi har snakket om det tidligere, men skal vi ha med egennnavn i ordlista?
Nå har jeg sendt inn kanskje hundre ord som ikke var med, jeg har omtrent like mange til som er egennavn, slik som Kopernikus osv.
Ble vi enige om en praksis på dette? Det er, såvidt jeg kan se, flere egennavn med på lista allerede. Men det er vel på den annen side en grense for hvor mange egennavn (spesielt hvilke) vi ønsker å ha med; sjeldne egennavn som krasjer med norske feilstavinger kan det jo være lurt å ikke ta med, eller?
Hilsen Axel
On Sat, Apr 12, 2008 at 8:24 PM, Axel Bojer axelb@skolelinux.no wrote:
Hei!
vet vi har snakket om det tidligere, men skal vi ha med egennnavn i ordlista?
Ja, viss ingen eigennamn er med, vil alle få masse «feil» i kvar einaste tekst dei skriv. Eg synest det er opplagt at t.d. norske byar og norske personnamn skal vera med. Spørsmålet er, som du seier, kvar grensa skal gå.
Ble vi enige om en praksis på dette? Det er, såvidt jeg kan se, flere egennavn med på lista allerede. Men det er vel på den annen side en grense for hvor mange egennavn (spesielt hvilke) vi ønsker å ha med; sjeldne egennavn som krasjer med norske feilstavinger kan det jo være lurt å ikke ta med, eller?
Det kan vera greitt å ha i bakhovudet, men det skjer vel ikkje så ofte. Går det forresten an å leggja inn ord som ikkje skal koma med i ordlista? Viss ikkje, kan ein fort gløyma grunnen til at ordet ikkje er teke inn, og så legg nokon andre det inn seinare. Det ville vore fint med ein kommentar knytt til ordet, à la «dette ordet har me vurdert, for det er eit sjeldant namn, men det er for likt den vanlege feilstavinga ...»
Ein type eigennamn eg trur det er viktig å ha med, er dei utanlandske namna som har ein spesiell norsk skrivemåte. «Moskva», «Beijing», «Warszawa», «Tsjajkovskij», osv. (Så vidt eg kan sjå, er alle desse med i dagens liste, sistnemnde med både «Tsjai-» og «Tsjaj-». Eg kan ikkje transkripsjonsreglane godt nok til å seia om begge er korrekte.)
Med helsing, Gaute Hvoslef Kvalnes
[Gaute Hvoslef Kvalnes]
Det kan vera greitt å ha i bakhovudet, men det skjer vel ikkje så ofte. Går det forresten an å leggja inn ord som ikkje skal koma med i ordlista? Viss ikkje, kan ein fort gløyma grunnen til at ordet ikkje er teke inn, og så legg nokon andre det inn seinare. Det ville vore fint med ein kommentar knytt til ordet, à la «dette ordet har me vurdert, for det er eit sjeldant namn, men det er for likt den vanlege feilstavinga ...»
Det virker som om dere blander sammen orddatabasen med frekvensinformasjon. Ordkorrekturen via no.speling.org bør inneholde alle korrekt stavede ord. Hvis vi ønsker å begrense egennavn på frekvens, så bør det gjøres uavhengig av orddatabasen. Vi har tre kilder til ordfrekvens, og jeg foreslår at vi bruker noen av disse hvis vi ønsker å kun ta med de mest populære egennavnene. Hvis det skal være mulig å gjøre dette kun for egennavn, så må de være markert som egennavn i ordkorrekturen via no.speling.org.
Vennlig hilsen,
Petter Reinholdtsen wrote:
[Gaute Hvoslef Kvalnes]
Det kan vera greitt å ha i bakhovudet, men det skjer vel ikkje så ofte. Går det forresten an å leggja inn ord som ikkje skal koma med i ordlista? Viss ikkje, kan ein fort gløyma grunnen til at ordet ikkje er teke inn, og så legg nokon andre det inn seinare. Det ville vore fint med ein kommentar knytt til ordet, à la «dette ordet har me vurdert, for det er eit sjeldant namn, men det er for likt den vanlege feilstavinga ...»
Det virker som om dere blander sammen orddatabasen med frekvensinformasjon. Ordkorrekturen via no.speling.org bør inneholde alle korrekt stavede ord. Hvis vi ønsker å begrense egennavn på frekvens, så bør det gjøres uavhengig av orddatabasen. Vi har tre kilder til ordfrekvens, og jeg foreslår at vi bruker noen av disse hvis vi ønsker å kun ta med de mest populære egennavnene. Hvis det skal være mulig å gjøre dette kun for egennavn, så må de være markert som egennavn i ordkorrekturen via no.speling.org.
Et aspekt er, som du sier, frekvensinformasjon. Et annet aspekt er om et navn tilsvarer et feilstavet ord, dette er uavhengig av frekvens. Men i farten kan jeg ikke komme på noe slikt navn, vi får behandle slike individuelt -- om navnet i tillegg er sjeldent, så løser jo saka seg sjøl :-)
-Axel
Gaute Hvoslef Kvalnes wrote:
On Sat, Apr 12, 2008 at 8:24 PM, Axel Bojer axelb@skolelinux.no wrote:
Hei!
vet vi har snakket om det tidligere, men skal vi ha med egennnavn i ordlista?
Ja, viss ingen eigennamn er med, vil alle få masse «feil» i kvar einaste tekst dei skriv. Eg synest det er opplagt at t.d. norske byar og norske personnamn skal vera med. Spørsmålet er, som du seier, kvar grensa skal gå.
(...)
Ok, da har jeg sendt inn også de. Fant ingen der som krasjer med vanlige feilstavinger, så jeg sendte inn det hele. Til sammen (både egennavn og andre ord) ble det over 600 ord, så dette er en ganske effektiv måte å samle inn ord på. Om andre har dic-filer (Egne Ordlister fra OOo) e.a. liggende, så kom med dem :-)
Jeg har laget et enkelt skript som er ment å forbedres dithen at man som inndata gir en liste med ord, helst også en *.dic-fil fra OOo[1] og som utdata:
WORD: ord STATUS: + COMPOSITE-WORD: ord EDITOR: brukernavn e-post@adresse.no
Jobben blir da bare å gå igjennom ordene som om man hadde fått dem fra orddatabasen og sende dem inn. Jeg legger forøvrig med vilje inn sitattegn foran hver linje, men mulig det ikke er nødvendig.
En videre forbedring ville være å få det rett ut i en e-post, men det vil avhenge av hvilket e-postprogram man bruker, så det lar jeg ligge. Klipp og lim går uansett fort.
Hvis noen har innspill til om det er bedre måter å gjøre dette på, så gi beskjed. Manuell innlegging er jo tungvint. Hvordan gikk det med skriptet noen lagde for å legge inn ord automatisk? Er det funksjonelt for denne typen oppgaver?
Hilsen Axel
NOTER 1: Dic-filene er i binærformat, så jeg er ikke helt sikker på hvordan man søker og erstatter, eller på annet vis henter ut det som står der som ren tekst -- utdrag: ^F^@WBSWG6<FF>^@^@^P^@Naturiakttakelse^L^@Sjelesøkere^L^@
Jeg brukte en tidskrevende halvmanuell metode, så innspill om hvordan dette gjøres uten manuell redigering er velkommen :-)