Er litt tvilende til hvor lurt det er å legge inn all slags egennavn i ordlista vår, særlig utenlandske og spesielle navn som vel de færreste vil få bruk for. Foreløpig er det kanskje få navn overhodet i ordlista, men når den vokser ..., så for å være litt i forkant: Hva om "pong" "duan" e.l. blir rett fordi navnet finnes? Burde alle navn stå i en egen ordliste så man kan velge å bare legge inn navn på de man kjenner? Eller tar vi inn bare tar inn veldig kjente navn? Mange ukjente og sære navn kan fort føre til at stavefeil godtas fordi det også er navn. Eller kan vi tvinge navn til å måtte ha stor forbokstav (vil kunne bli feil etter punktum, da, men ikke ellers)?
Forslag: Ord som står i en norsk navneordbok burde vel kunne settes inn, pluss internasjonalt kjente ord, som f.eks Muhammad. Men hva med tilnavn, som f.eks. "Bono"?
Vi bør vel bli enige om hva vi godtar :-) Hva mener dere andre?
Mvh Axel
[Axel Bojer]
Vi bør vel bli enige om hva vi godtar :-) Hva mener dere andre?
Jeg synes vi bør legge inn slike ord som navneord i vår database, men få tilgang til oppdatert frekvensinformasjon slik at vi kan utelukke lite brukte navneord.
On Sun, Jan 01, 2006 at 03:17:20PM +0100, Petter Reinholdtsen wrote:
[Axel Bojer]
Vi bør vel bli enige om hva vi godtar :-) Hva mener dere andre?
Jeg synes vi bør legge inn slike ord som navneord i vår database, men få tilgang til oppdatert frekvensinformasjon slik at vi kan utelukke lite brukte navneord.
Kanskje man kan ha flere lister, en dagligdags, og en avansert? Hvor avansert har en mer omfattende ordliste.
En annen liten kommentar, finnes det ikke på bokmål et ord "finere" som er et adverbium - en bøyningsform av "fin"?
Hilsen keld
[Keld Jørn Simonsen]
Kanskje man kan ha flere lister, en dagligdags, og en avansert? Hvor avansert har en mer omfattende ordliste.
Dagens bokmålsordliste har frekvensinformasjon som ble brukt til å velge hvilke ord som skulle være med i stavekontrollen. Problemet er at frekvensinformasjonen er gammel og upålitelig, slik at mange brukte ord manglet i stavekontrollene. Jeg endret derfor på utvalgsreglen slik at mange flere ord ble med i stavekontrollen for bokmål i versjon 2.0.1.
En annen liten kommentar, finnes det ikke på bokmål et ord "finere" som er et adverbium - en bøyningsform av "fin"?
Jeg tror ordklassen heter adjektiv på norsk, og la inn det da jeg sendte inn ordet til ordkorrekturen. :)
Petter Reinholdtsen wrote:
[Axel Bojer]
Vi bør vel bli enige om hva vi godtar :-) Hva mener dere andre?
Jeg synes vi bør legge inn slike ord som navneord i vår database, men få tilgang til oppdatert frekvensinformasjon slik at vi kan utelukke lite brukte navneord.
Hei
Obs obs, navneord=substantiv i databasen vår (det var iallefall slik det var tenkt), bruk særnamn eller egennavn for nøkkelord for navn på personer og liknande.
Eg har no oppdatert filformat.html med ein tabell med oversikt over ordklassar og bøyingsformer. Ta ein titt og sjå om det ser fornuftig ut.
For verkeleg sære namn som ikkje er vanlege så bruk CATEGORY-feltet, t.d. asiatisk guttenavn, Sør-amerikansk innsjø
Elles vil vel eit felt for frekvensinformasjon vere ønskeleg i databasen. Jacob, er det mulig å få til?
Håvard
[Håvard Korsvoll]
Obs obs, navneord=substantiv i databasen vår (det var iallefall slik det var tenkt), bruk særnamn eller egennavn for nøkkelord for navn på personer og liknande.
Nettopp. Jeg tenke egennavn men skrev navneord. :)
Eg har no oppdatert filformat.html med ein tabell med oversikt over ordklassar og bøyingsformer. Ta ein titt og sjå om det ser fornuftig ut.
Jeg synes ikke det ser helt fornuftig ut. Her er sitat fra URL:http://no.speling.org./filformat.html:
CLASS: Ordklasse. Ordklassane er: +-------------------------------------------------------------------------+ |Ordklasse |Bøyingsform | |----------------------------+--------------------------------------------| |Substantiv hokjønn (sf) |bunden(b)/ubunden(u) eintal(1)/fleirtal(2) | |----------------------------+--------------------------------------------| |Substantiv hankjønn (sm) |bunden(b)/ubunden(u) eintal(1)/fleirtal(2) | |----------------------------+--------------------------------------------| |Substantiv inkjekjønn/ |bunden(b)/ubunden(u) eintal(1)/fleirtal(2) | |intetkjønn (sn) | |
Klassen bør være substantiv, og kjønn være et annet felt? I tillegg tror jeg det er lurt å en bestemt streng som skal stå i databasefilen, slik at de automatiske systemene som skal behandle dette slipper å da høyde for språklige variasjoner. Dvs. at vi velger enten 'inkjekjønn' eller 'intetkjønn', men ikke tillater begge deler. De som har oppheng i stavemåter får tilpasse sine klienter slik at de viser det brukeren liker å se, mens selve utvekslingsformatet og det som lagres i databasen er entydig. Jeg synes av samme grunn at vi ikke skal tillate både b2 og 'bunden eintall', men velge kun en av dem.
|----------------------------+--------------------------------------------| |Verb (v) |infinitiv presens fortid perf-part imperativ|
Vi bør ikke godta både 'v' og 'Verb', men kun en av dem.
|----------------------------+--------------------------------------------| |Utsagnsord | | |----------------------------+--------------------------------------------| |Tilleggsord | | |----------------------------+--------------------------------------------| |Særnamn (egennavn) | |
Det er vel ikke noe poeng i å bruke hele 'Særnavn (egennavn)' i utvekslingsformatet hvis en av dem er tilstrekkelig? Parantes-biten (eller det andre) bør flyttes til beskrivelses-feltet, og kun et av ordene bør brukes i formatet.
|----------------------------+--------------------------------------------| |Adjektiv (forholdsord) |hokjønn hankjønn inkjekjønn eintal fleirtal | | |bunden ubunden |
Veldig bra å få listet opp navn på alternative bøyningsformer. Det bør vel gjøres for flere ord. :)
|----------------------------+--------------------------------------------| |Biord | | |----------------------------+--------------------------------------------| |Stadord (Stedord) | | |----------------------------+--------------------------------------------| |Talord | | |----------------------------+--------------------------------------------| |Konjunksjon (Bindeord) | | |----------------------------+--------------------------------------------| |Utropsord | | +-------------------------------------------------------------------------+
Legg merke til at vi ikkje reknar særnamn som substantiv.
Greit for meg. :)
Viss eit ord tilhøyrer fleire klassar, så kan du føre det opp med komma mellom. Til dømes ordet hoppe som både er ein hest og verbet å hoppe: CLASS: Substantiv hokjønn, Verb
Dette tror jeg er en dårlig ide. Slike ord bør føres opp to ganger, en gang som substantiv, og en gang som verb. De to oppføringene vil jo ha ulik informasjon om bøyning i CONJUGATION-feltet, og for maskinell behandling blir det vanskelig å vite hvilken av de to klassene hver conjugation hører til.
Ein kan også nytte orda i parentes, så for dømet over er det ekvivalent å bruke: CLASS: sf, v
Og dette tror jeg er en tilsvarende dårlig ide, da det øker kompleksiteten i programvaren som skal lese og forstå databasen.
Elles vil vel eit felt for frekvensinformasjon vere ønskeleg i databasen. Jacob, er det mulig å få til?
Jeg tror frekvensinformasjon bør være en separat database, da det jo vil være forskjellig for både språk, tidsperiode og fagfelt.
Petter Reinholdtsen skrev:
Håvard Korsvoll skrev:
Elles vil vel eit felt for frekvensinformasjon vere ønskeleg i databasen. Jacob, er det mulig å få til?
Jeg tror frekvensinformasjon bør være en separat database, da det jo vil være forskjellig for både språk, tidsperiode og fagfelt.
Vi har sådan set allerede felter til at håndtere dette. Det system vi bruger i DSDO og FOTR er:
SOURCE: <tekstsamling> FREQUENCY: <ordhyppighed i tekstsamlingen> SOURCE-YEAR: <karakteristisk årstal for tekstsamlingen>
Hvis tekstsamlingen er begrænset til et bestemt fagområde tager vi det med i »CATEGORY«-feltet:
CATEGORY: <fag>
Jacob
Forslag: Ord som står i en norsk navneordbok burde vel kunne settes inn, pluss internasjonalt kjente ord, som f.eks Muhammad. Men hva med tilnavn, som f.eks. "Bono"?
Vi bør vel bli enige om hva vi godtar :-) Hva mener dere andre?
Mvh Axel
hei, jeg mener minst mulig egennavn skal i listen. Vi kan jo ta utgangspunkt i det som gjøres i bokmålsordlista og nynorskordlista fra uio?
mvh Torstein
Forslag: Ord som står i en norsk navneordbok burde vel kunne settes inn, pluss internasjonalt kjente ord, som f.eks Muhammad. Men hva med tilnavn, som f.eks. "Bono"?
Vi bør vel bli enige om hva vi godtar :-) Hva mener dere andre?
Mvh Axel
hei, jeg mener minst mulig egennavn skal i listen. Vi kan jo ta utgangspunkt i det som gjøres i bokmålsordlista og nynorskordlista fra uio?
Det er ikkje noko problem å ha særnamn med i orddatabasen. Berre pass på å skriv Særnamn eller Egennavn i CLASS:-feltet. Håvard
Sundag 01 januar 2006 21:28 skreiv Torstein Dybdahl:
Vi bør vel bli enige om hva vi godtar :-) Hva mener dere andre?
Mvh Axel
hei, jeg mener minst mulig egennavn skal i listen.
Særnamn bør absolutt med i lista (eller ei separat liste som brukast til ordlistebygging). Dei kan for eksempel delast inn i fornamn (fordelt på kjønn), etternamn, geografiske namn og bedriftsnamn o.l. (Linux, Skulelinux, Microsoft &c.).
Sundag 01 januar 2006 13:21 skreiv Axel Bojer:
Mange ukjente og sære navn kan fort føre til at stavefeil godtas fordi det også er navn. Eller kan vi tvinge navn til å måtte ha stor forbokstav (vil kunne bli feil etter punktum, da, men ikke ellers)?
Særnamn må sjølvsagt stavast med stor forbokstav, og då begrensar problemet seg automatisk.
Forslag: Ord som står i en norsk navneordbok burde vel kunne settes inn, pluss internasjonalt kjente ord, som f.eks Muhammad.
Ja. Og historiske namn (som Napoleon).
Men hva med tilnavn, som f.eks. "Bono"?
Nei. Namn som berre gjeld éin person (og ikkje er historisk) bør ikkje med.
[Karl Ove Hufthammer]
Nei. Namn som berre gjeld éin person (og ikkje er historisk) bør ikkje med.
Hvorfor det? Jeg tror det er bedre å registrere dem i orddatabasen, og så vaske dem ut ved hjelp av frekvensinformasjon slik at selve stavekontrollen kun inneholder mye brukte navn, mens vi har notert ordklasse og korrekt stavemåte i databasen til framtidig bruk.