Jeg tror det er på tide med et nytt IRC-møte i stavekontrollprosjektet, for å gjøre opp status og se hvor vi går videre. Noen som er enig?
Korrekturlesingen av bokmålsord går sin gang, mens korrekturen av nynorskord ser ut til å ha stoppet opp. Vi bør antagelig rekruttere flere folk til nynorskdelen, i tillegg til at det fortsatt trengs flere folk til bokmålsdelen. Jeg mistenker at det hadde vært enklere å få hjelp hvis korrekturen kunne gjøres via web.
Jeg har lagt inn en god del nye ord fra no.speling.org i datafila som fortsatt brukes til stavekontrollen, men det er en del ord som er godkjent av minst en korrekturleser som jeg er i tvil om bør godkjennes. Jeg vil gjerne ha kommentarer på disse. Listene med ord lager jeg ved å kjøre 'make speling-new.nb speling-new.nn' i kildekoden i CVS.
Bokmålsord godkjent 2 ganger
driftshuset dyreelskere feriebilen husbilen idrettsskyttere jemtlending kammermusikkarrangementet kringkastingsnettene *mave militærdrakt nedrustningsmeldinga *nyresten omrokkeringene pengesjefen prisreduserte reisebilen sugekamrene tv-stasjoner ull-lue verdenssystemet ødsleriet
Nynorskord godkjent 2 ganger
Kyrksæter Vikingskip forbruks=baserte fåre gåv håns jante kjøpmanns meterbylgja meterbylgje nåle Åm Års Ås Åsen Øks Øre Øst Østfold Øver Øy Øyde
Det er en skrivefeil i nynorsklista (forbruks=baserte), og en rekke ord som jeg mistenker ikke skal være egennavn (med stor forbokstav), men vanlige ord. Har ikke god nok peiling på nynorsk til å vurdere de andre.
For bokmålsordene er jeg i tvil om endel disse sammensetningene skal være med i stavekontrollen eller ikke. I tillegg er det i dag ikke mulig å legge inn ord med bindestrek, slik at disse må droppes. De to ordene merket '*' finnes i stavekontrolldatafilen markert som konservativt språk, og er ord som ikke er aktivisert i den normale stavekontrollen. Jeg er også litt usikker når det gjelder a-endingen, om den er akseptert bokmål eller ikke.
Uansett, hvilke av disse ordene bør jeg legge inn i stavekontrollen. Foreløbig er som dere forstår prosessen som flytter ord fra no.speling.org til selve stavekontrollen manuell.
Jeg snakket forøvrig med Gisle Hannemyr på fredag, og han hadde sett litt på AFF-filene for å tilpasse dem dagens bruk. Jeg ba ham sjekke no.speling.org og nevnte at vi gjerne tok imot patcher. Jeg antar det er på tide at noen setter seg inn i AFF-opplegget for å kunne vedlikeholde det.
Vennlig hilsen,
Petter Reinholdtsen skrev:
Jeg tror det er på tide med et nytt IRC-møte i stavekontrollprosjektet, for å gjøre opp status og se hvor vi går videre. Noen som er enig?
Ja, det bør vi få til, det rant ut i sanden forrige gang vi ymtet frampå om det :-)
Korrekturlesingen av bokmålsord går sin gang, mens korrekturen av nynorskord ser ut til å ha stoppet opp. Vi bør antagelig rekruttere flere folk til nynorskdelen, i tillegg til at det fortsatt trengs flere folk til bokmålsdelen. Jeg mistenker at det hadde vært enklere å få hjelp hvis korrekturen kunne gjøres via web.
Tja, ikke så sikker på det. Det er lite aktivitet på synonymer.merg.net (synonymer, gjøres over nett ...)
Jeg har lagt inn en god del nye ord fra no.speling.org i datafila som fortsatt brukes til stavekontrollen, men det er en del ord som er godkjent av minst en korrekturleser som jeg er i tvil om bør godkjennes. Jeg vil gjerne ha kommentarer på disse. Listene med ord lager jeg ved å kjøre 'make speling-new.nb speling-new.nn' i kildekoden i CVS.
Bokmålsord godkjent 2 ganger
driftshuset dyreelskere feriebilen husbilen idrettsskyttere jemtlending kammermusikkarrangementet kringkastingsnettene *mave militærdrakt nedrustningsmeldinga *nyresten omrokkeringene pengesjefen prisreduserte reisebilen sugekamrene tv-stasjoner ull-lue verdenssystemet ødsleriet
Så vidt jeg kan se av siste gyldige utgave av bokmålsordboka, så bør alle disse ordene/orda være gyldige, med unntak av ødsleri, som bør strykes.
Flere av dem står ikke eksplisitt, men følger vanlige regler for sammensatte ord, f.eks driftshus (-bygning står). Mave/mage og sten/stein er likestilte former, skjønt sten om gråsten o.a. ikke ser ut til å være normert. Derimot er nyresten eksplisitt nevnt som et eksempel. Ødsleri står ikke, derimot både ødsel, ødsle, (en) ødsler og ødselhet, så den burde kanskje gå som en avledning, skjønt ødselhet nok er å foretrekke. Foreslår den allikevel strykes, selv google får bare ett treff på norske sider.
Når det gjelder lange og sammensatte ord så er dette et problem alle kjente stavekontroller sliter med (på norsk), så en omvei for å løse det inntil noen lager en bedre algoritme for sammensatte ord, også den i OOo har forbedringspotensiale, for å si det slik. (Word har færre røde streker, og flere morsomme forslag, så kan man velge om man synes det er bedre :-)
(...)
For bokmålsordene er jeg i tvil om endel disse sammensetningene skal være med i stavekontrollen eller ikke. I tillegg er det i dag ikke mulig å legge inn ord med bindestrek, slik at disse må droppes. De to ordene merket '*' finnes i stavekontrolldatafilen markert som konservativt språk, og er ord som ikke er aktivisert i den normale stavekontrollen. Jeg er også litt usikker når det gjelder a-endingen, om den er akseptert bokmål eller ikke.
Det er fortsatt veldig stor valgfrihet mht. a/en-endelse, veldig mange ord kan ha både hunnkjønns- og hannkjønnsvarianten (f1 el. m1), som f.eks. meldinga. Merknaden «konservativt» er nok (dels) berettiget, både mave og sten er ikke like vanlig som stein og mage (vanskelig å bruke google, da sten/stein er navn også). Allikevel finner google tusenvis av treff også på sten og mave, så det er ikke uvanlig heller.
Uansett, hvilke av disse ordene bør jeg legge inn i stavekontrollen. Foreløbig er som dere forstår prosessen som flytter ord fra no.speling.org til selve stavekontrollen manuell.
Jeg snakket forøvrig med Gisle Hannemyr på fredag, og han hadde sett litt på AFF-filene for å tilpasse dem dagens bruk. Jeg ba ham sjekke no.speling.org og nevnte at vi gjerne tok imot patcher. Jeg antar det er på tide at noen setter seg inn i AFF-opplegget for å kunne vedlikeholde det.
Flott!
Mvh Axel
On Sat, 2007-01-20 at 01:36 +0100, Petter Reinholdtsen wrote:
Jeg tror det er på tide med et nytt IRC-møte i stavekontrollprosjektet, for å gjøre opp status og se hvor vi går videre. Noen som er enig?
Korrekturlesingen av bokmålsord går sin gang, mens korrekturen av nynorskord ser ut til å ha stoppet opp. Vi bør antagelig rekruttere flere folk til nynorskdelen, i tillegg til at det fortsatt trengs flere folk til bokmålsdelen. Jeg mistenker at det hadde vært enklere å få hjelp hvis korrekturen kunne gjøres via web.
for min del er grunnen til at eg ikkje har meldt meg at eg ikkje har tru på framgangsmåten. innsamlingsmetoden gjev inkonsistente data som ikkje kan fjernast, og klassifiseringa er for lite presis til at ordinformasjonen kan brukast av ei datamaskin.
Nynorskord godkjent 2 ganger
Kyrksæter Vikingskip forbruks=baserte fåre gåv håns jante kjøpmanns meterbylgja meterbylgje nåle Åm Års Ås Åsen Øks Øre Øst Østfold Øver Øy Øyde
Det er en skrivefeil i nynorsklista (forbruks=baserte), og en rekke ord som jeg mistenker ikke skal være egennavn (med stor forbokstav), men vanlige ord. Har ikke god nok peiling på nynorsk til å vurdere de andre.
"fåre" er konservativt for substantivet "fare". "gåv", "håns" og "nåle" er ukjent for meg. i grunnen mistenkjer eg at alle desse forstavingar, t.d. "fåre=skalle", "gåv=mild", "hån=spott", "nåle=pute". av særnamna er det berre "Kyrksæter" som bør få stå. "meterbylgje" er eg skeptisk til, eg ser av Google at det vert brukt i radiosamanheng (VHF), og det er litt sært synest eg.
[Kjetil Torgrim Homme]
for min del er grunnen til at eg ikkje har meldt meg at eg ikkje har tru på framgangsmåten. innsamlingsmetoden gjev inkonsistente data som ikkje kan fjernast, og klassifiseringa er for lite presis til at ordinformasjonen kan brukast av ei datamaskin.
Jeg har antagelig ikke fulgt godt nok med, så jeg har ikke fått med meg hvilken framgansmåte du har tro på. Kan du fortelle hva slags alternativ du heller vil velge?
Jeg er klar over at dagens opplegg ikke er fantatisk, men det gir i dag gevinst for bokmålsstavekontrollen, og jeg mistenker at den kan gi gevinst for nynorskbiten også gitt nok korrekturlesere. Hvis noe bedre dukker opp, så er jeg helt med på å bytte ut dagens opplegg.
"fåre" er konservativt for substantivet "fare". "gåv", "håns" og "nåle" er ukjent for meg. i grunnen mistenkjer eg at alle desse forstavingar, t.d. "fåre=skalle", "gåv=mild", "hån=spott", "nåle=pute". av særnamna er det berre "Kyrksæter" som bør få stå. "meterbylgje" er eg skeptisk til, eg ser av Google at det vert brukt i radiosamanheng (VHF), og det er litt sært synest eg.
Dette får meg til å tro at noen må bruke tid på å rydde i nynorsk-biten av korrekturlesingsopplegget. Forstavinger burde ikke dukke opp som selvstendige ord.
Vennlig hilsen,
On Sun, 2007-01-21 at 17:55 +0100, Petter Reinholdtsen wrote:
[Kjetil Torgrim Homme]
for min del er grunnen til at eg ikkje har meldt meg at eg ikkje har tru på framgangsmåten. innsamlingsmetoden gjev inkonsistente data som ikkje kan fjernast, og klassifiseringa er for lite presis til at ordinformasjonen kan brukast av ei datamaskin.
Jeg har antagelig ikke fulgt godt nok med, så jeg har ikke fått med meg hvilken framgansmåte du har tro på. Kan du fortelle hva slags alternativ du heller vil velge?
dessverre har eg ikkje nok lingvistikk innabords til å designe eit nytt opplegg :-(
On 1/20/07, Petter Reinholdtsen pere@hungry.com wrote:
Jeg tror det er på tide med et nytt IRC-møte i stavekontrollprosjektet, for å gjøre opp status og se hvor vi går videre. Noen som er enig?
Jepp, det er eg einig i. Vi må blåse litt liv i prosjektet igjen. Skal vi prøve i løpet av veka. Eg kan alle dagar utan mellom 19.30 og 21.30 på onsdag.
Korrekturlesingen av bokmålsord går sin gang, mens korrekturen av nynorskord ser ut til å ha stoppet opp. Vi bør antagelig rekruttere flere folk til nynorskdelen, i tillegg til at det fortsatt trengs flere folk til bokmålsdelen. Jeg mistenker at det hadde vært enklere å få hjelp hvis korrekturen kunne gjøres via web.
Eg mistenkjer at det er like vanskeleg å rekruttere folk til ei web-løysing. Så eg veit ikkje om det er verdt innsatsen.
Det stemmer at det er lite aktivitet på nynorsksida. Eg for min del merkar at eg er lite motivert til å jobbe med det. Grunnen er jo at eg synes det er fånyttes å jobbe med noko som eigentleg burde vere tilgjengeleg. Men det er jo ikkje noko orsaking, sidan det er jobben vi gjer som kan presse fram den løysinga vi håpar på.
Håvard
[Håvard Korsvoll]
Jepp, det er eg einig i. Vi må blåse litt liv i prosjektet igjen. Skal vi prøve i løpet av veka. Eg kan alle dagar utan mellom 19.30 og 21.30 på onsdag.
Denne uka blir litt hektisk for meg. Hva med søndag 4. februar?
Eg mistenkjer at det er like vanskeleg å rekruttere folk til ei web-løysing. Så eg veit ikkje om det er verdt innsatsen.
Vanskelig å vite før vi har forsøkt. :) Det må dog lages av noen andre, da jeg allerede har for mange prosjekter jeg forsøker å rekke over. :)
Det stemmer at det er lite aktivitet på nynorsksida. Eg for min del merkar at eg er lite motivert til å jobbe med det. Grunnen er jo at eg synes det er fånyttes å jobbe med noko som eigentleg burde vere tilgjengeleg. Men det er jo ikkje noko orsaking, sidan det er jobben vi gjer som kan presse fram den løysinga vi håpar på.
Ja. Jeg tror dog at vår innsats vil kunne spore opp noen nye ord som ikke finnes i den offisielle orddatabasen, så jeg tror det vil være en gevinst med det vi har gjort selv om det viser seg at vi får tilgang til EDDs database i morgen.
Og ingenting tyder på at det skjer noe slikt i morgen, og vi trenger en bra stavekontroll nå, ikke en gang i framtiden. :)
Vennlig hilsen,
Petter Reinholdtsen skrev:
[Håvard Korsvoll]
Jepp, det er eg einig i. Vi må blåse litt liv i prosjektet igjen. Skal vi prøve i løpet av veka. Eg kan alle dagar utan mellom 19.30 og 21.30 på onsdag.
Denne uka blir litt hektisk for meg. Hva med søndag 4. februar?
Eg mistenkjer at det er like vanskeleg å rekruttere folk til ei web-løysing. Så eg veit ikkje om det er verdt innsatsen.
Vanskelig å vite før vi har forsøkt. :) Det må dog lages av noen andre, da jeg allerede har for mange prosjekter jeg forsøker å rekke over. :)
Det stemmer at det er lite aktivitet på nynorsksida. Eg for min del merkar at eg er lite motivert til å jobbe med det. Grunnen er jo at eg synes det er fånyttes å jobbe med noko som eigentleg burde vere tilgjengeleg. Men det er jo ikkje noko orsaking, sidan det er jobben vi gjer som kan presse fram den løysinga vi håpar på.
Ja. Jeg tror dog at vår innsats vil kunne spore opp noen nye ord som ikke finnes i den offisielle orddatabasen, så jeg tror det vil være en gevinst med det vi har gjort selv om det viser seg at vi får tilgang til EDDs database i morgen.
Og ingenting tyder på at det skjer noe slikt i morgen, og vi trenger en bra stavekontroll nå, ikke en gang i framtiden. :)
Det er sant, og den vi har er lastet ned 4402 ganger nå (22.1. kl 09:46) http://alioth.debian.org/frs/?group_id=30577 Dessuten er den med i OOos stavekontroll, sikkert i KDE og gnome også, så det er ikke slik at arbeidet ikke kaster av seg, bare en oppdatering av denne ordlista til 2005-rettingene ville gjort den et godt hakk nyttigere (et arbeide vi startet på på nb, men som foreløpig må pga. andre oppgaver. Det bør ikke være en kjempejobb, dog og jeg regner med å få gjort det innen altfor lenge).
Når det gjelder nye ord er jeg litt mer i tvil. Med en frekvensordliste (tildels kan jo også Google anses som en dårlig utgave av en slik, i mangel av annet. Se ellers forrige e-post :-) kan vi selvsagt klassifisere nye funn, men de bør isåfall markeres på et vis hvis de ikke finnes i bokmålsordboka og ikke er sammensetninger av andre godkjente ord, ellers blir vi vårt eget lille språkråd og det er jeg skeptisk til :-) Den offisielle ordlista bør være et verktøy som orienterer om godkjent norsk språkbruk, nye ord og varianter bør kanskje ikke passe inn der men ev. i en tilleggsordliste? Isåfall er jeg med, for da vil man ikke få inntrykk av at de ordene vi legger til er normerte :-)
Vet ikke hvor vanskelig det er, men også generelt tror jeg en oppdeling av ordlista kan være nyttig, f.eks en egen navneordliste eller en egen liste med dataord. Ulempe: Vanskeligere for folk flest å få med seg alle ordene hvis de vil ha dem. Fordel: Gir ikke folk flest mange ord de neppe vil bruke (og det vil føre til at feilstavinger som «tilfeldigvis» tilsvarer et sært navn eller en sær vitenskapelig betegnelse e.l. ikke blir markert). Men når det gjelder nye ord (se over), så er dette rett framgangsmåte mener jeg :-)
Mvh Axel
Petter Reinholdtsen skrev:
[Håvard Korsvoll]
Jepp, det er eg einig i. Vi må blåse litt liv i prosjektet igjen. Skal vi prøve i løpet av veka. Eg kan alle dagar utan mellom 19.30 og 21.30 på onsdag.
Denne uka blir litt hektisk for meg. Hva med søndag 4. februar?
Tror det skal gå bra for min del :-)
Hvis det ikke skal skje de aller nærmeste dagene kan jeg prøve å sette opp en agenda -- med mindre noen andre kan og vil før meg :-)
Mvh Axel
[Axel Bojer]
Tror det skal gå bra for min del :-)
Hvis det ikke skal skje de aller nærmeste dagene kan jeg prøve å sette opp en agenda -- med mindre noen andre kan og vil før meg :-)
Ingen gjorde det før deg. Jeg har lagt inn noen punkt til agendaen på URL:http://wiki.debian.org/SpellNorwegian/Møteplan. Når skal vi møte?
Vennlig hilsen,
Petter Reinholdtsen skrev:
[Axel Bojer]
Tror det skal gå bra for min del :-)
Hvis det ikke skal skje de aller nærmeste dagene kan jeg prøve å sette opp en agenda -- med mindre noen andre kan og vil før meg :-)
Ingen gjorde det før deg. Jeg har lagt inn noen punkt til agendaen på URL:http://wiki.debian.org/SpellNorwegian/Møteplan. Når skal vi møte?
I morgen, ikke sant? Jeg er opptatt fra halv 4 og utover, dessverre. Også Espen Talberg er opptatt. Hvis vi kan ha det på formiddagen, så skal jeg være der :-)
La inn en ekstra sak på lista ...
Mvh Axel
[Axel Bojer]
I morgen, ikke sant? Jeg er opptatt fra halv 4 og utover, dessverre. Også Espen Talberg er opptatt. Hvis vi kan ha det på formiddagen, så skal jeg være der :-)
Ja. Kan godt ta det før 4 for min del. Jeg planlegger å være hjemme og nerde hele dagen.
La inn en ekstra sak på lista ...
Godt poeng med synonymdatabasen. Jeg bør antagelig heller hente data derfra i stedet for no.speling.ord. Det må dog scriptes først. :)
Vennlig hilsen,
Petter Reinholdtsen skrev:
[Axel Bojer]
I morgen, ikke sant? Jeg er opptatt fra halv 4 og utover, dessverre. Også Espen Talberg er opptatt. Hvis vi kan ha det på formiddagen, så skal jeg være der :-)
Ja. Kan godt ta det før 4 for min del. Jeg planlegger å være hjemme og nerde hele dagen.
Flott! Hvis det tar en time er kanskje 12--13?
La inn en ekstra sak på lista ...
Godt poeng med synonymdatabasen. Jeg bør antagelig heller hente data derfra i stedet for no.speling.ord. Det må dog scriptes først. :)
:-) Den kan testes og er blitt en god del større og bedre enn i fjor. Mener den nærmer seg noe som kan utgis, men vil gjerne ha flere til å se på den først.
Mvh Axel
[Axel Bojer]
Flott! Hvis det tar en time er kanskje 12--13?
OK. Jeg valgte IRC-nett for å ha det klart. Vi ses på #spell-norwegian på irc.oftc.net. :)
Vennlig hilsen,
Petter Reinholdtsen wrote:
Jeg har lagt inn en god del nye ord fra no.speling.org i datafila som fortsatt brukes til stavekontrollen, men det er en del ord som er godkjent av minst en korrekturleser som jeg er i tvil om bør godkjennes. Jeg vil gjerne ha kommentarer på disse.
För svenska språket finns Språkbanken, en avdelning vid Göteborgs universitet, som studerar ordfrekvenser sedan 1960-talet. Om man går till http://spraakbanken.gu.se/ och väljer "nedladdning" i vänstermenyn och sedan "Ordfrekvenser", så kommer man till http://spraakbanken.gu.se/pub/statistik/ och http://spraakbanken.gu.se/pub/statistik/Pressmaterial/UNIX-format/
där man kan hitta ordfrekvenser ur svenska dagstidningar från 1965, 1976, 1987, 1995, 1996, 1997, 1998 och 2000-2001, i ett XML-format som är lätt att tolka.
Detta är mycket användbart för att se om ett visst ord har använts eller inte. Till exempel kan man se att cigarrett var mycket vanligare 1965, men att cigarett (med ett -r-) numera dominerar.
Finns det något liknande för norska ordfrekvenser?
Jag har funderat på att göra liknande listor för Projekt Runeberg, uppdelat på språk (svenska, danska, norska) och årtal. Vi har ju folkeutgaven av Ibsen (http://runeberg.org/ibsen/) och en del gamla årgångar av Teknisk Ukeblad (http://runeberg.org/tekuke/) och andra tidskrifter. Även om 1890-talets skrivna norska till 90% är danska, så är ändå inslaget av norska konstruktioner i stigande för varje år.
Ett intressant exempel är http://runeberg.org/ilnolihi/4/ där de olika kapitlen av olika författare är på olika språk. Den teologiska avdelningen är nästan helt på danska, medan naturvetenskaperna har mycket mera norska i sig.
Lars Aronsson skrev:
Petter Reinholdtsen wrote:
Jeg har lagt inn en god del nye ord fra no.speling.org i datafila som fortsatt brukes til stavekontrollen, men det er en del ord som er godkjent av minst en korrekturleser som jeg er i tvil om bør godkjennes. Jeg vil gjerne ha kommentarer på disse.
För svenska språket finns Språkbanken, en avdelning vid Göteborgs universitet, som studerar ordfrekvenser sedan 1960-talet. Om man går till http://spraakbanken.gu.se/ och väljer "nedladdning" i vänstermenyn och sedan "Ordfrekvenser", så kommer man till http://spraakbanken.gu.se/pub/statistik/ och http://spraakbanken.gu.se/pub/statistik/Pressmaterial/UNIX-format/
där man kan hitta ordfrekvenser ur svenska dagstidningar från 1965, 1976, 1987, 1995, 1996, 1997, 1998 och 2000-2001, i ett XML-format som är lätt att tolka.
Detta är mycket användbart för att se om ett visst ord har använts eller inte. Till exempel kan man se att cigarrett var mycket vanligare 1965, men att cigarett (med ett -r-) numera dominerar.
Finns det något liknande för norska ordfrekvenser?
Det jeg finner i farten er:
http://helmer.aksis.uib.no/nta/ (omfattende)
http://www.korrekturavdelingen.no/K4Frekvensordliste500VanligsteNorsk.htm og der også: http://www.korrekturavdelingen.no/K4FrekvensordlisterOversikt.htm (et utvalg)
Godt mulig av kan bruke noe av dette ...
Mvh Axel
Axel Bojer wrote:
Ja, den var intressant. Men dessvärre är alla ord omvandlade till lowercase (oslo, kristiansand) före sammanräkningen, vilket gör listan mindre användbar för att analysera rättstavning. Visserligen bör de 10.000 vanligaste orden finnas med i stavningsordlistan, men de "intressanta" orden (cigarett eller cigarrett?) är mycket mindre vanliga än så.
Jag lagade nu en statistik om de norska orden i Projekt Runeberg, som ni kan ladda hem och leka med, http://runeberg.org/words/frekvens-20070122.html
[Lars Aronsson]
Finns det något liknande för norska ordfrekvenser?
Vi har samarbeid med Kevin Patrick Scannell og An Crúbadán-prosjektet, som lager frekvensordlister for mange minoritetsspråk basert på webdokumenter. Sjekk lenken fra URL:http://no.speling.org/links.html for informasjon om dette. Jeg bruker den frekvensordlisten når jeg setter hyppighet i norsk.words.
[Lars Aronsson]
Finns det något liknande för norska ordfrekvenser?
Her er Tekstlaboratoriet sine frekvenslister:
http://www.hf.uio.no/tekstlab/frekvensordlister/
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------
Petter Reinholdtsen kirjoitti 22. jan. 2007 kello 14.09:
Finns det något liknande för norska ordfrekvenser?
Merk skilnaden mellom ordform-frekvensar og lemma-frekvensar. Den første er lett å lage: Ta ei tekstsamling, del opp i ord-per-line, og sorter etter frekvens. For den andre trengst det grammatisk analyse som reduserer dei ulike ordformene til same leksem, eller lemma (ha, har, hadde, hatt => HA; fisk, fisken, fiskar, fiskane, fisks, fiskens, fiskars, fiskanes => FISK, fiskar, fiskaren, fiskarar, fiskarane, fiskars, fiskarens, fiskarars, fiskaranes => FISKAR) (merk særleg "fiskar", som kan høyre til to ulike klasser).
Både ordformlister og lemmalister kan vere interessante, men for å lage t.d. ei ispell-liste, er det lemmaliste (+ bøyingsklasseinformasjon) er det lemmaliste som trengst.
Evt. er det sjølvsagt viktig å køyre frekvensordformslister mot stavekontrollar, for å sjå når det tar til å butte imot.
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------
Trond Trosterud wrote:
Både ordformlister og lemmalister kan vere interessante, men for å lage t.d. ei ispell-liste, er det lemmaliste (+ bøyingsklasseinformasjon) er det lemmaliste som trengst.
Ispell-listan behöver egentligen bara innehålla ordet "fiskar", den behöver inte veta om det är härlett av fisk eller av fiskare. Men det vanliga är ju att man lägger till alla tillåtna former, när man lägger till ett ord.
Ett mått (en målestokk) på en ispell-ordlistas duglighet är hur stor "täckning" den har. Om jag skriver en text med 100 ord, alla med korrekt stavning, hur många blir då (i medeltal) rödmarkerade på grund av att ordet saknades i ordlistan? Man kan förmodligen inte förvänta sig att komma över 99 procent. Men om man inte klarar att komma upp i 95 procent, så framstår listan som dålig.
Täckningen är inte det enda måttet på kvalitet i ordlistan, men det är ett mått som går att mäta (som lar sig måles). Ibsens "Samlede værker" i 10 bind (no-1900.top i det arkiv jag offentliggjorde tidigare idag) innehåller 773446 ord, varav 16762 eller 2,2 % är "og". Om min ordlista består enbart av ordet "og" blir täckningen alltså 2,2 %. De 500 vanligaste ordformerna ger tillsammans 63% täckning. 10.000 ordformer ger 91% och 30.000 ordformer ger 97% täckning, vilket är fullt acceptabelt.
Men denna ordlista över 30.000 ordformer (från Ibsen) innehåller inte ord som "radio" och "telefon". Ordlistan är inte generellt acceptabel, utan bara för stavningskontroll av just denna korpus. Ibsen använder faktiskt 3 "telegram", 2 "telegrammet" och 2 "telegraferet", men inte "telegrams" och "telegrammets". När man lägger till ordet telegram i en ispell-ordlista, lägger man vanligen också till alla giltiga ordformer, men det är bara några få av dem som väsenligt bidrar till "täckningen".
Svenska och norska har i medeltal cirka 5 ordformer för varje lemma. Men de 30.000 ordformer som krävs för att nå 97% täckning (i Ibsens Samlede værker) kan inte skapas från 6.000 lemma. Troligen behövs det mellan 15.000 och 20.000 lemma i ordlistan.
Och för att få en generellt acceptabel ordlista, behöver vi en mycket stor textkorpus, med både "radio" och "telefon" och "iPhone". Man kunde tänka att norska sökföretag som FAST, Alltheweb, Kvasir och Sesam kunde ha en stor textkorpus i de webbtexter de har samlat in och arkiverat. Någon som vet?
Några som gjort analyser av det här slaget är ungrarna Géza Németh and Csaba Zainkó, "Multilingual Statistical Text Analysis, Zipf's Law and Hungarian Speech Generation", http://www.nslij-genetics.org/wli/zipf/nemeth02.pdf
Lars Aronsson kirjoitti 22. jan. 2007 kello 22.47:
Trond Trosterud wrote:
Både ordformlister og lemmalister kan vere interessante, men for å lage t.d. ei ispell-liste, er det lemmaliste (+ bøyingsklasseinformasjon) er det lemmaliste som trengst.
Ispell-listan behöver egentligen bara innehålla ordet "fiskar", den behöver inte veta om det är härlett av fisk eller av fiskare. Men det vanliga är ju att man lägger till alla tillåtna former, när man lägger till ett ord.
Poenget er at du i ei ispelliste vil ha fisk/x fiskar/x
der /x er ein peikar til leksikonet -/s/en/ens/ar/ars/ane/anes
Alternativt kan du bruke ei ordformliste og ikkje morfologi i det heile., og då kan "fiskar" representere både eintalsforma, fleirtalsforma og verbforma.
Troligen behövs det mellan 15.000 och 20.000 lemma i ordlistan.
Ja, absolutt, minst. Og det føreset samansetjingar.
Och för att få en generellt acceptabel ordlista, behöver vi en mycket stor textkorpus, med både "radio" och "telefon" och "iPhone". Man kunde tänka att norska sökföretag som FAST, Alltheweb, Kvasir och Sesam kunde ha en stor textkorpus i de webbtexter de har samlat in och arkiverat. Någon som vet?
Det største er aviskorpuset i Bergen. Eg veit ikje om dei vil gje frå seg ordlister. Men det dei har er ikkje korrekturlest, så det er ei anna feilkjelde.
Några som gjort analyser av det här slaget är ungrarna Géza Németh and Csaba Zainkó, "Multilingual Statistical Text Analysis, Zipf's Law and Hungarian Speech Generation", http://www.nslij-genetics.org/wli/zipf/nemeth02.pdf
Som sagt, det beste ville vere å kunne gå ut frå ei leksemliste med informasjon om bøying.
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------
Trond Trosterud wrote:
Troligen behövs det mellan 15.000 och 20.000 lemma i ordlistan.
Ja, absolutt, minst. Og det føreset samansetjingar.
Förtydligande: Nu menade jag för att uppnå 97% täckning av Ibsens "Samlede værker" i 10 bind, det som kräver minst 30.000 ordformer, utan automatiska sammansättningar. Det borde gå att klara med 20.000 lemma + böjningar.
För att få en generellt användbar norsk stavningsordlista krävs givetvis en mycket större ordlista än 20.000 lemma.
Det intressanta ur den här diskussionen är givetvis inte att stavningskontrollera Ibsen, utan att få till en mätning eller uppskattning (estimat) av hur stor täckning de nuvarande stavningsordlistorna har.
Min gissning är att den nuvarande svenska (från 1997, med 24.489 lemma) har en täckning runt 94% och det menar jag är för lågt. En ny svensk ordlista (DSSO 1.22 från december 2006) har 44.000 lemma, som expanderar till 242.000 ordformer.
Det vore intressant att höra om någon har konkret nytta av de norska frekvensordlistorna ur Projekt Runeberg, http://runeberg.org/words/frekvens-20070122.html eller om nyttan kan ökas genom förbättringar av metoden? Jag ser detta som en prototyp till hur jag kunde göra liknande listor för danska och svenska.