Eg har laga eit nytt skript som kan hjelpa oss å velja konsekvent bøying av ord i omsettingane våre. Norsk har ein del valfridom, og av og til kan ein vera i tvil om kva form ein skal velja (eller kva former ein kan velja *mellom*). Om det ikkje står noko relevant i dei språklege retningslinjene våre eller i fellesordlista, baserer ein seg gjerne på kva former andre har brukt før. Og her kjem altså dette nye skriptet til nytte.
Komplett dokumentasjon følgjer, men her er TLDR-versjonen:
*** Start TLDR ***
Eg omset ei setning med uttrykket «have contributed», og skal til å skriva «har bidratt». Men så kjem eg i tvil om dette er den *vanlegaste* bøyingsvarianten (la oss her sjå vekk frå at andre ord, som «medverka» eller «hjelpt», kanskje kan vera betre). Eg køyrer følgjande kommando:
frek bidratt
Og får opp oversikt over kva bøyingsformer eg *kunne* valt og ei frekvensoversikt som viser kor ofte dei faktisk *er* brukte i omsettingane våre:
ID Grunnord Bøying Ordklasse Kode 123355 bidra bidrege verb perf-part 341 123355 bidra bidratt verb perf-part 373 123355 bidra bidradd verb perf-part 374 […]
Ord Frekvens bidrege 6 bidratt 1
Eg ser at den vanlegaste skrivemåten er «bidrege» (6 førekomstar), ikkje «bidratt» (1 førekomst) eller «bidradd» (0 førekomstar). Så eg bør velja «bidrege» (og retta opp den eine «bidratt»-oppføringa).
Skriptet kan òg brukast til å visa frekvensstatistikk for *ulike* ord:
frek skjerm monitor
Som gjev:
ID Grunnord Bøying Ordklasse Kode 61801 monitor monitor subst mask appell eint ub 700 82494 skjerm skjerm subst mask appell eint ub 700 82501 skjerme skjerm verb imp 001
Ord Frekvens skjerm 130 monitor 3
Så «skjerm» er veldig mykje vanlegare enn «monitor» i omsettingane våre.
Men som me ser frå oversikta over moglege former øvst, må ein òg vera obs på at «skjerm» kan vera imperativ av verbet «å skjerma». Her er ikkje det noko problem, men i andre tilfelle er det viktig å *kjenna til* slike alternative grunnord for å unngå å mistolka frekvensoversikta.
*** Slutt TLDR ***
Skriptet ligg (saman med nokre andre nyttige skript) i skriptmappa til KDE-nynorskomsettinga, som ein hentar ned slik:
svn co svn://anonsvn.kde.org/home/kde/trunk/l10n-support/nn/skript
Sjå i undermappa «frekvensoversikt». Her er dokumentasjonen som står i LESMEG.txt-fila:
Enkel frekvensordliste ══════════════════════
Lat oss starta med å laga ei frekvensordliste for nynorskomsettinga:
./lag-frekvens-ordliste.sh ../../summit/messages > frekvens-nn.dat
Dette går gjennom alle omsettingsfilene i mappa «../../summit/messages», hentar ut alle orda på minst tre bokstavar og lagrar ei frekvensordliste som fila «frekvens-nn.dat».
Uthenting av frekvensstatistikk ═══════════════════════════════
Du kan sjølvsagt lagra ordlista med kva namn du vil, men ordlister på formatet «frekvens-xx.dat» (der «xx» er ein språkkode, dvs. «nn» eller «nb») vert brukte av følgjande skript, som hentar ut frekvensstatistikk for det gjeldande ordet og for andre bøyingar av same ord. Dette viser me lettast med eit eksempel.
Enkelt eksempel ───────────────
Prøv denne kommandoen (som krev at ein har installert programmet R og ei handfull tilhøyrande pakkar):
./hent-frekvens-statistikk.R nn ~/utvikling/ordbanken bidratt
Dette slår opp ordet «bidratt» i nynorskversjonen av Norsk ordbank (dvs. i fila «fullform_nn.txt» i mappa ~/utvikling/ordbanken – sjå https://huftis.org/artiklar/ordbanken/ for meir informasjon om korleis du får tak i denne), finn ut kva (grunn)ord dette er ei bøying av og kva type bøying det er (her: perfektum partisipp eller tilhøyrande adjektivform), finn andre tilsvarande bøyingar for dette ordet / desse orda (eks. «bidrege» og «bidradd»), viser informasjon om desse orda og viser til slutt kor ofte desse alternative bøyingane er brukte i omsettingane våre. Her er eit utdrag frå resultatet:
ID Grunnord Bøying Ordklasse Kode 123355 bidra bidrege verb perf-part 341 123355 bidra bidratt verb perf-part 373 123355 bidra bidradd verb perf-part 374 […]
Ord Frekvens bidrege 6 bidratt 1
Me ser at den vanlegaste skrivemåten er «bidrege» (6 førekomstar), ikkje «bidratt» (1 førstkomst) eller «bidradd» (0 førekomstar). Så me bør velja denne forma.
Me bør sjølvsagt òg retta opp den eine inkonsekvente omsettinga som finst frå før («bidratt»). Og når me først er i gang med å retta opp, bør me òg sjekka andre former av ordet. Ordbanken kan for eksempel fortelja oss (kommando: «ordbank bidra», jf. https://huftis.org/artiklar/ordbanken/) at dersom me brukar partisippforma «bidrege», må det vera «bidreg» i presens òg (ikkje «bidrar», som me må ha viss me brukar formene «bidratt» eller «bidradd»).
Fleire oppslagsord ──────────────────
Det er òg mogleg å oppgje fleire oppslagsord. Dette er nyttig når ein har valet mellom fleire alternative omsettingar eller når ordvariantane er førte opp som separate oppslagsord i Norsk ordbank. Slik kan ein for eksempel sjekka kva som er mest vanleg av orda «fremside», «framside» og «forside» på bokmål:
./hent-frekvens-statistikk.R nb ~/utvikling/ordbanken fremside framside forside
Merk at for komplett oversikt over kva ord som er brukte i omsettingane bør ein nok òg leggja til bøygde former, som for eksempel «fremsiden» og «fremsida».
(Og er ein usikker på kva *omsetting* ein skal bruka for eit engelsk ord, sjå heller skripta i mappa «termbase».)
Kortkommando for enklare bruk ─────────────────────────────
Kommandoane ovanfor er lange og tunge, og til dagleg bruk er det greiare med kortare kommandonamn, der me slepp å hugsa mappeadresser og slikt. Då kan me laga ein bash-funksjon som gjer jobben for oss. Legg følgjande inn i fila ~/.bashrc (eller tilsvarande):
# Mappe der skripta for omsetting av KDE til norsk ligg export kde_l10n=~/utvikling/kde/trunk/l10n-support/nn/skript/
# Slå opp i frekvensordlista for omsettingane function frek { cd $kde_l10n/frekvensoversikt ./hent-frekvens-statistikk.R nn ~/utvikling/ordbanken $@ | \ grep -E --color=yes "\W$1\W|" | less -FX cd - > /dev/null # Gå tilbake til mappa me var i } export -f frek
(Tilpass mappeadressene etter kor du har lagt ting.)
No kan ein bruka kommandoen «frek» (uansett kva mappe ein står i), slik:
frek bidratt
Som ein ekstra bonus vert alle førekomstar av oppslagsordet markert med farge (gjeld berre *første* oppslagsord dersom ein har fleire). Og viss resultatet går over meir enn éi skjermhøgd, vert det vist via programmet «less», slik at ein lett kan bla gjennom det. (Bruk piltastane, «Mellomrom» og «Rettetast» eller «Page Up» og «Page Down», og «Q» for å avslutta.)