[i18n-no] Forbetra oppslag i ordbanken som hjelp ved omsetting - l10n-no

31 Jul 2008


      Eg har no forbetra skriptet eg brukar til oppslag i ordbanken til
hjelp ved omsetting. Det er ikkje alltid lett å veta korleis ord
skal bøyast, spesielt sidan me må bruka full samsvarsbøying.
Eksempel: Du sit der med ei korg jordbær ein varm sommarkveld.
Når du er ferdig å nyta jordbæra, kjenner du behov for å uttrykka
dette til verda, og då på korrekt nynorsk. Kva vert rett ordform 
av «å nyta» her: Jordbæra er [å nyta].
Svar kjem i slutten av denne e-posten:
Fullformslistene til Norsk ordbank er gjevne ut under GPL, og
er tilgjengelig frå:
http://www.edd.uio.no/prosjekt/ordbanken/
(Ordlistefilene må gjerast om frå ISO 8859-1 til teiknkodinga du brukar 
(veldig trulig UTF-8) før du kan ta skriptet i bruk.)
Her er skriptet eg brukar (kall det gjerne «ord» og legg det i søkjestigen):
#!/bin/sh
# ord – oppslag i nynorskordlista etter hovudformer som tilfredstiller visse kriterium.
# Syntaks: ord kriterium1 kriterium2 ...
#
# Forklaring:
# awk: Trekk ut oppføringar med rett grunnord ($1).
# sed: Fjern kodar (på forma <kode1>) som inneheld tal.
# sed: Fjern kodar («ord» utan <>) som inneheld berre tal.
# sed: Fjern klammeformer og unormerte ord.
# grep: Filtrer oppføringar etter dei (opptil) 8 kriteria.
# uniq: Fjern duplikatlinjer som kjem etter kvarandre.
# column: Formater resultatet som ein fin tabell.
ordbok=~/utvikling/ordbank/fullform_nn.txt
awk '{ if ( $2 == '"$1"') {print $0}}' $ordbok \
| sed 's/<[^>]*[0-9][^>]*>*//g' \
| sed 's/\b[0-9]*\b//g' \
| fgrep -v klammeform | fgrep -v unormert \
| grep -E "\W<?$2" | grep -E "\W<?$3" | grep -E "\W<?$4" | grep -E "\W<?$5" \
| grep -E "\W<?$6" | grep -E "\W<?$7" | grep -E "\W<?$8" | grep -E "\W<?$9" \
| uniq \
| column -t
Skriptet tar inn *grunnforma* av eit ord, samt (starten på) eventuelle 
formkodar. Unormerte ord og klammeformer vert ekskluderte, sidan me ikkje
skal bruka dei i omsettingane våre. (For bokmål kan du fjerna filtreringa 
av klammeformer, sidan bokmål ikkje lenger har skilje mellom 
klammeformer og hovudformer, men la filtreringa av unormerte ord vera.)
Eksempel på bruk:
ord ringje
Dette gjev alle bøyingar av ordet «ringje».
Me kan òg avgrensa oss til enkelte former. Lat oss tenka oss at me skal
omsetta meldinga  «Read messages» (namnet på ei mappe), men er litt 
usikkert på om perfektum partisipp-forma er «leste» eller «lesne». Då kan 
me skriva:
ord lese perf
Dette gjev alle desse treffa:
lese  lesi   verb  perf-part    normert
lese  lese   verb  perf-part    normert
lese  lesi   adj   <perf-part>  nøyt     ub       eint     normert
lese  lese   adj   <perf-part>  nøyt     ub       eint     normert
lese  lesen  adj   <perf-part>  m/f      ub       eint     normert
lese  lesi   adj   <perf-part>  fem      ub       eint     normert
lese  lesne  adj   <perf-part>  bu       eint     normert
lese  lesne  adj   <perf-part>  fl       normert
Svaret er altso at «Read messages» må bli «Lesne meldingar».
Som me ser, får me ofte *mange* treff. Me kan filtrera vidare. Skal for
eksempel namnet på mappa med meldingar ein har sendt heita 
«Sendte meldingar» eller «Sende meldingar»? Svar:
ord sende perf fl
sende  sende  adj  <perf-part>  fl  normert
Det heiter altso «Sende meldingar» (men om ein skriv privat, kan ein bruka
«Sendte meldingar», som er ei klammeform).
Nokre nyttige kodar:
adj/verb/subst (sjølvforklarande)
eint/fl (eintal/fleirtal)
bu/ub (bunden/ubunden form)
pres/pret/perf/imp (presens/preteritum/perfektum/imperativ)
Det finst òg andre. Til slutt: Svaret på oppgåva om jordbærnytinga er
(«ord nyte fl»):
Jordbæra er notne.
-- 
Karl Ove Hufthammer