Eg har no forbetra skriptet eg brukar til oppslag i ordbanken til hjelp ved omsetting. Det er ikkje alltid lett å veta korleis ord skal bøyast, spesielt sidan me må bruka full samsvarsbøying.
Eksempel: Du sit der med ei korg jordbær ein varm sommarkveld. Når du er ferdig å nyta jordbæra, kjenner du behov for å uttrykka dette til verda, og då på korrekt nynorsk. Kva vert rett ordform av «å nyta» her: Jordbæra er [å nyta].
Svar kjem i slutten av denne e-posten:
Fullformslistene til Norsk ordbank er gjevne ut under GPL, og er tilgjengelig frå: http://www.edd.uio.no/prosjekt/ordbanken/
(Ordlistefilene må gjerast om frå ISO 8859-1 til teiknkodinga du brukar (veldig trulig UTF-8) før du kan ta skriptet i bruk.)
Her er skriptet eg brukar (kall det gjerne «ord» og legg det i søkjestigen):
#!/bin/sh # ord – oppslag i nynorskordlista etter hovudformer som tilfredstiller visse kriterium. # Syntaks: ord kriterium1 kriterium2 ... # # Forklaring: # awk: Trekk ut oppføringar med rett grunnord ($1). # sed: Fjern kodar (på forma <kode1>) som inneheld tal. # sed: Fjern kodar («ord» utan <>) som inneheld berre tal. # sed: Fjern klammeformer og unormerte ord. # grep: Filtrer oppføringar etter dei (opptil) 8 kriteria. # uniq: Fjern duplikatlinjer som kjem etter kvarandre. # column: Formater resultatet som ein fin tabell.
ordbok=~/utvikling/ordbank/fullform_nn.txt awk '{ if ( $2 == '"$1"') {print $0}}' $ordbok \ | sed 's/<[^>]*[0-9][^>]*>*//g' \ | sed 's/\b[0-9]*\b//g' \ | fgrep -v klammeform | fgrep -v unormert \ | grep -E "\W<?$2" | grep -E "\W<?$3" | grep -E "\W<?$4" | grep -E "\W<?$5" \ | grep -E "\W<?$6" | grep -E "\W<?$7" | grep -E "\W<?$8" | grep -E "\W<?$9" \ | uniq \ | column -t
Skriptet tar inn *grunnforma* av eit ord, samt (starten på) eventuelle formkodar. Unormerte ord og klammeformer vert ekskluderte, sidan me ikkje skal bruka dei i omsettingane våre. (For bokmål kan du fjerna filtreringa av klammeformer, sidan bokmål ikkje lenger har skilje mellom klammeformer og hovudformer, men la filtreringa av unormerte ord vera.)
Eksempel på bruk:
ord ringje
Dette gjev alle bøyingar av ordet «ringje».
Me kan òg avgrensa oss til enkelte former. Lat oss tenka oss at me skal omsetta meldinga «Read messages» (namnet på ei mappe), men er litt usikkert på om perfektum partisipp-forma er «leste» eller «lesne». Då kan me skriva:
ord lese perf
Dette gjev alle desse treffa:
lese lesi verb perf-part normert lese lese verb perf-part normert lese lesi adj <perf-part> nøyt ub eint normert lese lese adj <perf-part> nøyt ub eint normert lese lesen adj <perf-part> m/f ub eint normert lese lesi adj <perf-part> fem ub eint normert lese lesne adj <perf-part> bu eint normert lese lesne adj <perf-part> fl normert
Svaret er altso at «Read messages» må bli «Lesne meldingar».
Som me ser, får me ofte *mange* treff. Me kan filtrera vidare. Skal for eksempel namnet på mappa med meldingar ein har sendt heita «Sendte meldingar» eller «Sende meldingar»? Svar:
ord sende perf fl
sende sende adj <perf-part> fl normert
Det heiter altso «Sende meldingar» (men om ein skriv privat, kan ein bruka «Sendte meldingar», som er ei klammeform).
Nokre nyttige kodar: adj/verb/subst (sjølvforklarande) eint/fl (eintal/fleirtal) bu/ub (bunden/ubunden form) pres/pret/perf/imp (presens/preteritum/perfektum/imperativ)
Det finst òg andre. Til slutt: Svaret på oppgåva om jordbærnytinga er («ord nyte fl»):
Jordbæra er notne.