Re: [i18n-no] Re: Oppdatere frekvensinformasjonen i bokmålsordlisten?

14 Jan 2006


      Petter Reinholdtsen og Rune Kleveland skrev:
[ en masse gode ting ]
Pointen om bedre værktøjer end bare korrekturlæsning af en 
streng ad gangen er jeg helt enig i.  Samtidig er der dog 
også det at jo mere komplicerede (sprogligt såvel som 
teknisk) værktøjerne er, jo færre kan være med.
Det sprogligt og teknisk enkleste er nok en webside hvor 
folk bare krydser af ved rigtigt/ved ikke/forkert ud for 
hver streng på listen.  Det er et værktøj som alle brugere 
af sproget og computere burde kunne håndtere, og derfor er 
det også noget vi bør prioritere højt så længe vi har 
ordlister der er mangelfulde.
Noget endnu mere enkelt, men også lidt mindre præcist, er at 
få systemadministratorer til at installere et program der 
skimmer brugertilføjelser til ordlisterne og indsender dem.
Bare det at skulle fortælle hvilken ordklasse et ord 
tilhører skærer tilsyneladende kraftigt ned i antallet af 
potentielle korrekturlæsere.  Jeg fandt ud af dette da jeg 
snakkede med nogle af de danske korrekturlæsere.  Det var 
lidt af en overraskelse.
I forbindelse med arbejdet på de danske og færøske ordlister 
har vi brygget nogle værktøjer sammen der nok også kan 
bruges til bokmål og nynorsk.
Et af dem er `dte` (se 
http://www.sslug.se/%7Egrove/dte/index.shtml for en 
komplet beskrivelse), der gør at man kan sige at nogle ord - 
beskrevet ved et simpelt regulært udtryk - bøjes som et 
andet ord.  Hvis det andet ords bøjningsmønster er kendt af 
`dte`, genererer programmet automatisk alle bøjningerne af 
alle ordene det regulære udtryk beskriver.
Et andet minder lidt om `munchlist` (det har det innovative 
navn `word_class_identifier`).  Det tager et bøjningsmønster 
(endelser og bøjningsnavne) som kommandolinjeargument og 
læser en sorteret ordliste fra »stdin«.  Uddata er en log 
med de ord programmet kunne finde i ordlisten der følger det 
givne bøjningsmønster.  Fordelen ved dette program er at det 
kan sættes til at tolerere at enkelte former mangler.
En `grep` på et bestemt bøjningsmønster i en 
affikskomprimeret ordliste er også en god hjælp til at gætte 
ordklasser og bøjningsmønstre for ord.
Endelig har jeg skrevet et primitivt, interaktivt 
korrekturlæsningsprogram, hvor man med et enkelt tastetryk 
angiver ordklasse for et ord eller afviser det som en fejl. 
Det at man kun skal bruge et enkelt tastetryk per ord gør at 
korrekturlæsningen går meget hurtigt.  Som programmet 
fungerer nu er det afhængigt af at man har forbindelse til 
en server der uddeler ord til korrekturlæsning, og det 
kræver at korrekturlæseren selv indsender 
korrekturlæsningsloggen.  Når jeg har rettet op på disse to 
mangler, tror jeg det vil være et generalt nyttigt værktøj.
Problemerne med `dte`, `word_class_identifier` og 
`munchlist`+`grep` er at de kræver lidt for meget teknisk 
kompetence til at være nyttige for den ikke-tekniske, men 
ellers gode sprogbruger.  Vi bør nok se på at lave nogle 
web-baserede værktøjer med lignende funktionalitet.
Hvad angår orddeling af sammensatte ord svarer Runes forslag 
til det der er planen for den danske ordliste.
Jacob
-- 
Gravkoen er det optiske fibers naturlige fjende.

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

Re: [i18n-no] Re: Oppdatere frekvensinformasjonen i bokmålsordlisten?