Re: [i18n-no] Hvordan sjekker vi kvalitetsendringer i stavekontrollen?

12 Feb 2009


      Den 12. feb. 2009 kl. 13.10 skrev Karl Ove Hufthammer:
...
...
Hunspell har verkty for å handtera i det minste delar av ein slik
strategi, men eg er usikker på om det går å implementera alt.  
Hunspell
har derimot ikkje dei verktya vi treng for å handtera samansetjing i
samisk, der det finst enno meir kompliserte mønster (t.d. at det
fyrste ordet vanlegvis lagar samansetjing i nominativ, dvs vanleg
grunnform, men det etterfylgjande ordet krev at det føregåande ordet
står i genitiv eintal eller fleirtal - det er i praksis uråd for  
oss å
formulera dette programmatisk i Hunspell). Vi kjem derfor truleg  
til å
gje opp Hunspell, og satsa på ein ny stavekontroll vi sjølve kjem til
å vera med på å utvikla (open kjeldekode, sjølvsagt).
Kunne ikkje ein idé heller vera å prøva å forbetra Hunspell til å  
støtta
dette. Eller er oppbygginga av Hunspell so forskjellig at dette  
ikkje er
mulig?
Det finst mange andre grunnar til at vi ikkje vil satsa på Hunspell,  
uansett. Hunspell er for oss eit derivert format, som ligg ganske  
langt unna vår eigen kjeldekode, og konverteringa frå koden vår til  
Hunspell er ikkje triviell, og enno langt frå feilfri og komplett. Vi  
vil uansett satsa på denne nye hesten, og *ev* halda ved like dei  
Hunspell-implementasjonane vi har, men det er lite truleg.
Den viktigaste grunnen til at vi ikkje kan og vil satsa på Hunspell,  
er at Hunspell er spesialisert programvare (i hovudsak) laga for å  
korrigera tekst, men utan den naudsynte språkteknologiske djubda ein  
treng for å vera heilt språkuavhengig (jf at det finst alle moglege  
slags tilpassingar for ulike språk, istf allmenne generaliseringar).  
Det vi har drøymt om heile tida, og no ser for oss kan bli ein  
realitet, er ein stavekontroll basert på transduserteknologi (helst  
vekta slik teknologi). Teknologien i seg sjølv er velprøvd (det  
matematiske grunnlaget er kjent frå 80-talet), har vorte prøvd på eit  
utal ulike språk, er rask (kring 100 000 analyser pr sekund eller  
meir, som for ein stavekontroll grovt rekna svarar til talet på  
forslag pr sekund, eller talet på godkjende/forkasta ord pr sekund --  
MINUS overhead i samband med stavekontroll-API-ar m.m.).
Det er samtidig den teknologien vi bruker for å analysera tekst, desse  
analysene er i sin tur grunnlaget for meir avansert språkleg analyse,  
som i sin tur kan bli til t.d. ein grammatikkontroll.
Vi (Divuvn-gjengen og språkteknologimiljøet ved Univ. i Tromsø) *veit*  
at vi kan handtera samisk (og i prinsipp alle andre språk) med denne  
teknologien. Vi har røynsle nok til å seia at dette er framtida, og at  
Hunspell (for oss) er eit sidespor - naudsynt til no, men like fullt  
eit sidespor.
Ja, det finst anna språkteknologi (eller teknologi for ordanalyse,  
m.a. Hunspell), og ja, vi veit at ikkje all språkteknologi eignar seg  
for stavekontroll og andre korrekturprogram. Men for språk med  
komplekse ord (mykje bøying, samansetjing, anna ordlaging) er denne  
teknologien den einaste farbare. Alle språka vi arbeider med høyrer  
til denne kategorien, inkl. norsk. Hunspell klarar av ein del av desse  
språka, men som eg nemnde i ein annan e-post, så er formatet så  
krøkkete for språk som finsk og samisk at vi helst ikkje vil gjera det  
(finsk er i denne samanhangen vanskelegare enn samisk, dvs for  
Hunspell, men er relativt trivielt for transduserteknologi).
Sjølv om transduserteknologien er gamal, har det ikkje tidlegare  
funnest implementasjonar som open kjeldekode. Dette har endra seg dei  
siste åra (det siste året), slik at det no faktisk er mogleg å sjå for  
seg ein stavekontroll basert på denne teknologien.
Sjur

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

Re: [i18n-no] Hvordan sjekker vi kvalitetsendringer i stavekontrollen?