Den 12. feb. 2009 kl. 13.10 skrev Karl Ove Hufthammer:
Hunspell har verkty for å handtera i det minste delar av ein slik strategi, men eg er usikker på om det går å implementera alt. Hunspell har derimot ikkje dei verktya vi treng for å handtera samansetjing i samisk, der det finst enno meir kompliserte mønster (t.d. at det fyrste ordet vanlegvis lagar samansetjing i nominativ, dvs vanleg grunnform, men det etterfylgjande ordet krev at det føregåande ordet står i genitiv eintal eller fleirtal - det er i praksis uråd for oss å formulera dette programmatisk i Hunspell). Vi kjem derfor truleg til å gje opp Hunspell, og satsa på ein ny stavekontroll vi sjølve kjem til å vera med på å utvikla (open kjeldekode, sjølvsagt).
Kunne ikkje ein idé heller vera å prøva å forbetra Hunspell til å støtta dette. Eller er oppbygginga av Hunspell so forskjellig at dette ikkje er mulig?
Det finst mange andre grunnar til at vi ikkje vil satsa på Hunspell, uansett. Hunspell er for oss eit derivert format, som ligg ganske langt unna vår eigen kjeldekode, og konverteringa frå koden vår til Hunspell er ikkje triviell, og enno langt frå feilfri og komplett. Vi vil uansett satsa på denne nye hesten, og *ev* halda ved like dei Hunspell-implementasjonane vi har, men det er lite truleg.
Den viktigaste grunnen til at vi ikkje kan og vil satsa på Hunspell, er at Hunspell er spesialisert programvare (i hovudsak) laga for å korrigera tekst, men utan den naudsynte språkteknologiske djubda ein treng for å vera heilt språkuavhengig (jf at det finst alle moglege slags tilpassingar for ulike språk, istf allmenne generaliseringar). Det vi har drøymt om heile tida, og no ser for oss kan bli ein realitet, er ein stavekontroll basert på transduserteknologi (helst vekta slik teknologi). Teknologien i seg sjølv er velprøvd (det matematiske grunnlaget er kjent frå 80-talet), har vorte prøvd på eit utal ulike språk, er rask (kring 100 000 analyser pr sekund eller meir, som for ein stavekontroll grovt rekna svarar til talet på forslag pr sekund, eller talet på godkjende/forkasta ord pr sekund -- MINUS overhead i samband med stavekontroll-API-ar m.m.).
Det er samtidig den teknologien vi bruker for å analysera tekst, desse analysene er i sin tur grunnlaget for meir avansert språkleg analyse, som i sin tur kan bli til t.d. ein grammatikkontroll.
Vi (Divuvn-gjengen og språkteknologimiljøet ved Univ. i Tromsø) *veit* at vi kan handtera samisk (og i prinsipp alle andre språk) med denne teknologien. Vi har røynsle nok til å seia at dette er framtida, og at Hunspell (for oss) er eit sidespor - naudsynt til no, men like fullt eit sidespor.
Ja, det finst anna språkteknologi (eller teknologi for ordanalyse, m.a. Hunspell), og ja, vi veit at ikkje all språkteknologi eignar seg for stavekontroll og andre korrekturprogram. Men for språk med komplekse ord (mykje bøying, samansetjing, anna ordlaging) er denne teknologien den einaste farbare. Alle språka vi arbeider med høyrer til denne kategorien, inkl. norsk. Hunspell klarar av ein del av desse språka, men som eg nemnde i ein annan e-post, så er formatet så krøkkete for språk som finsk og samisk at vi helst ikkje vil gjera det (finsk er i denne samanhangen vanskelegare enn samisk, dvs for Hunspell, men er relativt trivielt for transduserteknologi).
Sjølv om transduserteknologien er gamal, har det ikkje tidlegare funnest implementasjonar som open kjeldekode. Dette har endra seg dei siste åra (det siste året), slik at det no faktisk er mogleg å sjå for seg ein stavekontroll basert på denne teknologien.
Sjur