Jacob Sparre Andersen kirjoitti 26. jan. 2007 kello 19.10:
Sjur Nørstebø Moshagen skrev:
(vår side om bruken av modulen finst her: http://www.divvun.no/doc/ ling/langrec.html )
Jeg forsøgte lige at bruge det til at genkende færøsk. Det gik ikke så godt. Jeg tror et tjek på om der er »ð« men ikke »þ« i ord uden stort forbogstav vil være mere effektivt.
Det var rart. Poenget er at både ð-men-ikkje-þ og ar-men-ikkje-like- mykje-er som det har vorte vist til bør kome ut som resultat av dei to inputa til text_cat: Trigram og vanlege unike ord. Metoden med ð- ikkje-þ vil forøvrig gje tilslag på feilskrive samisk, som i NRK, som skriv ð der dei skal skrive đ.
Kor mykje færøysk input gav du? Kor mykje tekst, og kor mange ord?
Her ser du storleiken på ordlistene våre i text_cat:
gt$wc -l script/LM/*wm 147 script/LM/dan.wm 189 script/LM/eng.wm 199 script/LM/fin.wm 200 script/LM/ger.wm 1000 script/LM/nno.wm 1000 script/LM/nob.wm 222 script/LM/sma.wm 215 script/LM/sme.wm 1000 script/LM/smj.wm 200 script/LM/swe.wm
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------