Den 3. feb. 2007 kl. 02.09 skrev Trond Trosterud:
Jacob Sparre Andersen kirjoitti 26. jan. 2007 kello 19.10:
Sjur Nørstebø Moshagen skrev:
(vår side om bruken av modulen finst her: http://www.divvun.no/ doc/ling/langrec.html )
Jeg forsøgte lige at bruge det til at genkende færøsk. Det gik ikke så godt. Jeg tror et tjek på om der er »ð« men ikke »þ« i ord uden stort forbogstav vil være mere effektivt.
Det var rart. Poenget er at både ð-men-ikkje-þ og ar-men-ikkje- like-mykje-er som det har vorte vist til bør kome ut som resultat av dei to inputa til text_cat: Trigram og vanlege unike ord. Metoden med ð-ikkje-þ vil forøvrig gje tilslag på feilskrive samisk, som i NRK, som skriv ð der dei skal skrive đ.
Kor mykje færøysk input gav du? Kor mykje tekst, og kor mange ord?
Her ser du storleiken på ordlistene våre i text_cat:
gt$wc -l script/LM/*wm 147 script/LM/dan.wm 189 script/LM/eng.wm 199 script/LM/fin.wm 200 script/LM/ger.wm 1000 script/LM/nno.wm 1000 script/LM/nob.wm 222 script/LM/sma.wm 215 script/LM/sme.wm 1000 script/LM/smj.wm 200 script/LM/swe.wm
Korkje færøysk eller islandsk er med i settet vårt - du vil derfor ikkje kunna kjenna igjen færøysk utan å leggja til ein færøysk modell (men det er ikkje vanskeleg).
Sjur