I Divvun- og Språkteknologiprosjekta (Sametinget/UiTø) har vi brukt ein Perl-modul for språkidentifisering som finst tilgjengeleg her:
http://odur.let.rug.nl/~vannoord/TextCat/ http://odur.let.rug.nl/~vannoord/TextCat/Demo/textcat.html
(vår side om bruken av modulen finst her: http://www.divvun.no/doc/ling/langrec.html )
I tillegg har vi lagt til eigne rutinar basert på teiknsett, nøkkelord (och, jag, eg, jeg, inte, ikkje, ikke, etc). Kjeldekoden kan fritt lastast ned med cvs, instruksjonar finst på:
http://www.divvun.no/doc/infra/anonymous-cvs.html
Perl-modulen lagar seg korpusbaserte trigram, dvs at du bør ha ein del kjent materiale som utgangspunkt for treninga. Dersom tekstane dine er koda i UTF-8, kan du bruka modellane våre som ligg i kjeldekoden vist til over.
Det er sannsynleg at du vil få ein del feilklassifisering, særleg mellom para nb-da og nb-nn. I prosjekta våre har vi hatt tilsvarande problem med å skilja mellom dei samiske språka, men med eigne tillegg slik eg nemnde over, er resultata no stort sett ok. I samisk har ein det tilleggsproblemet at mange tekstar inneheld meir eller mindre av majoritetsspråka, og det gjer språkgjenkjenninga meir problematisk.
Beste helsing Sjur N. Moshagen Samediggi · Sametinget Prosjektleiar for Divvun-prosjektet http://www.divvun.no/ http://www.samediggi.no/ +358-9-49 75 29 (a) +358-505 634 319 (m)
Den 26. jan. 2007 kl. 01.15 skrev Lars Aronsson:
Finns det någon bra algoritm för att avgöra om en viss text är skriven på danska, bokmål eller nynorsk? Kan det avgöras med regexp-matchning? Trebokstavsföljder? Jag tror att "och" är rätt unikt för svenska. Förekomsten av åæø / åäö borde vara tillräckligt för att skilja danska/norska från svenska/finska. Danska är väl ensamt om att skriva "af" idag, men detta förekommer ju även i äldre svenska (före 1906) och norska. Äldre danska (och riksmål före 1900) känns igen på "aa".
Ett konkret problem som jag har, är att en del tidskrifter i Projekt Runeberg har artiklar på olika skandinaviska språk. Jag undrar om jag manuellt måste märka upp språket, eller om det går bra att känna igen språket på algoritmisk väg. Men en automatisk igenkänning av språket kan säkert finna flera användningar.
Här är några exempel på tidskrifter:
http://runeberg.org/anf/ http://runeberg.org/bokobibl/ http://runeberg.org/bokogbib/ http://runeberg.org/scandia/
-- Lars Aronsson (lars@aronsson.se) Aronsson Datateknik - http://aronsson.se
Prosjekt Runeberg - ditt digitale bibliotek - http://runeberg.org/
i18n-no mailing list i18n-no@lister.ping.uio.no https://lister.ping.uio.no/mailman/lister.ping.uio.no/listinfo/i18n-no