Finns det någon bra algoritm för att avgöra om en viss text är skriven på danska, bokmål eller nynorsk? Kan det avgöras med regexp-matchning? Trebokstavsföljder? Jag tror att "och" är rätt unikt för svenska. Förekomsten av åæø / åäö borde vara tillräckligt för att skilja danska/norska från svenska/finska. Danska är väl ensamt om att skriva "af" idag, men detta förekommer ju även i äldre svenska (före 1906) och norska. Äldre danska (och riksmål före 1900) känns igen på "aa".
Ett konkret problem som jag har, är att en del tidskrifter i Projekt Runeberg har artiklar på olika skandinaviska språk. Jag undrar om jag manuellt måste märka upp språket, eller om det går bra att känna igen språket på algoritmisk väg. Men en automatisk igenkänning av språket kan säkert finna flera användningar.
Här är några exempel på tidskrifter:
http://runeberg.org/anf/ http://runeberg.org/bokobibl/ http://runeberg.org/bokogbib/ http://runeberg.org/scandia/