Lars Aronsson skrev:
Finns det någon bra algoritm för att avgöra om en viss text är skriven på danska, bokmål eller nynorsk? Kan det avgöras med regexp-matchning? Trebokstavsföljder? Jag tror att "och" är rätt unikt för svenska. Förekomsten av åæø / åäö borde vara tillräckligt för att skilja danska/norska från svenska/finska. Danska är väl ensamt om att skriva "af" idag, men detta förekommer ju även i äldre svenska (före 1906) och norska. Äldre danska (och riksmål före 1900) känns igen på "aa".
Trebogstavsfølger kan godt bruges. Det er det Crubadan bruger.
En enklere mulighed er at se på top-10 i endelser. Et hurtigt overslag for dansk:
der den ske sen nde det ver ter ste ler
Hvor ofte forekommer disse endelser på norsk?
Jeg kan godt lave en mere præcis optælling, hvis der er interesse for det.
Jacob