Petter Reinholdtsen wrote:
Jeg har lagt inn en god del nye ord fra no.speling.org i datafila som fortsatt brukes til stavekontrollen, men det er en del ord som er godkjent av minst en korrekturleser som jeg er i tvil om bør godkjennes. Jeg vil gjerne ha kommentarer på disse.
För svenska språket finns Språkbanken, en avdelning vid Göteborgs universitet, som studerar ordfrekvenser sedan 1960-talet. Om man går till http://spraakbanken.gu.se/ och väljer "nedladdning" i vänstermenyn och sedan "Ordfrekvenser", så kommer man till http://spraakbanken.gu.se/pub/statistik/ och http://spraakbanken.gu.se/pub/statistik/Pressmaterial/UNIX-format/
där man kan hitta ordfrekvenser ur svenska dagstidningar från 1965, 1976, 1987, 1995, 1996, 1997, 1998 och 2000-2001, i ett XML-format som är lätt att tolka.
Detta är mycket användbart för att se om ett visst ord har använts eller inte. Till exempel kan man se att cigarrett var mycket vanligare 1965, men att cigarett (med ett -r-) numera dominerar.
Finns det något liknande för norska ordfrekvenser?
Jag har funderat på att göra liknande listor för Projekt Runeberg, uppdelat på språk (svenska, danska, norska) och årtal. Vi har ju folkeutgaven av Ibsen (http://runeberg.org/ibsen/) och en del gamla årgångar av Teknisk Ukeblad (http://runeberg.org/tekuke/) och andra tidskrifter. Även om 1890-talets skrivna norska till 90% är danska, så är ändå inslaget av norska konstruktioner i stigande för varje år.
Ett intressant exempel är http://runeberg.org/ilnolihi/4/ där de olika kapitlen av olika författare är på olika språk. Den teologiska avdelningen är nästan helt på danska, medan naturvetenskaperna har mycket mera norska i sig.