Re: [l10n-no] Automatisk gjenkjenning av bokmål vs. nynorsk?

5 May 2023


      Det er lett å trena ein fastText-modell for dette. Du treng
1. masse nynorsktekst i fil nno.txt
2. masse bokmålstekst i fil nob.txt
3. apt install fasttext
sed 's/^/__label__nno /' nno.txt > nno2.txt
sed 's/^/__label__nob /' nob.txt > nob2.txt
cat nno2.txt nob2.txt | shuf >full.txt
split full.txt # `man split` eg hugsar aldri argumenta, men trekk ut 10% prosent for å testa på og 10% for validering ved trening
Du bør no ha train.txt valid.txt test.txt med linjer a la
__label__nno eg er på nynorsk
__label__nob jeg er på bokmål
Eg ser eg tidlegare har brukt
fasttext supervised                       \
         -lr 0.1                          \
         -dim 100                         \
         -ws 5                            \
         -wordNgrams 1                    \
         -minn 2                          \
         -maxn 5                          \
         -input train.txt                 \
         -output model                    \
         -autotune-validation valid.txt   \
         -autotune-modelsize 1M           \
         -autotune-duration 600
til å trena, du kan endra -autotune-modelsize til å laga endå mindre
modell enn 1 mb (lite å vinna på å gå over det med fasttext i min
erfaring).
Så er det berre
$ echo 'er dette nynorsk eller bokmål, tja'| fasttext predict-prob model.bin -
...
Finnes det noen gode ferdige programmer eller biblioteker for å
aautomatisk kjenne igjen om en tekst er bokmål eller nynorsk, jamfør
<URL: https://github.com/openai/whisper/pull/1250 >.  Gjerne som fri
programvare.
Jeg tenker det kan gjøres ved å bruke den norske stavekontrollens ord og
se etter ord som er kun gyldige på et av de skriftlige variantene, men
lurer på om noen allerede hadde laget noe slikt.

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

Re: [l10n-no] Automatisk gjenkjenning av bokmål vs. nynorsk?