Det er lett å trena ein fastText-modell for dette. Du treng
1. masse nynorsktekst i fil nno.txt 2. masse bokmålstekst i fil nob.txt 3. apt install fasttext
sed 's/^/__label__nno /' nno.txt > nno2.txt sed 's/^/__label__nob /' nob.txt > nob2.txt cat nno2.txt nob2.txt | shuf >full.txt split full.txt # `man split` eg hugsar aldri argumenta, men trekk ut 10% prosent for å testa på og 10% for validering ved trening Du bør no ha train.txt valid.txt test.txt med linjer a la
__label__nno eg er på nynorsk __label__nob jeg er på bokmål
Eg ser eg tidlegare har brukt
fasttext supervised \ -lr 0.1 \ -dim 100 \ -ws 5 \ -wordNgrams 1 \ -minn 2 \ -maxn 5 \ -input train.txt \ -output model \ -autotune-validation valid.txt \ -autotune-modelsize 1M \ -autotune-duration 600
til å trena, du kan endra -autotune-modelsize til å laga endå mindre modell enn 1 mb (lite å vinna på å gå over det med fasttext i min erfaring).
Så er det berre
$ echo 'er dette nynorsk eller bokmål, tja'| fasttext predict-prob model.bin -
Finnes det noen gode ferdige programmer eller biblioteker for å aautomatisk kjenne igjen om en tekst er bokmål eller nynorsk, jamfør <URL: https://github.com/openai/whisper/pull/1250 >. Gjerne som fri programvare.
Jeg tenker det kan gjøres ved å bruke den norske stavekontrollens ord og se etter ord som er kun gyldige på et av de skriftlige variantene, men lurer på om noen allerede hadde laget noe slikt.