Finnes det noen gode ferdige programmer eller biblioteker for å aautomatisk kjenne igjen om en tekst er bokmål eller nynorsk, jamfør <URL: https://github.com/openai/whisper/pull/1250 >. Gjerne som fri programvare.
Jeg tenker det kan gjøres ved å bruke den norske stavekontrollens ord og se etter ord som er kun gyldige på et av de skriftlige variantene, men lurer på om noen allerede hadde laget noe slikt.
Det er lett å trena ein fastText-modell for dette. Du treng
1. masse nynorsktekst i fil nno.txt 2. masse bokmålstekst i fil nob.txt 3. apt install fasttext
sed 's/^/__label__nno /' nno.txt > nno2.txt sed 's/^/__label__nob /' nob.txt > nob2.txt cat nno2.txt nob2.txt | shuf >full.txt split full.txt # `man split` eg hugsar aldri argumenta, men trekk ut 10% prosent for å testa på og 10% for validering ved trening Du bør no ha train.txt valid.txt test.txt med linjer a la
__label__nno eg er på nynorsk __label__nob jeg er på bokmål
Eg ser eg tidlegare har brukt
fasttext supervised \ -lr 0.1 \ -dim 100 \ -ws 5 \ -wordNgrams 1 \ -minn 2 \ -maxn 5 \ -input train.txt \ -output model \ -autotune-validation valid.txt \ -autotune-modelsize 1M \ -autotune-duration 600
til å trena, du kan endra -autotune-modelsize til å laga endå mindre modell enn 1 mb (lite å vinna på å gå over det med fasttext i min erfaring).
Så er det berre
$ echo 'er dette nynorsk eller bokmål, tja'| fasttext predict-prob model.bin -
Finnes det noen gode ferdige programmer eller biblioteker for å aautomatisk kjenne igjen om en tekst er bokmål eller nynorsk, jamfør <URL: https://github.com/openai/whisper/pull/1250 >. Gjerne som fri programvare.
Jeg tenker det kan gjøres ved å bruke den norske stavekontrollens ord og se etter ord som er kun gyldige på et av de skriftlige variantene, men lurer på om noen allerede hadde laget noe slikt.
[Kevin Brubeck Unhammer]
Det er lett å trena ein fastText-modell for dette. Du treng
- masse nynorsktekst i fil nno.txt
- masse bokmålstekst i fil nob.txt
- apt install fasttext
Har du kanskje en modell trengt med tekst uten bruksbegresninger, som kan deles med andre? Hvor fikk du tekstene fra?
Petter Reinholdtsen pere@hungry.com čálii:
[Kevin Brubeck Unhammer]
Det er lett å trena ein fastText-modell for dette. Du treng
- masse nynorsktekst i fil nno.txt
- masse bokmålstekst i fil nob.txt
- apt install fasttext
Har du kanskje en modell trengt med tekst uten bruksbegresninger, som kan deles med andre? Hvor fikk du tekstene fra?
https://github.com/apertium/apertium-apy/blob/master/lid.release.ftz er ein, men den har mange språk. Viss du veit at det er nno/nob så kan me unngå litt støy ved å henta ut berre dei. Eg køyrte skripta frå https://github.com/apertium/apertium-apy/tree/master/ft-train på nytt med berre nno/nob (trening tar ein halvtime på ein gammal laptop) og fekk
$ wget https://unhammer.org/k/lid.nno-nob-1M.ftz $ echo 'eg er ikkje vanskeleg å klassifisera'|fasttext predict lid.nno-nob-1M.ftz - __label__nno $ echo 'jeg er ikke vanskelig å klassifisere'|fasttext predict lid.nno-nob-1M.ftz - __label__nob
Tekstene er frå https://opus.nlpl.eu/opus-100.php Del gjerne modellen som du vil