Petter Reinholdtsen pere@hungry.com čálii:
[Kevin Brubeck Unhammer]
Det er lett å trena ein fastText-modell for dette. Du treng
- masse nynorsktekst i fil nno.txt
- masse bokmålstekst i fil nob.txt
- apt install fasttext
Har du kanskje en modell trengt med tekst uten bruksbegresninger, som kan deles med andre? Hvor fikk du tekstene fra?
https://github.com/apertium/apertium-apy/blob/master/lid.release.ftz er ein, men den har mange språk. Viss du veit at det er nno/nob så kan me unngå litt støy ved å henta ut berre dei. Eg køyrte skripta frå https://github.com/apertium/apertium-apy/tree/master/ft-train på nytt med berre nno/nob (trening tar ein halvtime på ein gammal laptop) og fekk
$ wget https://unhammer.org/k/lid.nno-nob-1M.ftz $ echo 'eg er ikkje vanskeleg å klassifisera'|fasttext predict lid.nno-nob-1M.ftz - __label__nno $ echo 'jeg er ikke vanskelig å klassifisere'|fasttext predict lid.nno-nob-1M.ftz - __label__nob
Tekstene er frå https://opus.nlpl.eu/opus-100.php Del gjerne modellen som du vil