Automatisk gjenkjenning av bokmål vs. nynorsk?

List overview All Threads
Download

newer

older

Additional fees

Re: [l10n-no] grub2 2.06-13:...

Petter Reinholdtsen

5 May 2023 5 May '23

6:56 a.m.

Finnes det noen gode ferdige programmer eller biblioteker for å aautomatisk kjenne igjen om en tekst er bokmål eller nynorsk, jamfør <URL: https://github.com/openai/whisper/pull/1250 >. Gjerne som fri programvare.

Jeg tenker det kan gjøres ved å bruke den norske stavekontrollens ord og se etter ord som er kun gyldige på et av de skriftlige variantene, men lurer på om noen allerede hadde laget noe slikt.

-- Happy hacking Petter Reinholdtsen

Show replies by date

Kevin Brubeck Unhammer

5 May 5 May

8:21 a.m.

New subject: Automatisk gjenkjenning av bokmål vs. nynorsk?

Det er lett å trena ein fastText-modell for dette. Du treng

1. masse nynorsktekst i fil nno.txt 2. masse bokmålstekst i fil nob.txt 3. apt install fasttext

sed 's/^/__label__nno /' nno.txt > nno2.txt sed 's/^/__label__nob /' nob.txt > nob2.txt cat nno2.txt nob2.txt | shuf >full.txt split full.txt # `man split` eg hugsar aldri argumenta, men trekk ut 10% prosent for å testa på og 10% for validering ved trening Du bør no ha train.txt valid.txt test.txt med linjer a la

__label__nno eg er på nynorsk __label__nob jeg er på bokmål

Eg ser eg tidlegare har brukt

fasttext supervised \ -lr 0.1 \ -dim 100 \ -ws 5 \ -wordNgrams 1 \ -minn 2 \ -maxn 5 \ -input train.txt \ -output model \ -autotune-validation valid.txt \ -autotune-modelsize 1M \ -autotune-duration 600

til å trena, du kan endra -autotune-modelsize til å laga endå mindre modell enn 1 mb (lite å vinna på å gå over det med fasttext i min erfaring).

Så er det berre

$ echo 'er dette nynorsk eller bokmål, tja'| fasttext predict-prob model.bin -

...

Finnes det noen gode ferdige programmer eller biblioteker for å aautomatisk kjenne igjen om en tekst er bokmål eller nynorsk, jamfør <URL: https://github.com/openai/whisper/pull/1250 >. Gjerne som fri programvare.

Jeg tenker det kan gjøres ved å bruke den norske stavekontrollens ord og se etter ord som er kun gyldige på et av de skriftlige variantene, men lurer på om noen allerede hadde laget noe slikt.

Petter Reinholdtsen

9:03 a.m.

New subject: Automatisk gjenkjenning av bokmål vs. nynorsk?

[Kevin Brubeck Unhammer]

...

Det er lett å trena ein fastText-modell for dette. Du treng

masse nynorsktekst i fil nno.txt

masse bokmålstekst i fil nob.txt

apt install fasttext

Har du kanskje en modell trengt med tekst uten bruksbegresninger, som kan deles med andre? Hvor fikk du tekstene fra?

-- Vennlig hilsen Petter Reinholdtsen

Kevin Brubeck Unhammer

2:04 p.m.

New subject: Automatisk gjenkjenning av bokmål vs. nynorsk?

Petter Reinholdtsen pere@hungry.com čálii:

...

[Kevin Brubeck Unhammer]

...
Det er lett å trena ein fastText-modell for dette. Du treng

masse nynorsktekst i fil nno.txt

masse bokmålstekst i fil nob.txt

apt install fasttext

Har du kanskje en modell trengt med tekst uten bruksbegresninger, som kan deles med andre? Hvor fikk du tekstene fra?

https://github.com/apertium/apertium-apy/blob/master/lid.release.ftz er ein, men den har mange språk. Viss du veit at det er nno/nob så kan me unngå litt støy ved å henta ut berre dei. Eg køyrte skripta frå https://github.com/apertium/apertium-apy/tree/master/ft-train på nytt med berre nno/nob (trening tar ein halvtime på ein gammal laptop) og fekk

$ wget https://unhammer.org/k/lid.nno-nob-1M.ftz $ echo 'eg er ikkje vanskeleg å klassifisera'|fasttext predict lid.nno-nob-1M.ftz - __label__nno $ echo 'jeg er ikke vanskelig å klassifisere'|fasttext predict lid.nno-nob-1M.ftz - __label__nob

Tekstene er frå https://opus.nlpl.eu/opus-100.php Del gjerne modellen som du vil

1175

Age (days ago)

1175

Last active (days ago)

l10n-no@nuug.no

3 comments

2 participants

tags (0)

participants (2)

Kevin Brubeck Unhammer
Petter Reinholdtsen