Hei
Har noen av dere oversikt over fri programvare for automatoversetting til og fra norsk?
Jeg kjenner til <URL: https://apertium.org/ > og ble nettopp tipset om <URL: http://www.statmt.org/moses/ >, men hvilke flere finnes? Noen som har erfaring og vet hvor bra de er for ulike språkkombinasjoner?
Petter Reinholdtsen pere@hungry.com čálii:
Hei
Har noen av dere oversikt over fri programvare for automatoversetting til og fra norsk?
Jeg kjenner til <URL: https://apertium.org/ > og ble nettopp tipset om <URL: http://www.statmt.org/moses/ >, men hvilke flere finnes? Noen som har erfaring og vet hvor bra de er for ulike språkkombinasjoner?
Moses er verktøy for å trena eigne modellar (statistisk maskinomsetjing). Det er ganske low-level og kanskje litt utdatert; det finst enklare system no. Men om du vil, kan du prøva å ta eit korpus frå https://opus.nlpl.eu/ og trena ein modell. Ein fordel er at du kan trena det raskt nok utan GPU.
https://translatelocally.com/ er ei ferdig pakke med GUI og ferdigtrente modellar (nevral maskinomsetjing). Kode og data er fritt. Og i motsetning til det meste av NMT så kan det køyrast utan enorme datasenter. Ikkje så mange språkpar enno, men det ser ut som eit aktivt miljø, og norsk-modellane er overraskande bra i forhold til ressurskrav.
Viss du vil bruka bitcoinriggen din til noko nyttig så går det an å trena NMT med Huggingface, det finst nokre ferdigtrente modellar òg: https://huggingface.co/Helsinki-NLP/opus-mt-no-sv?text=Jeg+er+en+artig+type+....
Men for dei som ikkje har ein sverm av GPU-ar under pulten er nok TranslateLocally det mest anvendelege.
Kevin Brubeck Unhammer skreiv 25.06.2021 11:38:
https://translatelocally.com/ er ei ferdig pakke med GUI og ferdigtrente modellar (nevral maskinomsetjing). Kode og data er fritt. Og i motsetning til det meste av NMT så kan det køyrast utan enorme datasenter. Ikkje så mange språkpar enno, men det ser ut som eit aktivt miljø, og norsk-modellane er overraskande bra i forhold til ressurskrav.
Korleis er kvaliteten samanlikna med for eksempel Google Translate. Altså, kva tyder «overraskande bra»?
Eg las om automatisk omsetting basert på parallellkorpus på https://www.nm.no/app/uploads/2020/03/nt-02-19.pdf. Det var då snakk om den såkalla nynorskroboten, som omset frå bokmål til nynorsk, noko som burde vore mykje enklare enn omsetting til/frå engelsk. I artikkelen står det:
I NPK og NTB har vi eit korpus på kring 40 000 tekstar som finst både på bokmål og nynorsk. Etter eit par månader såg vi at det likevel var for lite, sjølv om vi har forstått at dette er eit av dei største parallellkorpusa i Noreg. Det krev enormt mykje data i eit slikt prosjekt. Ikkje ein gong Språkbanken, som er ei nasjonal korpussamling administrert av Nasjonalbiblioteket, har eit stort nok parallellkorpus.
Nynorskroboten vart i staden basert på Apertium, og har no blitt veldig bra.
Men eg har lagt merke til at (den kommersielle, ikkje-frie tenesta) https://www.deepl.com/ – som etter mi erfaring ofte gjev betre og meir naturlege omsettingar enn Google Translate (for dei språka som er støtta) – faktisk støttar omsetjing til/frå svensk. Det indikerer jo at tilsvarande støtte for norsk også *burde* vera mogleg.
Karl Ove Hufthammer karl@huftis.org čálii:
Kevin Brubeck Unhammer skreiv 25.06.2021 11:38:
https://translatelocally.com/ er ei ferdig pakke med GUI og ferdigtrente modellar (nevral maskinomsetjing). Kode og data er fritt. Og i motsetning til det meste av NMT så kan det køyrast utan enorme datasenter. Ikkje så mange språkpar enno, men det ser ut som eit aktivt miljø, og norsk-modellane er overraskande bra i forhold til ressurskrav.
Korleis er kvaliteten samanlikna med for eksempel Google Translate. Altså, kva tyder «overraskande bra»?
Prøv det? Elles er det eit lite døme her: https://nitter.kavin.rocks/pic/video.twimg.com%2Ftweet_video%2FE3DoLQIXwAQn2... Google har ikkje nynorsk, så ikkje heilt samanliknbart. Om det er akseptabelt for deg avheng jo av kva du skal bruka det til, men om eg t.d. skulle omsetja eit brev som eg sjølv hadde skrive på nynorsk til engelsk, så hadde eg spart tid på å ta det gjennom translateLocally og redigera framfor å gjera det manuelt.
Eg las om automatisk omsetting basert på parallellkorpus på https://www.nm.no/app/uploads/2020/03/nt-02-19.pdf. Det var då snakk om den såkalla nynorskroboten, som omset frå bokmål til nynorsk, noko som burde vore mykje enklare enn omsetting til/frå engelsk. I artikkelen står det:
I NPK og NTB har vi eit korpus på kring 40 000 tekstar som finst både på bokmål og nynorsk. Etter eit par månader såg vi at det likevel var for lite, sjølv om vi har forstått at dette er eit av dei største parallellkorpusa i Noreg. Det krev enormt mykje data i eit slikt prosjekt. Ikkje ein gong Språkbanken, som er ei nasjonal korpussamling administrert av Nasjonalbiblioteket, har eit stort nok parallellkorpus.
Nynorskroboten vart i staden basert på Apertium, og har no blitt veldig bra.
Ein av grunnane til at rein korpusbasert omsetjing mellom nynorsk og bokmål blir så vanskeleg er valfridommen. (Menneskelege) omsetjarar ønsker ein streng norm, og den skal gjerne vera ulik norma til kollegaen, mens språkdata til maskinlæring har tekst i eit utall ulike normer, ofte med interne inkonsekvensar og småfeil òg.
Nyanserte normeringspreferansar er fullt mogleg å ordna i regelbaserte system som Apertium (prøv «Normval»-knappen på https://beta.apertium.org/index.nno.html#translation?dir=nob-nno&q=vi%20... ) der ein har full kontroll over kvar analyse, men er svært vanskeleg for eit nevralnett å læra seg frå så lite data som det finst for nynorsk.