Karl Ove Hufthammer karl@huftis.org čálii:
Kevin Brubeck Unhammer skreiv 25.06.2021 11:38:
https://translatelocally.com/ er ei ferdig pakke med GUI og ferdigtrente modellar (nevral maskinomsetjing). Kode og data er fritt. Og i motsetning til det meste av NMT så kan det køyrast utan enorme datasenter. Ikkje så mange språkpar enno, men det ser ut som eit aktivt miljø, og norsk-modellane er overraskande bra i forhold til ressurskrav.
Korleis er kvaliteten samanlikna med for eksempel Google Translate. Altså, kva tyder «overraskande bra»?
Prøv det? Elles er det eit lite døme her: https://nitter.kavin.rocks/pic/video.twimg.com%2Ftweet_video%2FE3DoLQIXwAQn2... Google har ikkje nynorsk, så ikkje heilt samanliknbart. Om det er akseptabelt for deg avheng jo av kva du skal bruka det til, men om eg t.d. skulle omsetja eit brev som eg sjølv hadde skrive på nynorsk til engelsk, så hadde eg spart tid på å ta det gjennom translateLocally og redigera framfor å gjera det manuelt.
Eg las om automatisk omsetting basert på parallellkorpus på https://www.nm.no/app/uploads/2020/03/nt-02-19.pdf. Det var då snakk om den såkalla nynorskroboten, som omset frå bokmål til nynorsk, noko som burde vore mykje enklare enn omsetting til/frå engelsk. I artikkelen står det:
I NPK og NTB har vi eit korpus på kring 40 000 tekstar som finst både på bokmål og nynorsk. Etter eit par månader såg vi at det likevel var for lite, sjølv om vi har forstått at dette er eit av dei største parallellkorpusa i Noreg. Det krev enormt mykje data i eit slikt prosjekt. Ikkje ein gong Språkbanken, som er ei nasjonal korpussamling administrert av Nasjonalbiblioteket, har eit stort nok parallellkorpus.
Nynorskroboten vart i staden basert på Apertium, og har no blitt veldig bra.
Ein av grunnane til at rein korpusbasert omsetjing mellom nynorsk og bokmål blir så vanskeleg er valfridommen. (Menneskelege) omsetjarar ønsker ein streng norm, og den skal gjerne vera ulik norma til kollegaen, mens språkdata til maskinlæring har tekst i eit utall ulike normer, ofte med interne inkonsekvensar og småfeil òg.
Nyanserte normeringspreferansar er fullt mogleg å ordna i regelbaserte system som Apertium (prøv «Normval»-knappen på https://beta.apertium.org/index.nno.html#translation?dir=nob-nno&q=vi%20... ) der ein har full kontroll over kvar analyse, men er svært vanskeleg for eit nevralnett å læra seg frå så lite data som det finst for nynorsk.