Ble nettopp tipset om <URL: https://huggingface.co/NbAiLab >, en Whisper-basert modell trent med norske stemmedata. Noen som har testet den?
Jeg testet original Whisper for en stund tilbake på et opptak av min bestemor, og der feilet den stygt. Gleder meg til å teste denne nye utgaven. :)
Jeg har brukt Whisper en del som "innputt-behandler" i en Chat-applikasjon for web, og det har blitt nokså bra synes jeg. Vi lar brukeren trykke Mikrofon-ikonet, lytter en stund og sender så til Whisper. Så fyller vi ut tekstboksen og lar brukeren godkjenne før han trykker Send. Har fått mange gode tilbakemeldinger på oppsettet.
Resultat av kjapp test: "Ja, det var jo dette Kristiansand-dialekta, men vet ikke om du visper skjønner det helt, da er det å modulere ganske mye."
Her tok den feil av "Whisper" selvfølgelig (engelsk), men min nokså kraftige Kristiansandsdialekt tok den ganske bra :) Burde kanskje prøve med Vallemål.
Det er nokså likt nivå på Engelsk, Spansk, Fransk og forskjellige andre språk.
testet med litt Vallemål https://vallemal.no/ord/14616/ og tror Whisper scorer som en gjennomsnittlig Oslogutt:
"Agistoter. Vindt var fakta og passelig stor. Det var agistoter, var det det sagt."
Litt dårlig på Quichua men greier til og med å transkribere det på sett og vis :)
"Nju kaixotimi Arno kaj kito jakta pikausani. Nju ka Norwega mandagani. Katsarajska njaa tsyunga pichkawatakuna."
Rettskrivinga her er nokså dårlig, men det har nok sammenheng med at de lærde ikke blir helt enige om hvordan det skal skrives, samt at treningsgrunnlaget sikkert er nokså tynt.
mvh
Arno Teigseth
Den 15.02.2024 07:12, skrev Petter Reinholdtsen:
Ble nettopp tipset om <URL: https://huggingface.co/NbAiLab >, en Whisper-basert modell trent med norske stemmedata. Noen som har testet den?
Jeg testet original Whisper for en stund tilbake på et opptak av min bestemor, og der feilet den stygt. Gleder meg til å teste denne nye utgaven. :)
[Arno Teigseth]
Resultat av kjapp test:
Takk for nyttige målepunkter. Brukte du 'large'-modellen?
Jeg kom forresten nettopp over < https://arxiv.org/pdf/2402.01917.pdf >, "Whispering in Norwegian: Navigating Orthographic and Dialectic Challenges" av Per E Kummervold, Javier de la Rosa, Freddy Wetjen, Rolv-Arild Braaten og Per Erik Solberg som forteller mer om modellen.
Vi satt den på "whisper-1" og siden har den bare stått på det. Litt forvirrende dokumentasjon der kanskje, det står "The Whisper v2-large model is currently available through our API with the |whisper-1| model name."
Så whisper-1 betyr whisper v2 xD
Tror ikke det finnes andre modeller å velge mellom heller (?) - Vi bruker Whisper gjennom openai's betalte API, ikke opensource. Men det skal teoretisk være lik funksjonalitet.
mvh
Arno Teigseth
Den 15.02.2024 09:25, skrev Petter Reinholdtsen:
[Arno Teigseth]
Resultat av kjapp test:
Takk for nyttige målepunkter. Brukte du 'large'-modellen?
Jeg kom forresten nettopp over< https://arxiv.org/pdf/2402.01917.pdf >, "Whispering in Norwegian: Navigating Orthographic and Dialectic Challenges" av Per E Kummervold, Javier de la Rosa, Freddy Wetjen, Rolv-Arild Braaten og Per Erik Solberg som forteller mer om modellen.
[Arno Teigseth]
Vi bruker Whisper gjennom openai's betalte API, ikke opensource. Men det skal teoretisk være lik funksjonalitet.
Aha. Jeg tenkte dere kjørte det lokalt. Det falt meg ikke inn at dere sendte lydopptak fra brukernes omgivelse til fremmede i USA.
Men OpenAI har vel ikke nb-whisper-modellen? Jeg lurte på hvilke av disse filene du hadde testet.
OK vi har brukere over hele verden; de fleste er nok i USA fra før. Og det blir selvfølgelig ikke tatt opp lyd med mindre brukeren selv trykker på mikrofonen :) Bekymringer om personvern med bakgrunnsstøy og sånt tror jeg legal department må ta seg av, mitt arbeidsområde er teknisk.
Når det gjelder spørmsål om OpenAIs "whisper-1" bruker nb-whisper-settet så vet jeg ikke, rett og slett. For å teste det ville jeg lastet opp samme norske lydfiler til både OpenAI whisper og til et lokalt oppsett basert på open-source-prosjektet, og sammenlignet resultatene.
mvh
Arno Teigseth
Den 15.02.2024 10:05, skrev Petter Reinholdtsen:
[Arno Teigseth]
Vi bruker Whisper gjennom openai's betalte API, ikke opensource. Men det skal teoretisk være lik funksjonalitet.
Aha. Jeg tenkte dere kjørte det lokalt. Det falt meg ikke inn at dere sendte lydopptak fra brukernes omgivelse til fremmede i USA.
Men OpenAI har vel ikke nb-whisper-modellen? Jeg lurte på hvilke av disse filene du hadde testet.
[Arno Teigseth]
Når det gjelder spørmsål om OpenAIs "whisper-1" bruker nb-whisper-settet så vet jeg ikke, rett og slett. For å teste det ville jeg lastet opp samme norske lydfiler til både OpenAI whisper og til et lokalt oppsett basert på open-source-prosjektet, og sammenlignet resultatene.
Skjønner. Trodde dine eksempler var ved test av nb-whisper, innser nå at det var feil.
Petter Reinholdtsen skreiv 15.02.2024 13:12:
Ble nettopp tipset om <URL:https://huggingface.co/NbAiLab >, en Whisper-basert modell trent med norske stemmedata. Noen som har testet den?
Eg har testa den (kanskje ein litt tidlegare versjon?) på ein del YouTube-klipp og vart mektig imponert. Blir stort sett feilfritt transkribert.
Men den hadde store problem med dette klippet:
https://www.youtube.com/watch?v=62Xgnx0oy-Q
(Likevel mindre problem enn eg hadde …)
[Karl Ove Hufthammer]
Eg har testa den (kanskje ein litt tidlegare versjon?) på ein del YouTube-klipp og vart mektig imponert. Blir stort sett feilfritt transkribert.
Nå har jeg også fått testet den, på et par opptak av min bestemor med bred nordlandsdialekt, og der opprinnelig Whisper var ubrukelig, så klarer denne nye nb-whisper-modellen å forstå historiene og gjengi dem. Har ikke korrekturlest hele transkriberingen, men forskjellen er natt og dag og den nye transkriberingen er fullt brukbar.