Jeg har brukt Whisper en del som "innputt-behandler" i en Chat-applikasjon for web, og det har blitt nokså bra synes jeg. Vi lar brukeren trykke Mikrofon-ikonet, lytter en stund og sender så til Whisper. Så fyller vi ut tekstboksen og lar brukeren godkjenne før han trykker Send. Har fått mange gode tilbakemeldinger på oppsettet.
Resultat av kjapp test: "Ja, det var jo dette Kristiansand-dialekta, men vet ikke om du visper skjønner det helt, da er det å modulere ganske mye."
Her tok den feil av "Whisper" selvfølgelig (engelsk), men min nokså kraftige Kristiansandsdialekt tok den ganske bra :) Burde kanskje prøve med Vallemål.
Det er nokså likt nivå på Engelsk, Spansk, Fransk og forskjellige andre språk.
testet med litt Vallemål https://vallemal.no/ord/14616/ og tror Whisper scorer som en gjennomsnittlig Oslogutt:
"Agistoter. Vindt var fakta og passelig stor. Det var agistoter, var det det sagt."
Litt dårlig på Quichua men greier til og med å transkribere det på sett og vis :)
"Nju kaixotimi Arno kaj kito jakta pikausani. Nju ka Norwega mandagani. Katsarajska njaa tsyunga pichkawatakuna."
Rettskrivinga her er nokså dårlig, men det har nok sammenheng med at de lærde ikke blir helt enige om hvordan det skal skrives, samt at treningsgrunnlaget sikkert er nokså tynt.
mvh
Arno Teigseth
Den 15.02.2024 07:12, skrev Petter Reinholdtsen:
Ble nettopp tipset om <URL: https://huggingface.co/NbAiLab >, en Whisper-basert modell trent med norske stemmedata. Noen som har testet den?
Jeg testet original Whisper for en stund tilbake på et opptak av min bestemor, og der feilet den stygt. Gleder meg til å teste denne nye utgaven. :)