Nowy model językowy firmy Microsoft Vall-E Mówi się, że jest w stanie naśladować każdy głos, używając tylko trzysekundowej próbki nagrania.
Niedawno wydane narzędzie AI zostało przetestowane na 60 000 godzin danych dotyczących mowy w języku angielskim. Może replikować emocje i ton mówcy, stwierdzili naukowcy w artykule z Cornell University.
Wyniki te wydawały się prawdziwe nawet wtedy, gdy stworzono nagranie słów, które nigdy nie zostały wypowiedziane przez native speakera.
„Vall-E podkreśla możliwości uczenia się w kontekście i może być używany do syntezy spersonalizowanej, wysokiej jakości mowy Nagranie nagrane tylko przez 3 sekundy Z niewidzialnego głośnika jako komunikat głosowy. Wyniki eksperymentu pokazują, że Vall-E jest znacznie lepszy od najnowszego zero-shota [text to speech] systemu pod względem naturalności mowy i podobieństwa mówiącego” – napisali autorzy. Ponadto stwierdziliśmy, że Vall-E może zachować emocje mówiącego i środowisko akustyczne płyty rezonansowej w odpowiednim dostrojeniu. „
Oznakowanie firmowego stoiska firmy Microsoft jest wyświetlane na targach CES 2023 w Las Vegas Convention Center w dniu 6 stycznia 2023 r. w Las Vegas w stanie Nevada.
((Zdjęcie: David Baker/Getty Images))
Próbki Val-E Udostępnione na GitHub są niesamowicie podobne do twierdzeń mówców, choć różnią się jakością.
W jednym ze zdań złożonych z Emotional Voices Database Val-E spokojnie wypowiada zdanie: „Musimy zmniejszyć liczbę plastikowych toreb”.
Postacie Disneya przybywają do Amazon Alexa z poleceniem „Hej Disney”.
Mówi się, że nowy model języka Microsoft Vall-E jest w stanie naśladować każdy dźwięk przy użyciu zaledwie trzysekundowej próbki nagrania.
(iStock)
Jednak wyszukiwanie w Sztuczna inteligencja zamiany tekstu na mowę Pochodzi z ostrzeżeniem.
„Ponieważ Vall-E może syntetyzować mowę, która zachowuje tożsamość mówiącego, równie dobrze może Możliwe ryzyko nadużycia formularza, takie jak podszywanie się pod identyfikację głosu lub podszywanie się pod konkretnego mówcę” – mówią badacze z tej strony. Eksperymenty prowadzimy przy założeniu, że użytkownik zgadza się być docelowym mówcą w syntezie mowy. Kiedy model jest uogólniany na niewidzialnych mówców w świecie rzeczywistym, musi zawierać protokół, aby upewnić się, że mówca zgadza się na użycie jego głosu i syntezatorowego modelu wykrywania mowy. „
Microsoft Corp. podpisuje w Microsoft India Development Center w Noida, Indie, w piątek, 11 listopada 2022 r.
(Fotograf: Prakash Singh/Bloomberg za pośrednictwem Getty Images)
Kliknij tutaj, aby przejść do aplikacji FOX NEWS
Obecnie Vall-E, który Microsoft nazywa „paradygmatem neuronowego języka znaczników”, nie jest publicznie dostępny.
„Muzyk. Guru kawy. Specjalista od zombie. Adwokat mediów społecznościowych. Introwertyk. Ekstremalny miłośnik jedzenia. Ewangelista alkoholu”.