Ta nowa sztuczna inteligencja może symulować Twój głos za pomocą zaledwie 3 sekund dźwięku

Nowy model językowy firmy Microsoft Vall-E Mówi się, że jest w stanie naśladować każdy głos, używając tylko trzysekundowej próbki nagrania.

Niedawno wydane narzędzie AI zostało przetestowane na 60 000 godzin danych dotyczących mowy w języku angielskim. Może replikować emocje i ton mówcy, stwierdzili naukowcy w artykule z Cornell University.

Wyniki te wydawały się prawdziwe nawet wtedy, gdy stworzono nagranie słów, które nigdy nie zostały wypowiedziane przez native speakera.

„Vall-E podkreśla możliwości uczenia się w kontekście i może być używany do syntezy spersonalizowanej, wysokiej jakości mowy Nagranie nagrane tylko przez 3 sekundy Z niewidzialnego głośnika jako komunikat głosowy. Wyniki eksperymentu pokazują, że Vall-E jest znacznie lepszy od najnowszego zero-shota [text to speech] systemu pod względem naturalności mowy i podobieństwa mówiącego” – napisali autorzy. Ponadto stwierdziliśmy, że Vall-E może zachować emocje mówiącego i środowisko akustyczne płyty rezonansowej w odpowiednim dostrojeniu. „

OPROGRAMOWANIE SZPIEGOWE NA ANDROIDA PONOWNIE ATAKUJE, ABY PRZEJĄĆ INSTYTUCJE FINANSOWE I TWOJE PIENIĄDZE

Oznakowanie firmowego stoiska firmy Microsoft jest wyświetlane na targach CES 2023 w Las Vegas Convention Center w dniu 6 stycznia 2023 r. w Las Vegas w stanie Nevada.
((Zdjęcie: David Baker/Getty Images))

Próbki Val-E Udostępnione na GitHub są niesamowicie podobne do twierdzeń mówców, choć różnią się jakością.

W jednym ze zdań złożonych z Emotional Voices Database Val-E spokojnie wypowiada zdanie: „Musimy zmniejszyć liczbę plastikowych toreb”.

Postacie Disneya przybywają do Amazon Alexa z poleceniem „Hej Disney”.

Mówi się, że nowy model języka Microsoft Vall-E jest w stanie naśladować każdy dźwięk przy użyciu zaledwie trzysekundowej próbki nagrania.

Mówi się, że nowy model języka Microsoft Vall-E jest w stanie naśladować każdy dźwięk przy użyciu zaledwie trzysekundowej próbki nagrania.
(iStock)

Jednak wyszukiwanie w Sztuczna inteligencja zamiany tekstu na mowę Pochodzi z ostrzeżeniem.

„Ponieważ Vall-E może syntetyzować mowę, która zachowuje tożsamość mówiącego, równie dobrze może Możliwe ryzyko nadużycia formularza, takie jak podszywanie się pod identyfikację głosu lub podszywanie się pod konkretnego mówcę” – mówią badacze z tej strony. Eksperymenty prowadzimy przy założeniu, że użytkownik zgadza się być docelowym mówcą w syntezie mowy. Kiedy model jest uogólniany na niewidzialnych mówców w świecie rzeczywistym, musi zawierać protokół, aby upewnić się, że mówca zgadza się na użycie jego głosu i syntezatorowego modelu wykrywania mowy. „

Kliknij tutaj, aby przejść do aplikacji FOX NEWS

Obecnie Vall-E, który Microsoft nazywa „paradygmatem neuronowego języka znaczników”, nie jest publicznie dostępny.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *