Ta nowa sztuczna inteligencja może symulować Twój głos za pomocą zaledwie 3 sekund dźwięku

Nowy model językowy firmy Microsoft Vall-E Mówi się, że jest w stanie naśladować każdy głos, używając tylko trzysekundowej próbki nagrania.

Niedawno wydane narzędzie AI zostało przetestowane na 60 000 godzin danych dotyczących mowy w języku angielskim. Może replikować emocje i ton mówcy, stwierdzili naukowcy w artykule z Cornell University.

Wyniki te wydawały się prawdziwe nawet wtedy, gdy stworzono nagranie słów, które nigdy nie zostały wypowiedziane przez native speakera.

„Vall-E podkreśla możliwości uczenia się w kontekście i może być używany do syntezy spersonalizowanej, wysokiej jakości mowy Nagranie nagrane tylko przez 3 sekundy Z niewidzialnego głośnika jako komunikat głosowy. Wyniki eksperymentu pokazują, że Vall-E jest znacznie lepszy od najnowszego zero-shota [text to speech] systemu pod względem naturalności mowy i podobieństwa mówiącego” – napisali autorzy. Ponadto stwierdziliśmy, że Vall-E może zachować emocje mówiącego i środowisko akustyczne płyty rezonansowej w odpowiednim dostrojeniu. „

OPROGRAMOWANIE SZPIEGOWE NA ANDROIDA PONOWNIE ATAKUJE, ABY PRZEJĄĆ INSTYTUCJE FINANSOWE I TWOJE PIENIĄDZE

Oznakowanie firmowego stoiska firmy Microsoft jest wyświetlane na targach CES 2023 w Las Vegas Convention Center w dniu 6 stycznia 2023 r. w Las Vegas w stanie Nevada.
((Zdjęcie: David Baker/Getty Images))

Próbki Val-E Udostępnione na GitHub są niesamowicie podobne do twierdzeń mówców, choć różnią się jakością.

W jednym ze zdań złożonych z Emotional Voices Database Val-E spokojnie wypowiada zdanie: „Musimy zmniejszyć liczbę plastikowych toreb”.

Postacie Disneya przybywają do Amazon Alexa z poleceniem „Hej Disney”.

Mówi się, że nowy model języka Microsoft Vall-E jest w stanie naśladować każdy dźwięk przy użyciu zaledwie trzysekundowej próbki nagrania.
(iStock)

Jednak wyszukiwanie w Sztuczna inteligencja zamiany tekstu na mowę Pochodzi z ostrzeżeniem.

„Ponieważ Vall-E może syntetyzować mowę, która zachowuje tożsamość mówiącego, równie dobrze może Możliwe ryzyko nadużycia formularza, takie jak podszywanie się pod identyfikację głosu lub podszywanie się pod konkretnego mówcę” – mówią badacze z tej strony. Eksperymenty prowadzimy przy założeniu, że użytkownik zgadza się być docelowym mówcą w syntezie mowy. Kiedy model jest uogólniany na niewidzialnych mówców w świecie rzeczywistym, musi zawierać protokół, aby upewnić się, że mówca zgadza się na użycie jego głosu i syntezatorowego modelu wykrywania mowy. „

Microsoft Corp. podpisuje w Microsoft India Development Center w Noida, Indie, w piątek, 11 listopada 2022 r.
(Fotograf: Prakash Singh/Bloomberg za pośrednictwem Getty Images)

READ Nintendo przygotowuje się do zamknięcia 3DS i Wii U eShop z planową konserwacją

Kliknij tutaj, aby przejść do aplikacji FOX NEWS

Obecnie Vall-E, który Microsoft nazywa „paradygmatem neuronowego języka znaczników”, nie jest publicznie dostępny.

Julia Mostow jest korespondentką Fox News i Fox Business Digital.

Konrad Broz

„Muzyk. Guru kawy. Specjalista od zombie. Adwokat mediów społecznościowych. Introwertyk. Ekstremalny miłośnik jedzenia. Ewangelista alkoholu”.

Furora.tv

Ta nowa sztuczna inteligencja może symulować Twój głos za pomocą zaledwie 3 sekund dźwięku

Dodaj komentarz Anuluj pisanie odpowiedzi

Akcje Amazona rosną po dobrych wynikach

Super Micro nie uwzględnia kwartalnych szacunków przychodów w związku ze wzrostem akcji i spadkiem o 10%

Ryan Gosling i Mikey Day ponownie wcielają się w popularne postacie Beavisa i Butt-Heada na premierze Fall Guy

Nowe obserwatorium w Chile – najwyższe na świecie – ma na celu odkrycie pochodzenia planet, galaktyk i nie tylko