Microsoft stworzył nowe AI naśladujące ludzki głos. Wyszło tak dobrze, że boją się udostępniać je publicznie!
Microsoft przedstawił najnowszą wersję swojego modelu języka kodeków neuronowych, Vall-E, która znacząco przewyższa wcześniejsze wersje pod względem naturalności, zdolności mowy i naśladowania ludzkiego głosu. Jeśli wierzyć plotkom, to imitacja jest niemal doskonała. AI potrafi naśladować tembr, ton, akcent czy nawet charakterystyczne drżenia tiki i jąkanie. Testy wskazały, że ludzie nie są wstanie w ogóle rozpoznać, że głos pochodzi od maszyny.
Nowe narzędzie głosowe AI, oparte na fundamentach Vall-E, zawiera dwa kluczowe ulepszenia, które znacznie poprawiają jego wydajność. Dzięki modelowaniu kodu grupowego, Microsoft może lepiej organizować kodeki, co skutkuje krótszymi sekwencjami i szybszym procesem wnioskowania.
Sprawdź: Prompt engineering – co to jest?
Vall-E 2 przeszedł testy z wykorzystaniem zbiorów danych LibriSpeech i VCTK, osiągając wyniki na poziomie ludzkim. Oznacza to, że narzędzie przewyższyło próbki referencyjne pod względem szczegółowości, podobieństwa i naturalności. Innymi słowy, Vall-E 2 generuje mowę, która jest praktycznie nieodróżnialna od mowy prawdziwego człowieka. No i to niby wielki sukces, ale tak naprawdę też niejako porażka. Narzędzie jest zbyt niebezpieczne, aby je udostępnić.
Microsoft zaznacza, że obecnie nie ma planów wprowadzenia tej technologii na rynek konsumencki ani udostępnienia jej publicznie. Firma zwraca uwagę na potencjalne ryzyko niewłaściwego użycia, takie jak podszywanie się pod osoby lub fałszowanie identyfikacji głosowej. Niemniej jest spora szansa, że AI zostanie zastosowane komercyjnie – na infoliniach czy chatach z wirtualnym konsultantem.
Zobacz też:
Microsoft zabrania pracownikom korzystać z Androida
Sztuczna inteligencja zmienia rynek IT na naszych oczach
ASCII pozwala na oszukiwanie sztucznej inteligencji