Microsoft stworzył AI kopiujące ludzki głos

Ostatnia modyfikacja artykułu:3 lata temu

Microsoft zaprezentował nam nowe algorytmy sztucznej inteligencji. Tym razem ich zadaniem będzie precyzyjne naśladowanie ludzkiego głosu.

Wygląda na to, że rozwój sztucznej inteligencji postępuje już wykładniczo. Mamy już algorytmy naśladujące człowieka podczas pisania tekstów czy tworzące realistyczne obrazy. Tym razem Microsoft zaprezentował jednak coś zupełnie nowego – Vall-E, czyli nowe AI ich autorstwa potrafi precyzyjnie naśladować ludzki głos.

Oczywiście nie chodzi tutaj o jakiekolwiek głos, a o konkretny głos wybranej przez nas osoby. Do opanowania pełnego naśladownictwa wystarczy jedynie 3-sekundowa próbka. Narzędzie wytrenowano na ponad 60 tysiącach godzin mowy od 7000 różnych mówców. Wykorzystano w tym celu bibliotekę audiobooków LibriVox należącą do domeny publicznej.

Sprawdź: ChatGPT – sztuczna inteligencja od OpenAI podbija internet

Pierwsze wyniki wyraźnie wskazują, że nowe narzędzie od Microsoftu nie tylko precyzyjnie naśladuje ton i tembr głosu, ale również emocje mówcy czy środowisko akustyczne. To nieporównywalnie bardziej rozbudowane narzędzie niż doskonale znana w polskim internecie Iwona czy inni cyfrowi lektorzy. Niewątpliwie, integracja Vall-E z ChatemGPT mogłaby stworzyć pierwszy naprawdę rewolucyjny interfejs AI.

Pozostają jednak dość słuszne wątpliwości. Czy sztucznie wytworzony głos będzie mógł legalnie upodabniać się do prawdziwego człowieka? Czy można opatentować lub zastrzec brzmienie swojego głosu? Problem szybko stanie się dość palący dla lektorów, aktorów oraz wokalistów. W końcu AI będzie w stanie generować dokładnie identyczny dźwięk i identyczny głos. Kolejny raz pokazuje to, że prawo musi znacznie szybciej nadążać za postępem technologicznym. Takich precedensów będzie coraz więcej.

Zobacz też:
ChatGPT stanie się częścią wyszukiwarki Bing od Microsoftu?
Midjourney – sztuczna inteligencja wygrała konkurs artystyczny
Peleryna niewidka ukryje nas przed sztuczną inteligencją