Głos Scarlett Johansson wykorzystany przez OpenAI bez jej zgody? Wielka afera przed premierą głosowych interakcji z ChatGPT- 4o!

Sytuacja z OpenAI i Scarlett Johansson nadaje się na scenariusz filmowy. Jakiś czas temu OpenAI zaproponowało aktorce, aby użyczyła swojego charakterystycznego głosu dla ChataGPT. Scarlett Johansson rozważała taką współpracę, jednak ostatecznie ją odrzuciła. OpenAI i tak wykorzystało głos do złudzenia przypominający ten Scarlett Johansson. Aktorka podęła działania prawne, zaś OpenAI już wycofuje się z brzmienia Sky.

Spis treści

Skopiowanie głosu Scarlett Johansson, czyli nasza cyberpunkowa rzeczywistość

Historię afery pomiędzy Scarlett Johansson a OpenAI należy zacząć od filmu „Her” z 2013 roku. W filmie tym aktorka wcieliła się w rolę głosu sztucznej inteligencji, w której zakochał się bohater grany przez Joaquina Phoenixa. Film sprzed ponad dekady bardzo trafnie przewidział rozwój sztucznej inteligencji, gdyż ChatGPT i możliwość głosowych rozmów z generatywną sztuczną inteligencją, jest niemal odwzorowaniem filmowego scenariusza. Sam Altman wraz z ekipą OpenAI chcieli, aby głosu ChatowiGPT-4o udzieliła filmowa Samantha, czyli aktorka Scarlett Johansson. OpenAI skontaktowało się z aktorką i zaproponowało współpracę.

Z opowieści aktorki wynika, że na początku rozważała ona taką współpracę, jednakże ostatecznie ją odrzuciła z „powodów osobistych”. Wszystko to działo się we wrześniu 2023 roku, czyli na długo przed prezentacją światu ChatuGPT-4o. Historia jednak nie skończyła się na tej odmowie, ponieważ po prezentacji OpenAI Spring Update znajomi, rodzina i internauci stwierdzili, że Sky, czyli nowy głos ChatuGPT-4o brzmi bardzo podobnie do aktorki.

Tłumaczenia OpenAI i dalsze kontrowersje związane z głosową (r)ewolucją LLMa od zespołu Altmana

Smaczku całej sytuacji dodaje fakt, że zaraz po prezentacji najnowszej głosowej wersji ChatuGPT, Sam Altman napisał enigmatycznego, ale jednocześnie jednoznacznego tweeta o treści „Her”. Było to oczywiste nawiązanie do filmu i do tego, że od teraz użytkownicy będą mogli nawiązywać relację podobne, jak w filmie z 2013 roku. Przesadzone twierdzenie? Otóż opóźnienie nowej wersji ChatuGPT w odpowiedziach audio wynosi około 232-330 milisekund, czyli jest równe naturalnej ludzkiej rozmowie. Doskonale widać i słychać było to na prezentacji. Głos ChatGPT-4o jest naturalny, zaś w trakcie konwersacji słychać nie tylko zaawansowaną intonację, ale także przerywniki w formie śmiechu, zawahań, zwolnień. Brzmi to na tyle realistycznie, że skojarzenie z filmem sprzed ponad dekady nasuwa się wręcz naturalnie.

her
— Sam Altman (@sama) May 13, 2024

Głos Sky, czyli nowej głosowej wersji ChatuGPT-4o faktycznie do złudzenia przypomina ten Scarlett Johansson. Słyszalna jest nawet charakterystyczna chrypka. Tak aktorka skomentowała na łamach NBC News fakt, że Sky brzmi dokładnie, jak ona:

Kiedy usłyszałam upublicznione demo, byłam zszokowana, zła i nie mogłam uwierzyć, że pan Altman postanowił użyć głosu, który brzmiał tak strasznie podobnie do mojego, że moi najbliżsi przyjaciele i media nie byli w stanie odróżnić różnicy.

Warto nadmienić, że według aktorki dwa dni po OpenAI Spring Update Sam Altman skontaktował się z jej agentem, prosząc, aby jeszcze raz rozważyła ona propozycję współpracy. Odpowiedź Scarlett Johansson była nie tylko odmową, ale także pismem od radcy prawnego. W piśmie tym prawnik zażądał od szefa OpenAI wytłumaczenia i opisania procesu, w jaki uzyskano głos Sky. W poniedziałek 20 maja OpenAI opublikowało komunikat, w którym wyjaśniono, że Sky nie imituje głosu Scarlett Johansson. Do wytrenowania modelu miał posłużyć głos innej aktorki, specjalnie zatrudnionej do tego zadania. Firma „z szacunku dla Pani Johansson” zdecydowała zrezygnować z pomysłu używania tego konkretnego głosu Sky.

Vocal Comparison: ScarJo vs Samantha vs Sky
byu/SWAMPMONK inChatGPT

Future is now oldman, czyli klonowanie głosu łatwiejsze, niż kiedykolwiek wcześniej

Sytuacja ze Scarlett Johansson jest tylko wierzchołkiem góry lodowej problemu łatwości w kopiowaniu dziś głosu. Narzędzia, takie jak Eleven Labs, są w stanie z kilkuminutowej próbki skopiować głos dowolnej osoby. W social mediach krąży już wiele takich przeróbek, zaś legislacja zdecydowanie nie nadąża z odpowiednimi ramami prawnymi. Choć Eleven Labs udostępniło specjalne narzędzia pozwalające z praktycznie 100% pewnością zdefiniować, czy dane nagranie audio zostało stworzone z użyciem ich programu, to fakt ten zdecydowanie nie rozwiązuje problemu. Żyjemy w czasach, w których skopiowanie czyjegoś głosu jest łatwiejsze, niż kiedykolwiek wcześniej i nie wymaga praktycznie żadnej specjalistycznej wiedzy. Wystarczą dwa kliknięcia i gotowe.

Skopiowanie głosu Scarlett Johansson, czyli nasza cyberpunkowa rzeczywistość

Tłumaczenia OpenAI i dalsze kontrowersje związane z głosową (r)ewolucją LLMa od zespołu Altmana

Future is now oldman, czyli klonowanie głosu łatwiejsze, niż kiedykolwiek wcześniej

Newsletter Bitcoin.pl