Полная версия
Chat GPT и Революция Искусственного Интеллекта
Технология синтеза или клонирования речи существовала уже несколько десятилетий, но примерно до начала 2010-х годов все такие компьютерные голоса звучали откровенно механически и было понятно, что разговаривает компьютер. Но за последние годы алгоритмы искусственного интеллекта стали учитывать еще больше параметров и характеристики человеческого голоса (звуки, тембр, интонация, акценты и пр), и в итоге смогли очень близко приблизиться к тому, чтобы синтезированный голос звучал достаточно правдоподобно и по-человечески.
При клонировании голоса живого человека берут записи его речи (чем больше объема и разновидностей текстов, тем лучше), и далее нейронная сеть строит модель, на основе которой будет синтезирован искусственный голос, максимально похожий на оригинальный человеческий. Далее, этим голосом можно будет произнести любой текст, который будет подан в программу.
Как уже было сказано, данная технология может использоваться и для людей, утративших способность говорить. Наример, известный актер Вэл Килмер практически лишился голоса после того, как у него был обнаружен рак горла и была проведена химиотерапия и другие виды лечения. Компания Sonantic «воссоздала» голос актера на основе ИИ, а в 2022 году Spotify заявила о том, что выкупает всю компанию Sonantic[7].
Технология синтеза голоса поможет сократить расходы и в киноиндустрии при озвучивании фильмов и мультфильмов. Есть прогнозы, что может появиться целая новая отрасль по «аренде голосов», когда известные люди смогут сдавать свои голоса в аренду для рекламных кампаний или озвучивания того или иного контента (голосовых помощников или озвучивания аудиокниг), за что они будут получать соответствующие роялти.
На данный момент уже возможно при воссоздании голосов придавать им тот или иной эмоциональный окрас (бодрый, грустный, серьезный), возможно скоро появится возможность учить их петь.
Компания Microsoft в начале 2023 года презентовала очередную модель искусственного интеллекта для синтеза голоса под названием VALL-E. Особенностью данной модели является то, что образцом для преобразования текста в речь с точной имитацией голоса человека, может служить аудиозапись с продолжительностью всего лишь в три секунды. Создатели системы заявляют, что модель не только придает голосу эмоциональные оттенки, но также имитирует акустическое окружение, т. е. если исходная запись была сделана на основе разговора по телефону, то и речь в модели будет также напоминать телефонный разговор. Из-за риска того, что этой технологией могут воспользоваться злоумышленники, Microsoft, однако, не стала публиковать оригинальный код в открытый доступ.
Случаи использования клонированных дипфейковых голосов для кражи крупных сумм денег уже фиксировались. Так, например, в 2019 году мошенники скопировали голос генерального директора энергетической компании, базирующейся в Великобритании. Был осуществлен перевод более 200 тысяч фунтов, по-видимому, по приказу генерального директора, чей голос был подлинным как по акценту, так и по тону. Этот инцидент стал первым известным киберпреступлением в Европе, в котором напрямую использовался ИИ.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.
Сноски
1
Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».
2
https://canadatoday.news/ca/exclusive-chatgpt-owner-openai-predicts-1-billion-in-revenue-by-2024-sources-188974/
3
https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4
4
https://alltechmagazine.com/chatgpt-hits-one-million-users/
5
https://beta.openai.com/docs/guides/images/usage
6
https://www.globenewswire.com/en/news-release/2022/09/06/2510621/0/en/Speech-and-Voice-Recognition-Market-size-worth-59-6-Billion-Globally-by-2030-at-22-57-CAGR-Verified-Market-Research.html
7
https://techcrunch.com/2022/06/13/spotify-is-acquiring-sonantic-the-ai-voice-platform-used-to-simulate-val-kilmers-voice-in-top-gun-maverick/