Искусственный интеллект теперь может генерировать речь на 30 языках

Гонка вооружений в области искусственного интеллекта продолжает ускоряться, и новые рубежи в клонировании голоса появляются почти ежедневно. Последняя разработка от стартапа ElevenLabs из Сан-Франциско, который только что объявил, что их новая модель AI теперь может имитировать голоса, свободно говорящие на 30 разных языках — значительное расширение по сравнению с оригинальными восемью, которые поддерживались ранее.

В качестве примера компания использовала Lukeman Literary, литературное агентство и независимого издателя, объяснив, что компания ежегодно выпускает множество аудиокниг на нескольких языках.

"Раньше команде Лукмана требовались недели, чтобы создать одну аудиокнигу, потому что для этого требовалось найти подходящего исполнителя озвучки, забронировать студию звукозаписи, а также записать пост-продакшн и управлять им”, - говорится в официальном сообщении ElevenLabs в блоге. “Теперь весь процесс занимает несколько часов",

Согласно ElevenLabs, новая многоязычная модель v2 обеспечивает “эмоционально насыщенный” звук, который передает нюансы естественной речи. Пользователи вводят текст, который они хотят произнести на целевом языке, и искусственный интеллект генерирует плавный закадровый перевод.

Компания предоставляет два основных варианта клонирования голоса: инструмент преобразования текста в речь и “VoiceLab” для клонирования определенных голосов.

Пользователи загружают образцы речи для создания пользовательского голосового клона, который искусственный интеллект анализирует для создания синтетической версии. Затем этим клонированным голосом можно манипулировать, чтобы произносить все, что только можно вообразить. ElevenLabs утверждает, что последнее обновление означает, что эти двойники искусственного интеллекта теперь могут свободно говорить на таких языках, как шведский, арабский и малайский.

Расширенные лингвистические возможности также совпадают с выводом технологии клонирования голоса ElevenLabs из бета-тестирования. Компания стремится продвигать инструмент для практических приложений, таких как повествование аудиокниг, как в случае с Lukeman Literary.

Потенциал неправильного использования технологии омрачает эти бизнес-амбиции. Подделка звука делает пользователей уязвимыми для кампаний по мошенничеству и дезинформации. Сама ElevenLabs в прошлом году столкнулась с негативной реакцией, когда ее платформа использовалась для выдвижения себя за общественных деятелей и преследования их.

Компания заявляет, что с тех пор были внедрены более строгие меры предосторожности, но этические проблемы сохраняются. Как недавно сообщали, “мошенник может использовать AI для клонирования голоса вашего любимого человека", и все, что ему потребуется для достижения правдоподобных результатов, - это пара минут аудио.

Крупные технологические фирмы, такие как Meta*, сталкиваются с аналогичной критикой за разработку мощного генерирующего ИИ без полной прозрачности.

Недавно Meta* представила инструмент синтеза речи AI под названием Voicebox, который, по ее признанию, может легко облегчить глубокие подделки. В отличие от ElevenLabs, Meta воздержалась от каких-либо публичных релизов, учитывая “риски неправильного использования”.

Однако, несмотря на опасения, быстрый прогресс в клонировании голоса AI кажется неудержимым. Как заявила лингвист Мати Станишевски из ElevenLabs: “В конечном итоге мы надеемся охватить еще больше языков и голосов с помощью AI и устранить языковые барьеры для контента”.

Обеспечение этичного внедрения остается сложной задачей, поскольку грань между глобальной дезинформацией и инновационными способами общения очень тонкая. Главное — действовать осторожно, чтобы наша глобальная деревня голосов не превратилась в Вавилонскую башню с какофонией.

Meta* признана экстремистской организацией в РФ

Вы здесь

Искусственный интеллект теперь может генерировать речь на 30 языках