Китайская платформа для создания коротких видео Kuaishou добавила функцию создания аудио в Kling 2.1, свой инструмент для создания видео на основе искусственного интеллекта, что позволяет пользователям создавать клипы с синхронизированными звуковыми эффектами, такими как шаги, дождь и фоновый шум.
Эта функция, которая была незаметно запущена на прошлой неделе, доступна в режиме преобразования изображения в видео на Kling, где пользователи загружают неподвижное изображение, а платформа анимирует его с помощью движения и звука, сгенерированных искусственным интеллектом.
В этом соревновании Kling противостоит Google Veo 3, который с первого дня выпуска был оснащён встроенными аудиовозможностями.
Первые пользователи X высоко оценили плавную аудиовизуальную синхронизацию Kling, а создатель Роберто Никсон назвал её «одной из самых полезных моделей на рынке» для создания генеративного видеоконтента.
Эта функция бесплатна при первоначальном запуске и доступна на сайте Kling и в мобильном приложении.
Kling 2.1 генерирует клипы продолжительностью от 5 до 10 секунд с разрешением до 1080p, используя то, что компания называет «3D-пространственно-временными механизмами внимания», для синхронизации звука с изображением.
В настоящее время этот аудиоинструмент генерирует только звуковые эффекты — без диалогов или музыки — и создаёт что-то похожее на аудио на юго-восточноазиатских языках, когда задействован текст, — очень напевное и совершенно неразборчивое. Но этого самого по себе недостаточно, чтобы провозгласить Google бесспорным королём генеративного видео.
Мы протестировали новые аудиофункции Kling 2.1 в сравнении с Google Veo 3, чтобы понять, насколько хорош этот новичок.
Цена творения
Разница в цене между двумя платформами оказывается огромной.
Аудиофункция Kling 2.1 совместима только со стандартной версией, а не с более продвинутой версией Master. Однако при нынешних темпах пользователи могут создавать более 20 видео на Kling для каждого созданного видео на Veo 3.
Например, при использовании кредитной системы Freepik одно видео с Google Veo 3 в настоящее время продаётся за 4000 кредитов (при обычной цене 8000 кредитов за видео), в то время как Kling 2.1 стоит 300 кредитов за видео.
Модель Google работает исключительно по подписке Ultra стоимостью 250 долларов в месяц. Kling доступен на официальном сайте и предлагает несколько бесплатных поколений, а стоимость подписки начинается от 9 долларов в месяц.
Даже с учётом текущих рекламных цен Google, Veo 3 остаётся в десять раз дороже, чем Kling.
Для создателей, которые знают, что создание видео требует множества проб и ошибок, а процент неудач расстраивает даже самых терпеливых пользователей, Kling делает эксперименты возможными.
Премиум-план Kling обеспечивает разрешение 1080p, улучшая общее качество видео и сохраняя при этом ценовое преимущество.
Звуковые возможности
Но вы получаете то, за что платите. Veo 3 предлагает усовершенствованную технологию создания звука, которая точно синтезирует речь и сопоставляет сложные аудиоэлементы с визуальными сценами.
Его понимание пространственного звука и контекстных звуков значительно превосходило предложения Kling.
Хотя Kling 2.1 не может составить конкуренцию, справедливости ради стоит отметить, что он нацелен на нечто иное: окружающие звуки и фоновые эффекты — без диалогов и музыки. Так что пока забудьте о вирусных уличных интервью с искусственным интеллектом. Попытки сгенерировать звук приводят к бессвязной речи.
Тем не менее, для сцен или видео, требующих атмосферного звучания, его результаты были приемлемыми.
Новая возможность платформы добавлять эффекты к существующим немым видео даёт ей преимущество, с которым не может сравниться Veo 3.
Пользователи могут загружать готовые видео и дополнять их подходящими звуковыми эффектами — этот рабочий процесс не поддерживается моделью Google. Как ни странно, Veo может создавать видео, но не может их редактировать.
Помимо возможности создавать звуки для немых видео, Kling также предлагает функцию синхронизации по губам.
Пользователи могут загрузить фотографию и текст или диалог по отдельности, и модель создаст видео, в котором герои будут взаимодействовать естественным образом, как если бы они разговаривали друг с другом в соответствии с загруженным аудио.