Microsoft представила новую модель для синтеза речи VibeVoice-Realtime-0,5B

Microsoft представила VibeVoice Realtime — новую нейросетевую модель для генерации речи, которая поражает сочетанием компактности и выразительности. Несмотря на скромные размеры — всего 0,5 миллиарда параметров, — система работает практически без задержек, создавая естественную живую речь, способную выражать эмоции вроде удивления, гнева, радости или волнения.

Главное преимущество модели — способность вести полноценные диалоги длительностью до 90 минут и управлять четырьмя голосами одновременно, что делает её отличным решением для умных колонок, голосовых помощников, игровых персонажей, интерактивных приложений и даже аудиокниг.

Разработчики из Microsoft подчеркивают, что VibeVoice Realtime оптимизирована для работы в режиме реального времени, без долгой подготовки или генерации, благодаря чему взаимодействие с ней ощущается как разговор с человеком. Причем пользователи могут менять тональность, интонацию и эмоции буквально «на лету» — от спокойного рассказа до яростного возмущения.

Потенциал таких систем выходит далеко за рамки развлечений. Эмоциональные голосовые модели способны сделать человеческо-машинное общение гораздо естественнее — например, в службах поддержки, навигации или образовании. Но, как шутят в социальных сетях, с развитием технологий недалек тот день, когда ночью на вас гневно заорет холодильник: «Хватит уже есть!»

Попробовать VibeVoice Realtime можно на платформе Hugging Face — и убедиться, насколько убедительно искусственный интеллект научился подражать человеческим эмоциям.

Вы здесь

Microsoft представила новую модель для синтеза речи VibeVoice-Realtime-0,5B