Microsoft представила VibeVoice Realtime — новую нейросетевую модель для генерации речи, которая поражает сочетанием компактности и выразительности. Несмотря на скромные размеры — всего 0,5 миллиарда параметров, — система работает практически без задержек, создавая естественную живую речь, способную выражать эмоции вроде удивления, гнева, радости или волнения.
Главное преимущество модели — способность вести полноценные диалоги длительностью до 90 минут и управлять четырьмя голосами одновременно, что делает её отличным решением для умных колонок, голосовых помощников, игровых персонажей, интерактивных приложений и даже аудиокниг.
Разработчики из Microsoft подчеркивают, что VibeVoice Realtime оптимизирована для работы в режиме реального времени, без долгой подготовки или генерации, благодаря чему взаимодействие с ней ощущается как разговор с человеком. Причем пользователи могут менять тональность, интонацию и эмоции буквально «на лету» — от спокойного рассказа до яростного возмущения.
Потенциал таких систем выходит далеко за рамки развлечений. Эмоциональные голосовые модели способны сделать человеческо-машинное общение гораздо естественнее — например, в службах поддержки, навигации или образовании. Но, как шутят в социальных сетях, с развитием технологий недалек тот день, когда ночью на вас гневно заорет холодильник: «Хватит уже есть!»
Попробовать VibeVoice Realtime можно на платформе Hugging Face — и убедиться, насколько убедительно искусственный интеллект научился подражать человеческим эмоциям.






" 











