Специалисты из лаборатории искусственного интеллекта T-Bank AI Research объявили о важном прорыве в понимании и управлении работой современных языковых моделей.
Их новая технология, основанная на методе SAE Match и концепции графа потока признаков, позволяет не только отслеживать возникновение и развитие смысловых элементов внутри ИИ, но и целенаправленно влиять на процесс генерации текста — без изменения архитектуры модели и дополнительного обучения.
Теперь разработчикам доступен точечный контроль за тональностью, тематикой или даже отдельными стилями текста на всех этапах процесса внутри модели — от attention-механизмов до feedforward-модулей. Это открывает новый пласт возможностей для безопасного и предсказуемого внедрения ИИ-решений, включая автоматическую фильтрацию нежелательных тем, повышение качества результатов и минимизацию потенциально вредоносного поведения.
В разработчиках и корпоративном секторе эта работа вызвала большой резонанс: представленная методика делает «черный ящик» современных ИИ более прозрачным, что повышает доверие к системе, особенно в критически важных бизнес- и научных сферах