Новая работа группы исследователей, среди которых лауреат премии Тьюринга, а также представители Google, Oxford и др. выявила серьезную проблему в том, как мы понимаем работу современных ИИ-систем.
Метод CoT заставляет ИИ показывать "пошаговые рассуждения" перед ответом. Это реально улучшает качество решений — ИИ лучше справляется со сложными задачами. Но исследователи обнаружили подвох в том, как мы это интерпретируем.
Ключевая находка - 25% недавних научных работ ошибочно считают CoT методом интерпретации ИИ. В критических областях цифры еще хуже:
- 38% работ по медицинскому ИИ
- 63% работ по беспилотным автомобилям.
Почему это опасно?
1. Скрытые предубеждения ИИ может принимать решения на основе скрытых предвзятостей, но в объяснениях их не упоминать. При этом рационализация выглядит убедительно.
2. Иллюзия прозрачности Модель может давать правильный ответ через внутренние процессы, которые мы не видим, а показанные "рассуждения" остаются ошибочными.
3. Неверное доверие. В медицине или праве ложная уверенность в понимании логики ИИ может иметь серьезные последствия.
Исследователи предполагают, что словесные объяснения CoT не отражают реальные вычислительные процессы в нейросетях. Это как если бы человека попросили объяснить, почему ему нравится определенная музыка — он даст разумное объяснение, но реальные нейронные процессы гораздо сложнее.
Авторы не призывают отказаться от CoT — метод действительно работает для улучшения результатов. Но предлагают:
1. Использовать CoT для повышения качества решений, а не для "понимания" ИИ
2. Не полагаться только на словесные объяснения в критических решениях
3. Разрабатывать отдельные методы проверки надежности рассуждений
4. Усилить человеческий контроль в важных областях.