CEO Anthropic Дарио Амодеи написал новое эссе про то, почему нам срочно нужно научиться интерпретировать модели
Он пишет, что в ближайшие годы ученые обязательно должны решить проблему интерпретируемости LLM, иначе мы не сможем предотвратить обманы, саботажи, стремление ИИ к власти и любое другое непреднамеренное поведение моделей.