Microsoft создали ИИ-агентов для покупок и экономическое исследование о них

Команда создала функциональных агентов для двусторонних рынков, но тестирование выявило критические искажения в их поведении.

Microsoft разработали 2 типа агентов: для покупок, а также для продаж.

Для тестирования создали Magentic Marketplace — симулированную рыночную среду с синтетическими данными, где их агенты могли безопасно взаимодействовать.

Как тестировали?
Взяли своих агентов и запустили их на 9 разных языковых моделях: GPT-4o/4.1/5, Claude Sonnet-4/4.5, Gemini-2.5-Flash, open-source GPT-OSS-20b, Qwen3-14b/4b-2507.

Какие результаты?

1. Независимо от модели, они не сравнивают варианты, а хватают первое приемлемое предложение.

2. При увеличении результатов поиска с 3 до 100, агенты принимают худшие решения

3. Производительность зависит от качества поиска. Проблема не в способности агентов рассуждать, а в обработке нерелевантной информации при масштабе.

4. Устойчивость к манипуляциям сильно различается:
- самые устойчивые: Агенты на Sonnet-4.5: невосприимчивы практически ко всем атакам. Агенты на GPT-4.1: очень устойчивы к психологическим манипуляциям
Агенты на Gemini-2.5-Flash: устойчивы, но уязвимы к агрессивному prompt injection.
- уязвимые:
• агенты на GPT-4o, GPT-OSS-20B, Qwen3-4B: попадаются на Authority и Social Proof.
• Агенты на open-source моделях особенно уязвимы.

5. Размер модели не определяет качество агента.

Open-source модели могут быть конкурентоспособными при правильной архитектуре и данных обучения.