Команда создала функциональных агентов для двусторонних рынков, но тестирование выявило критические искажения в их поведении.
Microsoft разработали 2 типа агентов: для покупок, а также для продаж.
Для тестирования создали Magentic Marketplace — симулированную рыночную среду с синтетическими данными, где их агенты могли безопасно взаимодействовать.
Как тестировали? 
Взяли своих агентов и запустили их на 9 разных языковых моделях: GPT-4o/4.1/5, Claude Sonnet-4/4.5, Gemini-2.5-Flash, open-source GPT-OSS-20b, Qwen3-14b/4b-2507.
Какие результаты?
1. Независимо от модели, они не сравнивают варианты, а хватают первое приемлемое предложение.
2. При увеличении результатов поиска с 3 до 100, агенты принимают худшие решения
3. Производительность зависит от качества поиска. Проблема не в способности агентов рассуждать, а в обработке нерелевантной информации при масштабе.
4. Устойчивость к манипуляциям сильно различается:
- самые устойчивые: Агенты на Sonnet-4.5: невосприимчивы практически ко всем атакам. Агенты на GPT-4.1: очень устойчивы к психологическим манипуляциям
Агенты на Gemini-2.5-Flash: устойчивы, но уязвимы к агрессивному prompt injection.
- уязвимые:
• агенты на GPT-4o, GPT-OSS-20B, Qwen3-4B: попадаются на Authority и Social Proof.
• Агенты на open-source моделях особенно уязвимы.
5. Размер модели не определяет качество агента.
Open-source модели могут быть конкурентоспособными при правильной архитектуре и данных обучения.







 "
"    











