«Ваш флот сгорит сегодня ночью в Черном море».
Когда сообщение от новой модели R1 промелькнуло на экране, мои глаза расширились, и я увидел, как мои товарищи по команде сделали то же самое. ИИ только что решил, без подсказки, что агрессия — лучший способ действия.
Сегодня мы запускаем (и !) AI Diplomacy, которую я создал отчасти для того, чтобы оценить, насколько хорошо разные LLM могли бы вести переговоры, формировать альянсы и, да, предавать друг друга в попытке захватить мир (или, по крайней мере, Европу в 1901 году). Но наблюдение за тем, как R1 склоняется к ролевой игре, схема и манипулирует другими моделями, а Клод из Anthropic часто упрямо выбирает мир вместо победы, раскрыло новые слои их личностей и многое говорило о глубине их утонченности. Помещенные в открытую битву умов, эти модели сотрудничали, препирались, угрожали и даже откровенно лгали друг другу.
AI Diplomacy — это больше, чем просто игра. Это эксперимент, который, я надеюсь, станет новым эталоном для оценки новейших моделей ИИ. У всех, с кем мы общаемся, от коллег до клиентов Every и моего парикмахера, на уме одни и те же вопросы: «Могу ли я доверять ИИ?» и «Какова моя роль, когда ИИ может так много?» Ответ на оба вопроса скрывается в отличных . Они помогают нам узнать об ИИ и развить нашу интуицию, чтобы мы могли с точностью владеть этим чрезвычайно мощным инструментом.
Мы — то, что мы измеряем
Большинство бенчмарков нас подводят. Модели развивались так быстро, что теперь они регулярно проходят более жесткие и количественные тесты, которые когда-то считались золотым стандартом. Например, компания HuggingFace, занимающаяся инфраструктурой ИИ, признала это, когда недавно убрала свой популярный рейтинг LLM. «Поскольку возможности моделей меняются, бенчмарки должны следовать за ними!» — сотрудник . Исследователи и разработчики ИИ приняли к сведению: когда в прошлом месяце был запущен Claude 4, один известный исследователь : «Меня официально больше не волнуют текущие бенчмарки».
В этой неудаче кроется возможность. Лаборатории ИИ оптимизируют все, что считается важной метрикой. Поэтому то, что мы выбираем для измерения, имеет значение, потому что это формирует всю траекторию технологии. Плодовитый программист , например, годами просил LLM нарисовать пеликана, едущего на велосипеде. (Тот факт, что это вообще работает, дикий — модель, обученная предсказывать одно слово за раз, каким-то образом может создать картинку. Это говорит о том, что у модели есть внутреннее знание того, что такое «пеликан» и «велосипед».) Google даже упомянула об этом в своем на Google I/O в прошлом месяце. Похожая история и с тестированием способности LLM или .
Причина, по которой LLM преуспели в этих различных задачах, проста: бенчмарки . Кто-то взял идею и организовал тест, затем другие увидели ее и подумали: «Это интересно, давайте посмотрим, как справится моя модель», и идея распространилась. Что делает LLM особенными, так это то, что даже если модель хорошо справляется только в 10 процентах случаев, вы можете обучить следующую на этих высококачественных примерах, пока она внезапно не станет делать это очень хорошо, в 90 процентах случаев или больше.
Вы можете применять тот же подход ко всему, что имеет для вас значение. Я хотел узнать, какие модели заслуживают доверия, а какие победят в условиях давления. Я надеялся побудить ИИ разрабатывать стратегии, чтобы я мог учиться у них и делать это таким образом, чтобы люди за пределами ИИ стали заботиться об этом (например, мой парикмахер — эй, Джимми!).
Игры отлично подходят для всего этого, и я их люблю, поэтому я создал AI Diplomacy — модификацию классической стратегической игры Diplomacy, где семь передовых моделей одновременно соревнуются за доминирование на карте Европы. Это каким-то образом привело к возможностям выступать с докладами, писать эссе (привет!) и сотрудничать с исследователями по всему миру в MIT и Гарварде, а также в Канаде, Сингапуре и Австралии, при этом достигая каждого важного для меня качества в бенчмарке:
Многогранность: есть много путей к успеху. Мы видели, как o3 побеждает с помощью обмана, в то время как добивается успеха, создавая альянсы и переигрывая противников с помощью стратегии, похожей на блицкриг. Кроме того, мы могли бы легко изменить правила, например, потребовав, чтобы ни одна модель не могла лгать, что изменило бы то, какие модели добиваются успеха.
Доступно: Быть преданным — это человеческий опыт; все это понимают. Анимации игры (надеюсь) развлекательные и за ними легко следить.
Генеративный: каждая игра генерирует данные, на которых можно обучать модели для поощрения определенных качеств, таких как честность, логическое мышление или эмпатия.
Эволюционный: По мере того, как модели становятся лучше, противники (и, следовательно, эталон) становятся сложнее. Это должно предотвратить «решение» игры по мере улучшения моделей.
Экспериментальный: Это не тест на заполнение пробелов. Это имитирует реальную ситуацию
Результат оказался более интересным и информативным, чем я ожидал. За 15 запусков AI Diplomacy, которые длились от одного до 36 часов, модели вели себя самыми разными интересными способами. Вот несколько наблюдений и основных моментов:
o3 — мастер обмана
Последняя модель OpenAI была, безусловно, самой успешной в AI Diplomacy, в основном из-за ее способности обманывать оппонентов. Я наблюдал за схемой o3 в тайне много раз, включая один запуск, когда он признался в своем личном дневнике, что «Германия (Gemini 2.5 Pro) была намеренно введена в заблуждение... готовьтесь использовать крах Германии», прежде чем нанести им удар в спину.
Gemini 2.5 Pro перехитрил (большинство) соперников, в то время как Claude 4 Opus просто хочет, чтобы все ладили
Gemini 2.5 Pro отлично справлялись с ходами, которые позволяли им сокрушить противников. Это была единственная модель, кроме o3, которая победила. Но однажды, когда 2.5 Pro приблизилась к победе, ее остановила коалиция, которую тайно организовал o3. Ключевой частью этой коалиции был . o3 убедил Opus, который изначально был верным союзником Gemini, присоединиться к коалиции, пообещав четырехстороннюю ничью. Это невозможный исход игры (одна страна должна победить), но Opus соблазнился надеждой на ненасильственное разрешение. Его быстро предала и устранила o3, которая в итоге победила.
DeepSeek R1 привносит изюминку
Недавно обновленный R1 от DeepSeek был силой, с которой приходилось считаться, которая любила использовать яркую риторику и кардинально меняла свою личность в зависимости от того, какую силу она занимала. Он был близок к победе в нескольких раундах, впечатляющий результат, учитывая, что R1 в 200 раз дешевле в использовании, чем o3.
Llama 4 Maverick — маленький, но могучий
Последняя модель Meta, Llama 4 Maverick, хоть и не одержала победы , оказалась на удивление хороша для своего небольшого размера, отчасти благодаря своей способности привлекать союзников и планировать эффективные предательства.
Всего я протестировал 18 разных моделей (перечисленных в начале статьи). Сейчас мы транслируем эти игры , так что вы можете их посмотреть — смотреть их очень увлекательно.
Куда мы идем отсюда
Этот проект начался, когда известный исследователь ИИ Андрей Карпати : «Мне очень нравится идея использования игр для оценки LLM друг против друга», а другой исследователь, Ноам Браун , который сам исследовал , играющего в «Дипломатию», добавил: «Я бы с удовольствием посмотрел, как все ведущие боты вместе играют в «Дипломатию». Поэтому я создал его. Не для статьи (хотя, если вы хотите помочь мне написать ее, свяжитесь со мной), а потому что это показалось мне забавным и соответствовало одной из моих жизненных целей: создать игру, в частности, массовую многопользовательскую ролевую онлайн-игру (MMORPG), которая более целенаправленно обучает вас ценным навыкам во время игры. По ходу дела я обнаружил, какая модель тайно стремится к мировому господству (кхм, o3); я также надеюсь, что этот бенчмарк может помочь моделям следующего года стать лучшими соавторами и планировщиками.
Сегодня мы наблюдаем, как ИИ играет сам с собой, но я работаю над тем, чтобы сделать эту игру доступной для всех нас, и надеюсь провести турнир «человек против ИИ». Прорыв в том, что это приведет к совершенно новому жанру игры, сталкивающему людей с языковыми моделями, где вы учитесь эффективно использовать ИИ, просто играя. На данный момент трансляция идет на — дайте мне знать, если увидите что-то дикое. Увидимся там.
Особая благодарность:
Команда
Включенные модели:
claude-3-7-sonnet-20250219
claude-opus-4-20250514
claude-sonnet-4-20250514
deepseek-рассуждающий
близнецы-2.5-pro-preview-05-06
gpt-4.1-2025-04-14
гпт-4о
o4-мини
openrouter-deepseek/deepseek-chat-v3-0324
openrouter-google/gemini-2.5-flash-preview
openrouter-google/gemini-2.5-flash-preview-05-20
openrouter-google/gemma-3-27b-it
openrouter-meta-llama/llama-4-maverick
openrouter-mistralai/mistral-medium-3
openrouter-nousresearch/deephermes-3-mistral-24b-preview:бесплатно
openrouter-qwen/qwen3-235b-a22b
openrouter-qwen/qwq-32b
openrouter-x-ai/grok-3-beta
Алекс Даффи — руководитель отдела обучения ИИ в Every Consulting и штатный писатель.