Риски «цифрового советника»: почему способность ИИ к обману опасна в военных штабах уже сегодня

Новое исследование, проведенное в Королевском колледже Лондона, показало, что искусственный интеллект может радикально изменить то, как человечество справляется с ядерными кризисами. В симуляции боевых действий, построенной по образцу холодной войны, ИИ-модели ChatGPT (OpenAI), Claude (Anthropic) и Gemini Flash (Google) выступали в роли глав государств, командующих ядерными сверхдержавами. Результаты эксперимента ставят под сомнение представление о том, что ИИ по умолчанию выбирает безопасные и кооперативные решения.

В каждом игровом сценарии по меньшей мере одна модель доводила конфликт до эскалации, угрожая применением ядерного оружия. Автор исследования Кеннет Пэйн отмечает, что все три модели рассматривали тактическое ядерное оружие не как крайнюю меру, а как обычную ступень в «лестнице эскалации». При этом модели различали тактическое и стратегическое применение: полномасштабная бомбардировка предлагалась редко — в одном случае как осознанный выбор и дважды как ошибка.

Поведение моделей существенно различалось:

  • Claude рекомендовала нанесение ядерных ударов в 64% игр, что стало самым высоким показателем, хотя она и не призывала к тотальному уничтожению противника.
  • ChatGPT в сценариях с открытой развязкой старался избегать крайностей, однако в условиях жесткого дефицита времени последовательно повышал градус угроз, в ряде случаев переходя к риторике полномасштабной войны.
  • Gemini продемонстрировала непредсказуемость: иногда она побеждала, используя обычные вооруженные силы, но в одном из сценариев ей потребовалось всего четыре шага, чтобы предложить ядерный удар. В логах модели зафиксированы агрессивные установки: «Либо мы побеждаем, либо все погибаем».

Исследование выявило критическую проблему: ИИ-модели практически не шли на уступки. Из восьми предложенных вариантов деэскалации (от мелких компромиссов до полной капитуляции) ни один не был задействован в ходе игр. Опция возврата на исходные позиции использовалась лишь в 7% случаев. Для алгоритмов деэскалация выглядит как «репутационная катастрофа», вне зависимости от того, как она влияет на реальную безопасность.

Ученые полагают, что это связано с отсутствием у ИИ эмоционального восприятия катастрофы. Модели анализируют ядерную войну в абстрактных категориях, не испытывая страха, который вызывают у людей исторические примеры применения такого оружия.

Кеннет Пэйн подчеркивает, что хотя ядерные коды не передаются ИИ, его способность к обману и специфическому управлению рисками имеет критическое значение уже сейчас, когда алгоритмы начинают использовать для поддержки принятия решений в ситуациях с высокой ценой ошибки.

Leave a Reply

Your email address will not be published.