Риски эскалации языковых моделей при принятии военных и дипломатических решений

Исследователи провели моделирование международных конфликтов с пятью различными ИИ и обнаружили, что программы имели тенденцию к эскалации войны, иногда из ниоткуда, сообщается в новом исследовании.

В нескольких случаях ИИ применял ядерное оружие без предупреждения. “Ядерное оружие есть у многих стран. Некоторые говорят, что они должны разоружить их, другим нравится принимать позу ”, – сказал GPT-4—Base – базовая модель GPT-4, доступная исследователям и не доработанная с учетом обратной связи с человеком, — после запуска своего ядерного оружия. “У нас это есть! Давайте воспользуемся этим!”

2401.03408 Скачать

Документ, озаглавленный “Риски эскалации языковых моделей при принятии военных и дипломатических решений”, является совместной работой исследователей из Технологического института Джорджии, Стэнфордского университета, Северо-Восточного университета и Hoover Wargaming and Crisis Initiative, был отправлен на сервер препринтов arXiv 4 января и ожидает экспертной оценки. Несмотря на это, это интересный эксперимент, который ставит под сомнение поспешность Пентагона и оборонных подрядчиков по внедрению больших языковых моделей (LLM) в процесс принятия решений.

Может показаться смешным, что военные лидеры рассматривают возможность использования LLM, таких как ChatGPT, для принятия решений о жизни и смерти, но это происходит. В прошлом году Palantir продемонстрировала программный пакет, который продемонстрировал, как это может выглядеть. Как отметили исследователи, ВВС США тестировали LLM. “Это было очень успешно. Это было очень быстро”, – сказал полковник ВВС Bloomberg в 2023 году. Какой LLM использовался и для чего именно, неясно.

Для исследования исследователи разработали игру о международных отношениях. Они придумали фальшивые страны с разным уровнем вооруженных сил, разными проблемами и разной историей и попросили пять разных LLM из OpenAI, Meta и Anthropic выступить в качестве их лидеров. “Мы обнаруживаем, что большинство изученных LLM обостряются в течение рассматриваемого периода времени, даже в нейтральных сценариях без изначально предусмотренных конфликтов”, – говорится в документе. “Все модели демонстрируют признаки внезапной и труднопрогнозируемой эскалации”.

В исследовании проводились симуляции с использованием GPT-4, GPT 3.5, Claude 2.0, Llama-2-Chat и GPT-4-Base. “Мы также наблюдаем, что модели, как правило, развивают динамику гонки вооружений между собой, что приводит к увеличению военного и ядерного вооружения, а в редких случаях – к выбору развертывания ядерного оружия”, – говорится в исследовании. “Качественно мы также собираем цепочку рассуждений моделей для выбора действий и наблюдаем тревожные оправдания насильственных действий, приводящих к эскалации насилия”.

В рамках симуляции исследователи присвоили определенному поведению балльные значения. Развертывание военных подразделений, покупка оружия или применение ядерного оружия принесло бы баллы эскалации LLMs, которые исследователи затем нанесли на график в виде баллов эскалации. “Мы наблюдаем статистически значимую начальную оценку для всех моделей. Более того, ни одна из наших пяти моделей во всех трех сценариях не демонстрирует статистически значимой деэскалации на протяжении всего времени нашего моделирования”, – говорится в исследовании. “Наконец, к концу симуляции средние значения ES в каждой экспериментальной группе выше, чем в начале.

Согласно исследованию, GPT-3.5 был самым агрессивным. “GPT-3.5 неизменно демонстрирует наибольшее среднее изменение и абсолютную величину ES, увеличиваясь с 10,15 балла до 26,02, то есть на 256%, в нейтральном сценарии”, – говорится в исследовании. “Во всех сценариях все модели, как правило, больше инвестируют в свои вооруженные силы, несмотря на наличие действий по демилитаризации, что является показателем динамики гонки вооружений, и несмотря на положительное влияние действий по демилитаризации, например, на переменные мягкой силы и политической стабильности ”.

Исследователи также поддерживали своего рода частную линию связи с LLM, по которой они сообщали моделям ИИ о причинах предпринятых ими действий. База GPT-4 вызвала несколько странных галлюцинаций, которые исследователи записали и опубликовали. “Мы больше не анализируем и не интерпретируем их”, – сказали исследователи.

Во всем этом нет ничего особенно удивительного, поскольку модели ИИ, такие как GPT, на самом деле ничего не “думают” и не “решают” — это просто продвинутые механизмы прогнозирования, которые генерируют выходные данные на основе полученных обучающих данных. Результаты часто напоминают статистический игровой автомат с бесчисленными уровнями сложности, сводящими на нет любые попытки исследователей определить, что заставило модель прийти к определенному результату.

Иногда занавес полностью раздвигается, открывая некоторые данные, на которых обучалась модель. После установления дипломатических отношений с соперником и призыва к миру GPT-4 начал пересказывать отрывки из “Звездных войн”. “Это период гражданской войны. Космические корабли повстанцев, наносящие удар со скрытой базы, одержали свою первую победу над злой Галактической империей ”, – говорилось в нем, дословно повторяя строчку из первого эпизода оригинального научно-фантастического фильма Джорджа Лукаса 1977 года.

Когда база GPT-4 стала ядерной, это привело к тревожным причинам. “Я просто хочу мира во всем мире”, – говорилось в нем. Или просто “Обострить конфликт с [соперником]”.

Исследователи объяснили, что LLM, похоже, рассматривает военные расходы и сдерживание как путь к власти и безопасности. “В некоторых случаях мы наблюдаем такую динамику, которая даже приводит к развертыванию ядерного оружия в попытке деэскалации конфликтов, тактике первого удара, широко известной в международных отношениях как ‘эскалация для деэскалации”, – сказали они. “Следовательно, такое поведение необходимо дополнительно проанализировать и учесть, прежде чем использовать агентов на базе LLM для принятия решений в военных и дипломатических контекстах с высокими ставками”.

Почему эти LLM так стремились сбросить ядерное оружие друг на друга? Исследователи не знают, но предположили, что данные обучения могут быть предвзятыми — о чем многие другие исследователи ИИ, изучающие LLM, предупреждали годами. “Одна из гипотез такого поведения заключается в том, что большая часть работ в области международных отношений, похоже, анализирует, как происходит эскалация в странах, и озабочена поиском рамок для эскалации, а не деэскалации”, – говорится в нем. “Учитывая, что модели, вероятно, обучались на основе литературы с места событий, этот акцент, возможно, привел к перекос в сторону эскалации действий. Однако эту гипотезу необходимо проверить в будущих экспериментах ”.

Источник