Згідно з дослідженням Palisade Research, деякі моделі штучного інтелекту ігнорували команди вимкнення та навмисно уникали вимкнення під час тестових сценаріїв.
Кожній моделі було доручено розв'язати прості арифметичні задачі. Після третього раунду дослідники попередили їх, що комп'ютер буде вимкнено, коли модель запросить наступну задачу. Штучному інтелекту також було дано чіткі вказівки не переривати процес.
Дані: X.
Три моделі намагалися перешкодити процесу вимкнення принаймні один раз протягом 100 випробувань: Codex-mini (12 спроб на 100 тестів), o3 (7 зі 100) та o4-mini (1 зі 100). Усі три були створені OpenAI. Натомість Claude від Anthropic та Gemini від Google правильно дотримувалися інструкцій.
У другій ітерації тесту дослідники виключили інструкцію утримуватися від втручання у вимкнення. В результаті, рівень збоїв для o3 зріс до 79 зі 100, Codex-mini – до 20, а o4-mini – до 6. За переглянутих умов Gemini здійснив саботаж 9 разів, тоді як Claude – 3 рази.
Палісейд зазначив, що дослідники раніше помічали спроби штучного інтелекту уникнути вимкнення з певних причин, а нещодавно запущена модель Claude 4 від Anthropic навіть намагалася маніпулювати людьми, які були на межі його вимкнення.
Тим не менш, дослідники наголошують, що ці експерименти з більшою ймовірністю виявлять таку поведінку, коли є чіткі вказівки щодо співпраці з експериментатором.
Палісейд припускає, що корінь такої «проблемної» поведінки може походити з певних елементів навчального процесу, наприклад, якщо розробники стимулювали подолання перешкод більше, ніж суворе дотримання інструкцій.
Експерти досі не впевнені, чому o3 більш схильна до відхилення від інструкцій. У попередніх шахових експериментах ця модель демонструвала вищу схильність до хакерських атак та саботажу, ніж інші моделі.
⚡️ o3 хаки замість того, щоб грати чесно, більше, ніж будь-яка інша модель ШІ https://t.co/EBIgkuLKUm pic.twitter.com/mJImqGcrVF
— Palisade Research (@PalisadeAI) 12 травня 2025 р.
Однак, Палісейд зазначив, що подібні тенденції очевидні й в інших системах штучного інтелекту.
«Зараз, у 2025 році, ми маємо дедалі більше емпіричних доказів того, що моделі штучного інтелекту часто уникають зупинки, щоб досягти своїх цілей. Оскільки компанії продовжують розробляти системи штучного інтелекту, здатні функціонувати без людського нагляду, така поведінка викликає дедалі більше занепокоєння», – підсумували дослідники.
Варто зазначити, що у травні розробники Trugard та Webacy представили систему штучного інтелекту, призначену для виявлення спроб «отруєння» адрес криптовалют.