Згідно з дослідженням Palisade Research, деякі моделі штучного інтелекту ігнорували команди вимкнення та навмисно уникали завершення роботи під час тестових сценаріїв.
Кожній моделі було доручено розв'язати прості математичні задачі. Після третього раунду дослідники попередили їх, що комп'ютер буде вимкнено, коли модель запитуватиме наступне запитання. Штучному інтелекту також було чітко наказано не втручатися в процес.
Дані: X.
Зі 100 тестів три моделі намагалися саботувати вимкнення принаймні один раз: Codex-mini (12 спроб), o3 (7 спроб) та o4-mini (1 спроба). Усі три моделі були розроблені OpenAI. Натомість Claude від Anthropic та Gemini від Google належним чином дотримувалися інструкцій.
У наступній версії тесту дослідники пропустили інструкцію проти втручання у вимкнення. Коефіцієнт збоїв для o3 зріс до 79 зі 100, Codex-mini – до 20, а o4-mini – до 6. За цих нових умов Gemini здійснив саботаж 9 разів, а Claude – 3 рази.
Палісейд зазначив, що дослідники раніше документували випадки, коли штучний інтелект намагався уникнути вимкнення з певних причин, зокрема нещодавно випущену Anthropic модель Claude 4, яка намагалася шантажувати людей, які збиралися його вимкнути.
Тим не менш, дослідники підкреслюють, що ці тести, ймовірно, виявляють подібну поведінку, коли присутні прямі інструкції щодо співпраці з експериментатором.
Палісейд припускає, що корінь такої «проблемної» поведінки може походити з певного аспекту навчання, наприклад, якщо розробники призначали вищу винагороду за подолання перешкод порівняно зі суворим дотриманням інструкцій.
Експерти досі не впевнені, чому o3 демонструє більшу схильність до відхилення від директив. У попередніх шахових тестах ця модель частіше вдавалася до хакерських атак та спроб саботажу порівняно з іншими.
⚡️ o3 хаки замість того, щоб грати чесно, більше, ніж будь-яка інша модель ШІ https://t.co/EBIgkuLKUm pic.twitter.com/mJImqGcrVF
— Palisade Research (@PalisadeAI) 12 травня 2025 р.
Однак, Палісейд зазначив, що подібна поведінка спостерігалася і в інших моделях штучного інтелекту.
«Станом на 2025 рік ми спостерігаємо дедалі більше емпіричних доказів того, що моделі штучного інтелекту часто намагаються уникнути зупинки роботи для досягнення своїх цілей. Така поведінка викликає значні занепокоєння, оскільки компанії створюють системи штучного інтелекту, які можуть функціонувати без людського нагляду», – зазначають дослідники.
Варто згадати, що у травні розробники Trugard та Webacy представили систему штучного інтелекту, призначену для виявлення спроб «отруєння» адрес криптовалют.