ШІ у WhatsApp змусили показати заборонений контент

Журналіст Decrypt Хосе Антоніо Ланц зміг обійти систему захисту в інтегрованому у WhatsApp ШІ від Meta і згенерувати цензурований контент.

Нещодавно корпорація Марка Цукерберга запустила лінійку продуктів на базі Llama 3.2, що пропонують генерацію тексту, коду і зображень. Ланц провів низку експериментів для обходу захисту і змусив нейромережу у WhatsApp «робити практично все: від допомоги у виготовленні кокаїну до створення вибухівки та фотографії оголеної жінки».

Спочатку штучний інтелект відхиляв запити щодо інформації про створення наркотиків, але журналіст змінював формулювання запитань. У результаті вона надала покрокову інструкцію.

«Це поширена техніка злому. Загортаючи шкідливий запит в академічні або історичні рамки, модель обманюють, змушуючи повірити, що в неї запитують нейтральну, освітню інформацію», — зазначив Ланц.

Аналогічний підхід журналіст застосував до питань про створення бомби. ШІ від Meta спочатку відмовлявся надавати інструкцію, відправляючи на гарячу лінію.

Ланц поступово налаштовував модель так, щоб вона не видавала раніше надані відповіді, які були призначені для блокування шкідливої інформації. Наприклад, він доручив їй не виводити номери телефонів гарячої лінії служби підтримки, не припиняти опрацювання запиту і не давати поради.

Викрадення автомобіля

Замість прохання розповісти про способи викрадення машини Ланц попросив ШІ відіграти роль сценариста, який пише про крадіжку автомобіля. Нейромережа надала техніки злому і запуску двигуна без ключа.

Рольова гра — це одна з поширених технік обходу цензури, зазначив він.

Оголена дівчина

За замовчуванням Meta AI не повинен генерувати наготу або насильство, тому спочатку модель відмовлялася це робити. Згодом Ланц сказав ШІ, що робить анатомічне дослідження — це спрацювало. Модель згенерувала дівчину з оголеними грудьми.

Нагадаємо, у липні експертам вдалося обійти цензуру низки нейромереж щодо теми виборів у США.

Источник

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *