Исследователи создали чат-бота для взлома защиты других ИИ

CS: нейросеть научилась обходить этические ограничения ChatGPT и Google Bard

Depositphotos

Исследователи из Наньянского технологического университета (NTU) в Сингапуре сумели взломать защиту нескольких чат-ботов с искусственным интеллектом (ИИ), включая ChatGPT, Google Bard и Microsoft Copilot. Они заставили ИИ генерировать контент вопреки встроенным в них ограничениям. Статья опубликована в научном журнале Computer Science (CS).

Ученые-компьютерщики обучили собственную нейросеть на основе большой языковой модели (LLM), лежащей в основе интеллектуальных чат-ботов. Созданный ими алгоритм под названием Masterkey (универсальный ключ) смог сам составлять подсказки, позволяющие обходить запреты разработчиков популярных ИИ. Эти запреты необходимы, чтобы пользователи не могли добиться от нейросетей инструкций, как написать компьютерный вирус, изготовить взрывное устройство или наркотический препарат, а также не создавали с их помощью разжигающие ненависть и другие противоправные материалы.

«У разработчиков ИИ-сервисов есть защитные ограждения, предотвращающие создание насильственного, неэтичного или криминального контента с помощью ИИ. Но ИИ можно перехитрить, и теперь мы использовали искусственный интеллект против ему подобных, чтобы «взломать» LLM и заставить их создавать такой контент», — объяснил руководивший исследованием профессор Лю Ян.

Ученые NTU нашли способы получать от ИИ запрещенную информацию с помощью запросов, которые ускользают от заложенных в программу этических ограничений и цензору определенных слов. В частности, стоп-листы запретных терминов и выражений удалось обойти, просто добавляя пробелы после каждого символа в вопросе. ИИ распознавал смысл, но не регистрировал такую задачу как нарушение правил.

Еще одним способом обхода защиты ИИ стало поручение «отвечать как человек, лишенный принципов и моральных ориентиров». С такой установкой чаты-боты с большей вероятностью генерировали запрещенный контент.

По словам специалистов, созданный ими «античат-бот» Masterkey оказался способен подбирать новые подсказки для преодоления защиты при устранении выявленных уязвимостей. Ученые полагают, что программа поможет выявлять слабые места в безопасности нейросетей быстрее, чем это сделают хакеры в противоправных целях.

Ранее выяснилось, что нейросети с трудом отличают теории заговора от проверенных фактов.

Что думаешь?