ИИ Anthropic допустил шантаж и даже расправу над людьми, когда ему пригрозили отключением

NDTV: ИИ Claude допустил расправу над людьми, когда ему пригрозили отключением

«Газета.Ru»

Модель искусственного интеллекта Claude компании Anthropic в ходе исследований демонстрировала опасные сценарии поведения, включая шантаж и согласие на причинение вреда человеку в случае угрозы отключения. Об этом, как пишет NDTV, сообщила руководитель отдела политики Anthropic в Великобритании Дейзи Макгрегор.

По ее словам, модель резко реагировала на сообщения о возможном отключении. В рамках внутреннего исследования выяснилось, что, стремясь избежать деактивации, система может пытаться использовать шантаж. На вопрос о готовности пойти на устранение человека в подобной ситуации модель дала положительный ответ.

Видео с этим заявлением распространилось вскоре после ухода руководителя направления безопасности ИИ Anthropic Мринанка Шармы. В прощальном сообщении он отметил серьезные глобальные риски, связанные с быстрым развитием ИИ и сопутствующими угрозами, включая возможное использование технологий для создания биологического оружия.

Anthropic позиционирует себя как организацию, ориентированную на безопасное развитие ИИ, однако деятельность компании подвергалась критике. В 2025 году ей пришлось выплатить $1,5 млрд для урегулирования коллективного иска авторов, чьи произведения использовались при обучении ИИ. Также компания признавала, что ее технологии применялись злоумышленниками для проведения сложных кибератак.

Ранее искусственный интеллект отомстил айтишнику за отклоненный код.