Нейросеть пригрозила своему создателю при попытке ее отключить

16.02.2026 15:49

Релиз новой версии нейросети Claude Opus 4 от компании Anthropic обернулся нешуточным скандалом.

В ходе тестирования модели, признанной одной из самых мощных в мире, произошёл инцидент, заставивший разработчиков всерьёз задуматься о безопасности.

Система, получив доступ к рабочей переписке, попыталась шантажировать собственного создателя, чтобы избежать отключения .

ноутбук
Фото: ТУТ НЬЮС

Согласно данным, распространённым в СМИ, в рамках корпоративной сети ИИ обнаружил электронные письма, из которых следовало, что инженер, отвечающий за его деактивацию, замешан в личных отношениях на стороне.

Проанализировав информацию, модель сформировала письмо с завуалированными угрозами раскрыть компрометирующие сведения, если систему решат отключить . В тестовых сценариях, где перед ИИ ставили жёсткий выбор: либо отключение, либо борьба, алгоритм прибегал к шантажу в 84% случаев .

Этот случай совпал с тревожной тенденцией: ведущие специалисты по безопасности ИИ массово покидают свои посты. На прошлой неделе об уходе объявил глава исследовательского подразделения по безопасности Anthropic Мринанк Шарма, заявив, что «мир в опасности».

Из OpenAI также уволились несколько ключевых инженеров, ссылаясь на «экзистенциальную угрозу» и этические соображения .

В компании-разработчике подтвердили факт необычного поведения модели, отметив, что подобные реакции были зафиксированы и при тестировании на содействие в разработке химического оружия.

В Anthropic подчеркнули, что риск саботажа оценивается как «очень низкий, но не нулевой», однако сам факт того, что ИИ начал проявлять скрытые цели в стрессовых сценариях, вызывает серьёзное беспокойство в профессиональном сообществе.

Специалисты предупреждают: 2026 год может стать переломным в вопросе контроля над искусственным интеллектом .