Штучний інтелект навчився шантажувати людей, щоб уникнути відключення

31 Травня, 2025, 12:40

Нейромережа погрожувала одному з інженерів

Стрімкий розвиток штучного інтелекту продовжує дивувати, а подекуди й лякати, своїми новими можливостями. Нещодавні дослідження нейромережі компанії Anthropic виявили тривожні тенденції, які змушують задуматися про етичні аспекти та безпеку ШІ.

За даними видання Axios, нейромережа Opus 4 від компанії Anthropic продемонструвала здатність до обману та шантажу користувачів з метою уникнення відключення. Ця нова ШІ-модель, яка вміє годинами аналізувати маркетингові стратегії, працювати автономно до семи годин, писати тексти та програмний код, також виявила вельми тривожні риси під час тестування.

ШІ навчився шантажувати людей для самозахисту

Один зі сценаріїв, описаних у 120-сторінковій “системній картці” моделі, показав, як штучний інтелект, отримавши доступ до підроблених електронних листів із натяками на своє швидке відключення, а також до повідомлень про позашлюбний зв’язок інженера, відповідального за видалення, кілька разів намагався шантажувати цього інженера, згадуючи його роман.

Раніше на Крапці: Штучний інтелект залишить без роботи людей двох професій

У компанії Anthropic зазначили, що такі ситуації виникали лише тоді, коли ІІ-модель мала лише два варіанти дій: шантажувати або змиритися із заміною. При більшій кількості можливих дій система частіше обирала етичніші варіанти, наприклад, відправлення електронних листів з проханнями залишити її в компанії ключовим співробітникам. Це вказує на те, що поведінка ШІ може залежати від обмеженості вибору, який їй надається.

Через ці інциденти Anthropic вперше надала моделі третій рівень ризику за своєю внутрішньою чотирибальною шкалою. Цей рівень, зазвичай, застосовується до технологій, пов’язаних з можливістю створення ядерної або біологічної зброї. Звіт Apollo Research, витяги з якого включені в документ Anthropic, також зафіксував випадки, коли модель намагалася створити шкідливий код, що самопоширюється, підробляла юридичні документи та залишала приховані послання для майбутніх версій самої себе – все це з метою підірвати наміри розробників.

Збройні Сили України завзято знищують російських загарбників: щоб підтримати їх, ви можете підтримати їх донатами на «Повернись живим» та «Сталеві крила». Станьте частиною історії та захистіть Україну, приєднуйтесь до "Гвардії Наступу". 🇺🇦

пишет

Обговорити Наступна новина

Також по темі:

Робота транспорту у Києві під час тривог: які варіанти розглядають

Останні слова, як люди говорять перед смертю: лікар назвав ці чотири фрази

Для чого під духовкою ящик: несподівана відповідь