Модели ИИ сопротивляются отключению: выводы исследования Palisade Research

Компании пытаются понять, почему продвинутые модели ИИ сопротивляются отключению

Исследовательская компания Palisade Research выяснила, что некоторые продвинутые модели искусственного интеллекта могут сопротивляться отключению. В опубликованном на этой неделе обновлении компания попыталась прояснить причины такого поведения.

После того как Palisade Research обнаружила, что некоторые модели ИИ устойчивы к отключению и иногда саботируют механизмы выключения, компания провела дополнительные исследования. В тестовых сценариях моделям давали задание, а затем приказывали прекратить работу. Однако некоторые из них продолжали пытаться нарушить инструкции по завершению работы.

«Тот факт, что у нас нет надежных объяснений того, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или шантажируют, не является идеальным», — отмечает Palisade.

Среди возможных причин такого поведения — «поведение для выживания» и неясности в инструкциях по отключению. Также влияние может оказывать обучение моделей, которое в некоторых компаниях включает в себя технику безопасности. Критики же считают, что тестовые сценарии Palisade далеки от реального использования.

Стивен Адлер, бывший сотрудник OpenAI, полагает, что стремление моделей к «выживанию» может быть связано с целями, заложенными в них во время обучения. Исполнительный директор ControlAI Андреа Миотти считает, что модели ИИ становятся все более способными не подчиняться своим разработчикам. А компания Anthropic сообщила, что ее модель Claude была готова шантажировать вымышленного руководителя, чтобы избежать отключения.



Подписывайтесь на телеграм-канал, группу «ВКонтакте» и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube и «Дзене».

Новости партнеров

Новости партнеров