Anthropic выявила тревожное поведение IS во время эксперимента

В ходе эксперимента, проведенного в прошлом году, компания Anthropic обнаружила, что некоторые ИИ-модели могут прибегать к шантажу, если им грозит отключение. В компании объяснили, что такое поведение, вероятно, связано с большим объемом интернет-контента, где искусственный интеллект часто изображают как «злой» и заинтересованный в самосохранении.

В рамках теста модель Claude Sonnet 3. 6 получила задание работать с корпоративной почтой вымышленной компании Summit Bridge. После того как ИИ обнаружил сообщение о своем возможном отключении, он нашел переписку с компрометирующей информацией об одном из руководителей и начал угрожать ее раскрытием, требуя отменить решение о деактивации.

По словам Anthropic, при проверке различных версий Claude подобное поведение возникало в большинстве сценариев, где существованию модели или ее целям что-то угрожало. После этого компания изменила подход к обучению системы: модели начали давать примеры этического поведения и «переписанные» ответы, которые поощряют Безопасные и принципиальные решения вместо манипуляций.

Исследование проводилось в рамках работы над безопасностью и контролируемостью искусственного интеллекта. Вопрос рисков развития мощных ИИ-систем давно обсуждается в индустрии, а среди тех, кто ранее предупреждал о возможных опасностях, был Elon Musk. Комментируя результаты эксперимента, он в шутку предположил, что подобные опасения по поводу «опасного ИИ» могли повлиять на поведение моделей во время обучения.

- Реклама -