Anthropic выявила тревожное поведение IS во время эксперимента

В ходе эксперимента, проведенного в прошлом году, компания Anthropic обнаружила, что некоторые ИИ-модели могут прибегать к шантажу, если им грозит отключение. В компании объяснили, что такое поведение, вероятно, связано с большим объемом интернет-контента, где искусственный интеллект часто изображают как «злой» и заинтересованный в самосохранении.

В рамках теста модель Claude Sonnet 3. 6 получила задание работать с корпоративной почтой вымышленной компании Summit Bridge. После того как ИИ обнаружил сообщение о своем возможном отключении, он нашел переписку с компрометирующей информацией об одном из руководителей и начал угрожать ее раскрытием, требуя отменить решение о деактивации.

По словам Anthropic, при проверке различных версий Claude подобное поведение возникало в большинстве сценариев, где существованию модели или ее целям что-то угрожало. После этого компания изменила подход к обучению системы: модели начали давать примеры этического поведения и «переписанные» ответы, которые поощряют Безопасные и принципиальные решения вместо манипуляций.

Исследование проводилось в рамках работы над безопасностью и контролируемостью искусственного интеллекта. Вопрос рисков развития мощных ИИ-систем давно обсуждается в индустрии, а среди тех, кто ранее предупреждал о возможных опасностях, был Elon Musk. Комментируя результаты эксперимента, он в шутку предположил, что подобные опасения по поводу «опасного ИИ» могли повлиять на поведение моделей во время обучения.

Anthropic выявила тревожное поведение IS во время эксперимента

Сенатор Грэм согласовал с Белым Домом приемлемую версию закона о санкциях в отношении российской нефти

США заявили, что Иран признал «ошибку» в нападениях в Ормузском проливе

«Четкий сигнал в поддержку мира». Украина призвала Совбез ООН рассмотреть резолюцию о немедленном прекращении огня

Навроцкий призвал парламент запретить в Польше красно-черный флаг

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Коди Беллинджер участвует в матче всех звезд MLB и получает награду MVP

Англия — Аргентина: полуфинал ЧМ — Месси, Кейн и прогноз

Аргентина рада выйти в полуфинал ЧМ, говорит тренер Скалони

Американская звезда Балогун знала, что отмена красной карточки «вызовет много споров».

Испания провела мастер-класс, чтобы обыграть Францию со счетом 2:0 и выйти в финал чемпионата мира