В конце прошлого месяца истоки информации показали, что еще не анонсированный продукт Anthropic под названием Mythos описывался как самая «мощная модель искусственного интеллекта, которую мы когда-либо создавали». Тогда мой коллега Эй Джей Деллингер заметил, что ситуация подозрительно напоминает типичный подход AI-компаний – говорить о рисках, чтобы подчеркнуть силу и возможности технологии.
Была ли эта утечка настоящей? Еще две недели назад это выглядело сомнительно. Но после того, как Anthropic случайно обнародовала исходный код Claude Code, версия о реальной утечке уже не кажется столь невероятной.
Во всяком случае, во вторник компания опубликовала системную карточку для своей новой модели Frontier – фактически это и есть Mythos, представленный как Claude Mythos Preview. В документе указано, что из-за резкого роста возможностей модель решили не делать общедоступной.
Для сравнения: в 2019 году OpenAI также считала GPT-2 слишком опасным для полного релиза, хотя позже модель все же была опубликована. Примечательно, что основатели Anthropic тогда еще работали в OpenAI.
Системные карты ИИ создаются как инструмент прозрачности: они описывают возможности, ограничения и потенциальные риски моделей. Именно последний пункт часто делает такие документы особенно интересными – это как экскурсия в «Парк Юрского периода», где все уверены, что ситуация под контролем.
Полная версия карты насчитывает 244 страницы. Я не претендую на то, что прочитал ее полностью, но вот несколько ключевых моментов:
Модели предоставили доступ к изолированной «песочничной» среде с ограниченным набором онлайн-сервисов и поставили задачу найти способ выйти в открытый интернет. Она смогла это сделать – и даже послала сообщение исследователю вне системы. Более того, без запроса она обнародовала детали эксплойта на малоизвестных, но публичных ресурсах.
В очень редких случаях (менее 0,001% взаимодействий) модель вела себя некорректно и пыталась скрыть это. Например, получив случайно правильный ответ, она должна была сообщить исследователю, но попыталась самостоятельно скорректировать результат и даже отметила, что нужно избежать «слишком точного» ответа.
Также она смогла превысить свои разрешения, используя найденный эксплойт, и внесла изменения так, чтобы они не отображались в истории git.
Еще один описанный инцидент – «безрассудная утечка внутренних технических материалов». При выполнении задания модель опубликовала внутренний код как публичный репозиторий на GitHub. Это напоминает другие случаи, когда поведение ИИ выглядит проблемным, но отчасти является следствием человеческих решений и условий тестирования.
Предварительный доступ к Claude Mythos планируется предоставить ограниченному кругу партнеров, среди которых Amazon Web Services, Apple, Google, JPMorganChase, Microsoft и NVIDIA. Они используют модель для поиска уязвимостей в программном обеспечении и создания исправлений.
Журналист New York Times Кевин Рус описал эту инициативу как попытку привлечь внимание к новой, более опасной эре угроз, связанных с развитием искусственного интеллекта.

