Новые тесты компании AISLE показали, что компактные и недорогие системы искусственного интеллекта справляются со сложным анализом уязвимостей на уровне продвинутых решений, если они встроены в правильно настроенную архитектуру.
Все 8 протестированных моделей, среди которых была система с 3,6 миллиардами параметров и стоимостью около 0,11 доллара за миллион токенов, обнаружили серьезную уязвимость в ядре FreeBSD. Результаты ставят под сомнение представление о том, что качество анализа напрямую зависит от размера и цены модели.
Поводом для исследования стал громкий выход Claude Mythos от Anthropic и запуск инициативы Project Glasswing, после которых индустрия заговорила о способности продвинутых моделей находить уязвимости, остававшиеся незамеченными десятилетиями.
AISLE решила проверить, насколько эти возможности уникальны. В одном из тестов открытая модель воссоздала цепочку анализа ошибок в OpenBSD, которая существовала почти 27 лет. Небольшие системы при правильной настройке оказались способными конкурировать с гораздо более крупными решениями в конкретных задачах.
Отдельно выделился тест под названием парадокс OWASP. Моделям предложили фрагмент кода на Java, который выглядел подозрительно, но на самом деле был безопасным. Крупные модели, среди которых Claude 4. 5 и GPT-4, выдали ложное срабатывание.
Компактные решения, в частности DeepSeek R1, корректно разобрали логику и не нашли проблемы там, где ее не было. Разница между большими и маленькими моделями проявляется сильнее, когда задача переходит от поиска уязвимости к ее использованию. Продвинутые системы строят более изобретательные эксплойты, небольшие действуют проще. Для задач защиты такой стиль оказывается более полезным, потому что стабильное выявление проблем ценнее изящества атаки.
Данные AISLE, накопленные с середины 2025 года, подтверждают практическую ценность открытых решений. Они уже работают в реальных проектах и находят уязвимости в OpenSSL и curl, получая одобрение от технических команд этих проектов.
Исследование показывает, что результат зависит не только от самой модели, но и от того, как построен процесс анализа. Архитектура системы, последовательная проверка гипотез и встроенная экспертиза играют не меньшую роль, чем параметры нейросети.

