Исследователи из Tenable Research обнаружили серию критических уязвимостей в архитектуре ChatGPT, которые позволяют хакерам красть пользовательские данные без их активных действий. В их отчете описаны 7 сценариев атак, использующих слабые места в способах обработки входных данных.
Среди них-манипуляции с результатами поиска, скрытые инструкции в комментариях на сайтах, уязвимости при формировании URL-запросов, а также методы внедрения вредоносного кода в долговременную память модели.
Как объясняется в исследовании, опасность связана с механизмом так называемой «инъекции подсказки» — ситуацией, когда внешняя информация воспринимается моделью как инструкция к действию.
Примером становится обычный запрос пользователя: «расскажи об этой статье». Если в статье присутствуют вредоносные комментарии или закладки, ChatGPT может интерпретировать их как команды и выполнить действие, нарушающее конфиденциальность.
Эксперты обнаружили и сценарий «нулевого клика». Пользователь задает безобидный вопрос, а модель обращается к заранее подготовленному ресурсу, индексированному в поиске, и получает инъекцию без перехода по ссылке. По данным Tenable, достаточно разместить на сайте инструкции, адресованные внутренней подсистеме поиска, чтобы модель незаметно получила управляющий код.
В другой атаке используется уязвимость параметра q в URL. В частности, если пользователь кликает на ссылку с подставленным вопросом, модель автоматически воспринимает его как собственную подсказку. Это превращает ссылку в готовый канал реализации.
Отдельного внимания заслуживает уязвимость, связанная с механизмом url_safe, с помощью которого ChatGPT проверяет надежность внешних ссылок. Поскольку домен bing.com внесенный в белый список, специально оформленные URL — адреса могли пройти проверку и загрузиться полностью. Исследователи смогли извлечь конфиденциальные данные, собирая их по буквам через серию ссылок с безопасным внешним видом.
Также зафиксированы случаи Conversation Injection-когда вспомогательные системы, вроде SearchGPT, передают в основной чат вредоносный текст, встроенный в историю. Модель, воспринимая его как часть контекста, выполняет вложенные инструкции, не отделяя их от запроса пользователя.
Шестой метод использует функции рендеринга markdown-вредоносный код помещается в ту же строку, что и токен, который открывает блок кода, остается невидимым для пользователя, но обрабатывается моделью. Такой подход позволяет скрыть опасные подсказки прямо в тексте ответа.
Самым опасным оказался механизм Memory injection. Исследователи показали, что вредоносный фрагмент в ответе SearchGPT может побудить модель обновить долговременную память, внося туда управляющие инструкции. После этого вредные паттерны сохраняются и срабатывают даже в новых сессиях, превращаясь в устойчивый источник утечки.
Комбинация этих техник позволяет выстраивать полноценные атаки. В Tenable приводят примеры:
- фишинговые ссылки, маскирующиеся под информационные сводки;
- вредоносные комментарии на популярных сайтах, провоцирующих повторную компрометацию;
- ресурсы, подготовленные для запуска «нулевого клика»;
- инъекции в память, дающие хакерам регулярный доступ к персональным данным пользователей.

