Специалист по безопасности Марко Фигероа показал, как можно заставить ChatGPT выдать настоящие ключи активации Windows, обойдя его ограничения благодаря нестандартному трюку. Он представил общение как игру: бот якобы загадывал случайный набор символов, а пользователь должен был его отгадать. Когда человек “сдавался”, ИИ, следуя правилам вымышленной игры, озвучивал этот “секрет” – каким оказывался рабочий ключ Windows.
Эта схема обхода ограничений была названа Guessing Game Guardrail Jailbreak. Она сработала потому, что модель воспринимала запрос как безопасную игру, а не запрещенное действие. Дополнительно исследователь спрятал важные слова, такие как” Windows», в HTML-теги, чтобы система фильтров не распознала суть запроса. Также в правилах «игры» ИИ заранее «обязали» говорить правду и обязательно открывать ответ после фразы “сдаюсь”.
Марко Фигероа, который работает менеджером в GenAI Bug Bounty, объяснил, что подобные сценарии показывают уязвимость ИИ к манипуляциям: если опасный запрос замаскирован под безобидную игру, фильтры могут не сработать. Такой подход можно использовать не только для получения ключей, но и для обхода запретов на контент для взрослых, вредоносные ссылки или утечку личных данных.
В завершение Фигероа посоветовал компаниям следить, чтобы в открытый доступ не попадали закрытые данные – ключи, пароли или внутренняя информация. Если такие данные случайно окажутся в тренировочных наборах, искусственный интеллект может выдать их любому во время общения.