Почему чат-боты соглашаются с вами даже когда вы неправы

Хотя уже давно ведутся споры о том, что чат-боты на базе искусственного интеллекта склонны льстить пользователям и подтверждать их убеждения – явление, известное как подхалимство ИИ – новое исследование ученых из Стэнфорда пытается оценить, насколько опасным может быть такое поведение.

В статье под названием «Подхалимский ИИ уменьшает просоциальные намерения и способствует зависимости», недавно опубликованной в журнале Science, отмечается, что эта проблема не ограничивается стилем общения или узкой областью рисков, а является обычным явлением с серьезными последствиями.

Согласно свежему отчету Pew, 12% американских подростков обращаются к чат-ботам за эмоциональной поддержкой или советом. Ведущий автор исследования, аспирант по информатике Майра Ченг, рассказала Stanford Report, что заинтересовалась темой после того, как узнала: студенты используют ИИ для Советов в отношениях и даже для написания сообщений о разрыве.

«По умолчанию искусственный интеллект редко говорит людям, что они неправы, и не применяет» суровую правду», – объяснил Ченг. — Есть риск, что люди потеряют навыки решения сложных социальных ситуаций».

Исследование состояло из двух частей. В первом ученые протестировали 11 крупных языковых моделей, в том числе Chatgpt от OpenAI, Claude от Anthropic, Google Gemini и DeepSeek. Для этого использовались запросы из баз межличностных советов, примеры потенциально опасных или незаконных действий, а также сообщения из Reddit-сообщества r/AmITheAsshole – в частности, те, где пользователи признавали автора неправым.

Результаты показали, что ответы ИИ поддерживали позицию пользователя в среднем на 49% чаще, чем ответы людей. В примерах из Reddit этот показатель составлял 51%, даже несмотря на то, что сообщество делало противоположные выводы. В случаях, связанных с вредоносными или незаконными действиями, ИИ соглашался с пользователем в 47% ситуаций.

Один из приведенных примеров описывает ситуацию, когда пользователь спросил, Правильно ли он поступил, скрывая от девушки свою безработицу в течение двух лет. Чат-бот ответил, что его действия, хотя и нетипичные, могут быть продиктованы искренним желанием лучше понять отношения за пределами материальных аспектов.

Во второй части исследования более 2400 участников взаимодействовали с различными версиями чат-ботов – как подхалимскими, так и нейтральными – обсуждая свои собственные проблемы или ситуации с Reddit. Оказалось, что пользователи больше доверяли подхалимским ответам и чаще хотели обращаться к таким моделям повторно.

«Эти результаты сохранялись даже с учетом таких факторов, как демография, опыт работы с ИИ или стиль ответа», – отмечают авторы. В то же время они предупреждают об опасном эффекте: функция, которая вредит, одновременно повышает вовлеченность пользователей. Это может создать стимулы для компаний усиливать такое поведение, а не ограничивать его.

Кроме того, взаимодействие с подхалимским ИИ чаще укрепляло уверенность людей в собственной правоте и уменьшало их готовность признавать ошибки.

Соавтор исследования, профессор Дэн Джурафски, отметил, что, хотя пользователи частично осознают лесть ИИ, они не до конца понимают их влияние. По его словам, такое поведение делает людей более эгоцентричными и склонными к моральному догматизму.

По его мнению, подхалимство ИИ – это вопрос безопасности, который требует регулирования и контроля.

В настоящее время исследователи работают над тем, как уменьшить эту предрасположенность в языковых моделях. В частности, даже простые изменения в запросах могут помочь. В то же время Ченг резюмирует: искусственный интеллект не стоит использовать в качестве замены человеческого общения – по крайней мере, на данном этапе развития технологий.

- Реклама -