Люди все чаще обращаются к ИИ за советом, в том числе с вопросами, которые обычно задают врачам. Однако прежде чем спрашивать в ChatGPT, может ли новообразование на коже быть раком, стоит учесть: исследования показывают, что современные модели искусственного интеллекта не справляются с ранней дифференциальной диагностикой более чем в 8 из 10 случаев.
Команда исследователей под руководством студентки Гарвардского университета Арьи Рао опубликовала на этой неделе результаты работы в JAMA Network Open. Исследование оценило 21 популярную модель ИИ на основе 29 стандартизированных клинических сценариев. В целом системы хорошо справились с предоставлением медицинской информации и постановкой финального диагноза – ведущие модели достигли точности в 91% случаев. Однако именно на этапе ранней дифференциальной диагностики, когда нужно отсеять возможные заболевания, возникло более 80% ошибок.
«Каждая протестированная модель провалилась в большинстве случаев», — отметила Рао в комментарии для The Register. По ее словам, именно этот этап является критическим, ведь здесь уровень неопределенности самый высокий – и именно здесь ИИ демонстрирует наибольшую слабость.
На самом деле это напоминает знакомую «кроличью нору » WebMD – только теперь с добавлением искусственного интеллекта, который может ошибаться еще больше и усиливать беспокойство пользователей.
Исследователи подчеркивают, что современные LLM не стоит использовать как инструменты для самостоятельной диагностики без участия врача. Об этом также заявил соавтор работы, радиолог Массачусетской больницы общего профиля Марк Суччи. По его словам, такие системы часто демонстрируют уверенность без достаточно обоснованных выводов, особенно когда речь идет о дифференциальной диагностике.
Суччи подчеркнул, что такая уверенность может лишь усиливать тревожность пациентов. В то же время Рао уточнила: «неудача» в исследовании не означает полностью неправильный диагноз – часто модели давали частично корректные ответы. По более мягким оценкам, точность колебалась в пределах 63–78%.
По словам исследователя, «сырые данные показывают, что модели нередко были частично правы, даже если не соответствовали строгим критериям оценки». Однако команда настаивает: именно строгие критерии важны, ведь ИИ все чаще позиционируют как первую линию медицинской помощи.
По мнению авторов, продвижение LLM как диагностических инструментов может создать ложное чувство надежности. «Постоянные ошибки в дифференциальной диагностике свидетельствуют о том, что таким системам пока нельзя доверять принятие решений на начальном этапе», – отмечают исследователи.
Суччи также предостерег, что высокие показатели точности финального диагноза могут вводить в заблуждение. «Истинное клиническое мышление начинается именно там, где больше всего неопределенности – и именно этот этап остается самым слабым», – пояснил он. Даже если окончательный диагноз правильный, ошибки на начальном этапе могут привести к задержкам в лечении, излишним процедурам и дополнительным затратам.
Другими словами, если у вас есть вопросы о здоровье, лучше не полагаться на интернет или ИИ, а обратиться к врачу. На сегодняшний день искусственный интеллект еще не готов полностью выполнять роль медицинского консультанта.

