Специалисты Института Allen Institute представили площадку SciArena, позволяющую оценить полезность ИИ-моделей для ученых. К работе на площадке допускаются только исследователи по меньшей мере с двумя собственными публикациями, а перед этим они проходят часовой инструктаж.
На SciArena ученый задает вопрос, к которому система подбирает научные статьи из базы Semantic Scholar и затем передает их двум случайно выбранным ИИ-моделям. Те с опорой на предоставленный им материал пишут подробные ответы, а ученые выбирают лучший из них. Лишь после этого раскрывается название одержавшей победу модели.
На текущий момент лидером стала ChatGPT o3 с рейтингом в 1172 балла. За ним следуют Claude Opus 4 (1080), Gemini 2.5 Pro (1063), DeepSeek R1-0528 (1062) и ChatGPT o4-mini (1054). ChatGPT o3 также оказался лучшим во всех четырех популярных категориях-инженерных науках, здравоохранении, естественных науках, гуманитарных и социальных дисциплинах.
Стоит отметить, что SciArena в первую очередь ориентирована на профессиональных ученых, и в своей работе опирается только на подлинную и проверенную информацию.