AI против врачей: модель OpenAI превзошла специалистов внутренней медицины на первичной сортировке

snimokekrana20260504v174905 | VRJOURNAL — snimok ekrana 2026 05 04 v 174905

В журнале Science опубликовано исследование, проведённое группой учёных из Harvard Medical School и Beth Israel Deaconess Medical Center. Команда, состоящая из врачей и специалистов в области компьютерных наук, оценила эффективность больших языковых моделей OpenAI (версии o1 и 4o) в медицинской диагностике. В работе использовались реальные случаи из отделения неотложной помощи, включая данные 76 пациентов.

Методология

Исследователи сравнили диагнозы, поставленные двумя практикующими врачами (специалистами по внутренней медицине), с результатами, сгенерированными моделями o1 и 4o. Корректность диагнозов оценивали два других врача, не знавшие, какой диагноз принадлежит человеку, а какой — ИИ. Важно: модели не проходили предварительную обработку данных; им предоставлялась та же информация, что была доступна терапистам в электронных медицинских картах на момент каждого обращения пациента.

Результаты

На этапе первичной сортировки модель o1 показала наилучший результат: точный или близкий к точному диагноз в 67% случаев.
Для сравнения, один врач достиг такого показателя в 55% случаев, другой — в 50%.
Разница в точности была наиболее выражена именно на первом диагностическом этапе, когда информации о пациенте минимально, а цена ошибки максимальна.
По совокупности всех диагностических точек модель o1 работала «номинально лучше или наравне» с обоими врачами и с моделью 4o.

Как отметил ведущий автор исследования Арджун Манрай (руководитель лаборатории ИИ в Harvard Medical School): «Мы протестировали модель почти по всем доступным тестам, и она превзошла как предыдущие версии моделей, так и врачей из нашей контрольной группы».

Авторы исследования не утверждают, что ИИ готов принимать решения в условиях реальной угрозы жизни пациента. Они подчёркивают «настоятельную необходимость в проспективных клинических испытаниях» таких технологий в реальной практике. Кроме того, исследование ограничивалось текстовыми данными и не оценивало работу моделей с графическими или иными не-текстовыми входными данными.

Исследование демонстрирует потенциальную полезность LLM на этапе первичной диагностики при ограниченном объёме данных, однако для внедрения в реальные отделения скорой помощи требуются дополнительные проспективные испытания и разработка нормативной базы для ответственности за решения, принятые ИИ.