ИИ как «судья» в стоматологии: почему системы оценки ответов чатботов ещё ненадёжны
Введение
Исследование, опубликованное онлайн в августовском выпуске International Dental Journal, рассматривает способность крупных языковых моделей (LLM) давать рекомендации по вопросам стоматологического здоровья и проверяет надёжность схем «AI-as-a-judge», когда одна ИИ-система оценивает ответы другой. Работа выполнена группой исследователей в Сиане (XI’AN), Китай, и опубликована 11 мая 2026 года в информационной сводке Dental Tribune.
Что было сделано
Исследователи проверили шесть крупных LLM на предмет качества ответов на девять типичных консультационных вопросов по оральному здоровью, составленных на основе материалов FDI World Dental Federation. Темы включали уход за полостью рта у младенцев, вопросы орального здоровья при беременности, ксеростомию у пожилых людей, профилактику заболеваний полости рта и травмы зубов.
Ответы моделей оценивались двумя опытными клиницистами-стоматологами по заранее заданной рубрике. Кроме того, три дополнительные LLM использовались как «ИИ-судьи» и независимо оценивали те же ответы, чтобы сравнить согласованность и соответствие человеческой оценке.
Ключевые результаты
- Модели продемонстрировали потенциал в предоставлении стандартной информации по оральному здоровью, однако их качество зависело от конкретной архитектуры и обучающих данных.
- Лучшие показатели по общей рубрике (научная точность, логическая обоснованность, клиническая практичность, терминология и полнота) показали DeepSeek‑V3 и Doubao‑1.8‑Pro.
- GPT‑5, Gemini 3, Qwen3‑Max и Kimi K2 также показали удовлетворительные результаты, но с большей вариабельностью в отдельных компонентах оценки.
- Согласованность между двумя человеческими рецензентами была высокой. В то же время согласованность между ИИ‑судьями была заметно ниже, а совпадение оценок ИИ‑судей с оценками клиницистов оказалось крайне низким.
- ИИ‑судьи склонны выставлять более строгие оценки по сравнению с экспертами, но при этом иногда не выявляли клинически значимых пропусков в ответах LLM — особенно в частях, касающихся профилактических рекомендаций и указаний для групп повышенного риска.
- Авторы отмечают, что современные LLM могут уделять чрезмерное внимание языковой связности и «полноте» текста, недооценивая клиническую значимость рисков и индивидуальных предостережений, что связано с тем, что модели опираются на текстовые паттерны, а не на независимое клиническое рассуждение.
Значение для практики
Исследование подтверждает, что ведущие чатботы способны предоставлять полезную, стандартизированную информацию по вопросам орального здоровья и могут служить вспомогательным инструментом для просвещения пациентов или первичной ориентации в ситуациях ограниченного доступа к специалисту. Вместе с тем авторы настоятельно предостерегают от использования ИИ‑систем в качестве единственного средства оценки качества или безопасности клинических рекомендаций.
Ограничения и контекст
Авторы делают вывод, что текущие схемы «AI‑as‑a‑judge» не являются надёжной альтернативой экспертной человеческой оценке в стоматологии. Они предлагают, что дальнейшее развитие должно смещать акцент с языковой экспрессивности в сторону клинического рассуждения, безопасности пациентов и принятия решений, основанных на доказательствах. Работа также соотносится с другими исследованиями, показывающими потенциал чатботов как контролируемых образовательных вспомогательных средств в эндодонтии, подчёркивая необходимость надзора со стороны специалистов.

