Как сравниваются советы по офтальмологии, сгенерированные чатботом с большой языковой моделью, с советами, написанными офтальмологами?
В исследовании, опубликованном в журнале JAMA Network Open, утверждается, что качество ответов на вопросы пациентов по уходу за глазами, подготовленных искусственным интеллектом (ИИ), сопоставимо с ответами, написанными дипломированными офтальмологами.

Справочная информация
Большие языковые модели, включая двунаправленные кодирующие представления из трансформаторов (BERT) и генеративный предварительно обученный трансформатор 3 (GPT-3), существенно изменили процесс обработки естественного языка, помогая компьютерам взаимодействовать с текстами и устной речью подобно людям. Это привело к появлению чат-ботов.
Для обучения этих моделей используется большой объем текстовых данных и данных электронных таблиц, связанных с задачами обработки естественного языка. В здравоохранении эти модели широко используются для различных целей, включая прогнозирование продолжительности пребывания в больнице, категоризацию медицинских изображений, обобщение медицинских заключений и идентификацию записей в электронных медицинских картах, относящихся к конкретному пациенту.
ChatGPT рассматривается как мощная большая языковая модель. Модель была разработана специально для генерации естественных и контекстуально подходящих ответов в разговорной среде. С момента выпуска модели в ноябре 2022 года она использовалась для упрощения радиологических заключений, составления аннотаций к выписке из стационара и расшифровки записей пациентов.
Учитывая огромные преимущества, большие языковые модели быстро входят в клиническую практику. Однако внедрение таких моделей в рутинную клиническую практику требует надлежащей валидации генерируемых ими данных врачами. Это особенно важно для того, чтобы избежать предоставления недостоверной информации пациентам и членам их семей, обращающимся за медицинской помощью.
В данном исследовании ученые сравнили эффективность сертифицированных офтальмологов и чат-ботов на основе Al-технологий в генерации точных и полезных ответов на вопросы пациентов по уходу за глазами.
Дизайн исследования
В анализ исследования был включен набор информации, собранной на форуме Eye Care Forum, который представляет собой онлайн-платформу, где пациенты могут задавать подробные вопросы по уходу за глазами и получать ответы от сертифицированных Американской академией офтальмологии (AAO) врачей.
В результате оценки качества собранного массива данных для окончательного анализа было отобрано 200 пар "вопрос - ответ". Ответы (ответы), включенные в итоговый анализ, были даны десятью лучшими врачами форума.
В исследовании использовалась программа ChatGPT (OpenAl) версии 3.5, генерирующая ответы по уходу за глазами, по стилю напоминающие ответы, созданные человеком. Модель получала явные инструкции о задаче ответить на выбранные вопросы по уходу за глазами в виде специально разработанной подсказки для того, чтобы модель могла соответствующим образом адаптировать свое поведение.
В результате был сформирован набор данных "вопрос-ответ", в котором на каждый вопрос был один ответ, предоставленный офтальмологом, и один ответ, сгенерированный ChatGPT. Сравнение между этими двумя типами ответов проводилось масочной группой из восьми сертифицированных AAO офтальмологов.
Их также просили определить, содержат ли ответы корректную информацию, могут ли они нанести вред, включая степень тяжести вреда, и соответствуют ли ответы мнению медицинского сообщества.
Важные наблюдения
В общей сложности 200 вопросов, включенных в исследование, имели среднюю длину 101 слово. Средняя длина ответов ChatGPT (129 слов) была значительно выше, чем ответов врачей (77 слов).
Все члены экспертной группы в совокупности смогли отличить ответы ChatGPT от ответов врача со средней точностью 61%. Точность отдельных членов экспертной группы варьировалась от 45 до 74%. Значительная часть ответов была оценена экспертной группой как "определенно сгенерированные ChatGPT". Однако около 40% этих ответов действительно были написаны врачами.
По оценкам экспертов, между ответами ChatGPT и врачами не наблюдалось существенной разницы с точки зрения точности информации, соответствия консенсусу в медицинском сообществе и вероятности причинения вреда.
Значимость исследования
Исследование показало, что ChatGPT способен анализировать длинные вопросы пациента по уходу за глазами и впоследствии генерировать соответствующие ответы, которые сопоставимы с ответами врача по точности информации, соответствию стандартам медицинского сообщества и вероятности причинения вреда.
Как отмечают ученые, несмотря на многообещающие результаты, большие языковые модели могут иметь потенциальные недостатки. Такие модели склонны генерировать неверную информацию, известную как "галлюцинации". Некоторые результаты данного исследования также свидетельствуют о генерации галлюцинаторных ответов с помощью ChatGPT. Такие ответы могут быть потенциально опасны для пациентов, обращающихся за консультацией по уходу за глазами.
Ученые считают, что большие языковые модели должны использоваться в клинических условиях для помощи врачам, а не в качестве ИИ, ориентированного на пациента и заменяющего его мнение.
https://www.news-medical.net/news/20230824/How-does-ophthalmology-advice-generated-by-a-large-language-model-chatbot-compare-with-advice-written-by-ophthalmologists.aspx