Их выводы вызывают обеспокоенность по поводу качества доказательств, лежащих в основе многих из этих исследований, и подчеркивают необходимость улучшения их стандартов проектирования и отчетности.
Искусственный интеллект (ИИ) – это инновационная и быстро развивающаяся область, способная улучшить уход за пациентами и облегчить перегруженные медицинские услуги. Глубокое обучение является отраслью ИИ, которая показала особые перспективы в медицинской визуализации.
Объем опубликованных исследований в области глубокого обучения растет, и некоторые заголовки в СМИ, которые заявляют о превосходной эффективности работы врачей, вызвали ажиотаж для быстрого внедрения. Но методы и риск предвзятости исследований за этими заголовками не были подробно изучены.
Чтобы решить эту проблему, группа исследователей рассмотрела результаты опубликованных исследований за последние 10 лет, сравнив эффективность алгоритма глубокого обучения в медицинской визуализации с опытными клиницистами.
Они нашли только два подходящих рандомизированных клинических испытания и 81 нерандомизированное исследование.
Из нерандомизированных исследований только девять были проспективными (отслеживание и сбор информации о людях с течением времени), и только шесть были протестированы в клинических условиях «реального мира».
Среднее число человеческих экспертов в группе сравнения составляло всего четыре, в то время как доступ к необработанным данным и коду (для независимой проверки результатов) был строго ограничен.
Более двух третей (58 из 81) исследований были оценены как имеющие высокий риск предвзятости (проблемы в дизайне исследования, которые могут повлиять на результаты), и соблюдение признанных стандартов отчетности часто было плохим.
Три четверти (61 исследование) заявили, что показатели ИИ, по крайней мере, сопоставимы (или лучше) с показателями клиницистов, и только 31 (38%) указали, что необходимы дальнейшие проспективные исследования или испытания.
Исследователи указывают на некоторые ограничения, такие как возможность пропущенных исследований и акцент на глубоких исследованиях медицинских изображений, поэтому результаты могут не относиться к другим типам ИИ.
Тем не менее, они говорят, что в настоящее время «существует много преувеличенных утверждений об эквивалентности (или превосходстве над) клиницистов, что представляет потенциальный риск для безопасности пациентов и здоровья населения на уровне общества».
Излишне многообещающий язык «делает исследования восприимчивыми к тому, что средства массовой информации и общественность неправильно их истолковывают, и, как следствие, к возможному оказанию ненадлежащего ухода, который не обязательно соответствует интересам пациентов», предупреждают они.
«Обеспечение максимальной безопасности пациентов будет лучше всего обеспечено, если мы будем развивать высококачественную и прозрачно сообщаемую базу данных в будущем», – заключают они.