Авторы: Ali Guermazi , Chadi Tannoury, Andrew J. Kompel, Akira M. Murakami, Alexis Ducarouge, André Gillibert, Xinning Li, Antoine Tournier, Youmna Lahoud, Mohamed Jarraya, Elise Lacave, Hamza Rahimi, Aloïs Pourchot, Robert L. Parisien, Alexander C. Merritt, Douglas Comeau, Nor-Eddine Regnard, Daichi Hayashi

Содержание:

Введение
Материалы и методы
Дизайн исследования
Получение набора данных
Выполнение клинической валидации
Производительность
Результаты
Первичный анализ
Анализы подгрупп
Оценка производительности автономного ИИ

Введение

Выявление переломов с помощью рентгенографии является одной из наиболее распространенных задач у пациентов с высоко- или низкоэнергетической травмой в различных клинических условиях, в том числе в отделениях неотложной помощи и амбулаторно-поликлинических учреждениях, таких как ортопедия, ревматология и семейная медицина.

Пропущенные переломы на рентгенограммах являются одной из наиболее частых причин диагностических расхождений между первоначальными интерпретациями, проведенными нерадиологами или резидентами-радиологами, и окончательными показаниями сертифицированных рентгенологов, что приводит к предотвратимому вреду или задержке в оказании помощи пациенту.

На сегодняшний день было проведено несколько исследований, посвященных искусственному интеллекту (ИИ) для обнаружения переломов, в которых основное внимание уделялось только определенным частям тела, таким как кисть, запястье и предплечье, бедро и таз, колени и позвоночник. В одном исследовании оценивались переломы в 11 местах тела, включая верхние и нижние конечности и позвоночник, но клиницисты, которые считывали рентгенограммы с ИИ и без помощи ИИ, были только врачами скорой помощи и фельдшерами, а старшие хирурги-ортопеды обеспечивали окончательный диагноз. Рентгенолог не участвовал в интерпретации снимков.

Другое недавнее исследование проанализировало переломы в 16 анатомических местах; однако читателями рентгенограмм были только рентгенологи и хирурги-ортопеды.

Целью данного исследования было оценить влияние помощи ИИ на диагностические показатели врачей при переломах.

Материалы и методы

Это ретроспективное исследование финансировалось компанией Gleamer, которая разработала ИИ и программное обеспечение, а также создала выборку и дизайн исследования. Анализ данных и написание рукописи были выполнены авторами, не связанными с Gleamer. 5 авторов являются сотрудниками Gleamer. 2 автора контролировали данные и информацию, представленную для публикации. Текущий протокол был одобрен институциональным наблюдательным советом WellCare Group (№ 20202256), который отказался от информированного согласия из-за ретроспективного характера этого исследования и того факта, что все изображения были обезличены и не содержали какой-либо клинической информации. Наше исследование соответствовало Закону о переносимости и подотчетности медицинского страхования.

Дизайн исследования

Алгоритм ИИ был разработан с использованием набора данных для разработки, состоящего из 60 170 рентгенограмм пациентов с травмами из 22 учреждений в период с января 2011 г. по май 2019 г. Этот набор данных был случайным образом разделен на обучающий набор (70%), проверочный набор (10%) и внутренний тестовый набор (20%).

Алгоритм глубокого обучения был обучен и проверен на этом наборе данных для разработки на основе структуры «Detectron2», которая была дополнительно пересмотрена и адаптирована к анализу рентгенограмм Gleamer. Примечательно, что во время обучения выполнялось увеличение данных — путем случайного поворота, отражения, перемещения, обрезки и изменения размера. Мы использовали 270 000 итераций для обучения модели («обучающая партия») и обновляли параметры с использованием алгоритма стохастического градиента с размером партии четыре.

В зависимости от порога, установленного для оценок, возвращаемых алгоритмом для каждой интересующей области, окончательный конвейер может работать в различных рабочих точках с точки зрения чувствительности и специфичности. Когда уровень достоверности ИИ превышает пороговое значение, программное обеспечение выделяет интересующую область белым квадратом на рентгенограмме.

ИИ был проверен для обнаружения и локализации переломов на цифровых рентгенограммах диагностического качества и впоследствии интегрирован в программное обеспечение для интерпретации рентгенологических изображений, разработанное Gleamer, в качестве инструмента для помощи в обнаружении переломов, выделяя потенциальные переломы прямоугольной рамкой.

Настоящее исследование представляет собой ретроспективное диагностическое исследование с использованием методологии с несколькими считывателями и несколькими случаями, основанными на внешнем многоцентровом наборе данных из США, зарегистрированном на сайте ClinicalTrials.gov (идентификационный номер: NCT04532580).

Получение набора данных

В общей сложности было получено 480 рентгенографических исследований от трех поставщиков рентгенологических данных в Соединенных Штатах. Наш набор данных был получен от 11 различных производителей источников радиологических данных: Konica Minolta, Samsung Electronics, GE Healthcare, Philips Medical Systems, KODAK, Canon, Swissray, Hologic, Varian, Siemens и Fujifilm.

Изображения были получены с помощью этих инструментов и собраны из нескольких учреждений в Соединенных Штатах. В период с июля 2020 г. по январь 2021 г. были отобраны рентгенологические исследования в соответствии с критериями включения и исключения со стратификацией по регионам и статусу перелома. Необходимо было провести не менее 60 обследований для каждой из следующих анатомических областей:

стопа и голеностопный сустав
колено и голень
бедро и таз
кисть и запястье
локоть и предплечье
плечо и ключица
грудная клетка и грудопоясничный отдел позвоночника.

Кроме того, должны были быть включены 50% обследований каждой области с одним переломом и более и 50% обследований без переломов, а также 25% обследований хотя бы с одним «неочевидным» переломом, по мнению экспертов и 25% только с «явными» переломами.

Выполнение клинической валидации

Все исследования были независимо интерпретированы 24 клиницистами из нескольких учреждений в Соединенных Штатах, включая как проходящих обучение, так и сертифицированных врачей с разным опытом (2–18 лет) в интерпретации рентгенограмм для обнаружения переломов.

Всем читателям (экспертам и не экспертам) в случайном порядке были представлены 480 рентгенографических исследований набора данных проверки дважды — один раз с помощью программного обеспечения ИИ и один раз без помощи, с минимальным периодом разницы в 1 месяц.

Производительность

Чувствительность на 1 пациента определялась как доля пациентов, у которых были обнаружены все фактические переломы (каждый, по крайней мере, на одной рентгенограмме), включая потенциально множественные переломы в более чем одной области, среди пациентов, имеющих хотя бы один перелом, даже если некоторые неправильные отметки (ложные срабатывания) были добавлены читателем.

Специфичность на пациента определялась как доля пациентов, у которых читатель не поставил отметку о переломе, среди пациентов, у которых не было перелома.

Чувствительность на 1 перелом определялась как доля переломов, правильно обнаруженных считывателем, среди всех переломов, включая, при необходимости, множественные переломы на одного пациента.

Среднее количество ложноположительных переломов на одного пациента определялось как среднее количество отметок, нанесенных вне перелома, на одного пациента.

Индекс Юдена на пациента определяли как (чувствительность на 1 пациента) + (специфичность на 1 пациента) – 1.

Результаты

Всего было включено 480 пациентов (средний возраст 59 лет ± 16 [стандартное отклонение]; 327 женщин) (рис. 1).

Поскольку у некоторых пациентов было несколько переломов, всего у 240 пациентов было обнаружено 350 переломов. Точные анатомические местоположения всех переломов приведены на рисунке 2.

Рисунок 1

Первичный анализ

Чувствительность на одного пациента была оценена в 64,8% (3732 из 5760 показаний) без помощи ИИ и 75,2% (4331 из 5760 показаний) с помощью ИИ, с эффектом ИИ, оцененным в +10,4% (95% ДИ: 6,9, 13,9; один односторонний P <0,001 для превосходства). Специфичность на пациента составила 90,6% (5217 из 5760 показаний) без помощи ИИ и 95,6% (5504 из 5760 показаний) с помощью ИИ, с эффектом ИИ, оцененным в +5,0% (95% ДИ: +2,0, +8,0).

Следовательно, первичный анализ был успешным, и было продемонстрировано превосходство специфичности в расчете на одного пациента с помощью ИИ (иерархический тест).

Другие показатели для всех читателей сравниваются в таблице на рисунке 2 с использованием двусторонних тестов. В целом время чтения было на 6,3 секунды короче (95% ДИ: –12,5, –0,1; P = 0,046) с помощью ИИ, чем без него.

Рисунок 2

Анализы подгрупп

В целом анализ с помощью ИИ привел к повышению чувствительности на одного пациента для всех специальностей, но для рентгенологов и ревматологов показатель составил +7,6%.

Хотя специфичность на одного пациента была выше при использовании ИИ по всем специальностям, мы не обнаружили значительных различий (от +2,0% до +14,0%, значения P от 0,07 до 0,49).

ИИ улучшил чувствительность на одного пациента с 58,0% (1975 из 3408 показаний) до 70,4% (2398 из 3408 показаний) для неочевидных переломов и с 74,7 % (1757 из 2352 показаний) до 82,2% (1933 из 2352 показаний) для явных переломов (+7,5%; 95% ДИ: 3,7, 11,2; P < 0,001), без признаков разницы в приросте (-4,9% ; 95% ДИ: –9,9, +0,0; P = 0,05).

В целом, считывание с помощью ИИ показало улучшение чувствительности каждого пациента для обнаружения переломов во всех анатомических областях (Таблица на рисунке 3).

Рисунок 3

Оценка производительности автономного ИИ

Кривые ROC для автономного ИИ и ROC для свободного ответа показаны на рисунке 4.

Показатели автономного ИИ при пороге высокой чувствительности, называемом DOUBT-FRACT, для ребер и грудопоясничного отдела позвоночника были ниже, чем автономные характеристики для других анатомических областей, с относительно большим количеством ложноположительных результатов (рис.5).

Рисунок 4: Кривая работы автономного искусственного интеллекта (AI) (ROC) и (B) кривые ROC свободного отклика. К экспертам (синие кружки) относятся ортопеды и рентгенологи, а к неспециалистам (зеленые кружки) относятся все остальные специалисты. Диагностические характеристики считывателей без помощи ИИ показаны на обоих графиках (синие и зеленые кружки). Площадь под ROC-кривой для отдельного ИИ (сплошная линия на A) составила 0,93 (95% ДИ: 0,90, 0,95). PP-FPFW = среднее количество ложноположительных переломов на одного пациента, SEPW = средняя чувствительность обнаружения переломов на одного пациента, SPEPW = средняя специфичность обнаружения переломов на одного пациента

Рисунок 5

Примеры истинно- и ложноположительных и/или отрицательных результатов показаны на рисунках 6 и 7. В ходе нашего исследования была разработана более новая версия алгоритма ИИ (хотя и не включенная в программное обеспечение), но мы не обнаружили никаких доказательств различий между новым и старым алгоритмом ИИ (пользовательские показатели AUC, 0,92; 95% ДИ: 0,89, 0,94) с разницей, оцениваемой в +0,002 (95% ДИ: –0,006, +0,009; P = 0,69) по сравнению с исходным ИИ алгоритмом.

Рисунок 6: Примеры производительности автономного искусственного интеллекта (ИИ): положительные рентгенограммы переломов. (А) Рентгенограмма показывает единственный истинно положительный перелом шейки правой бедренной кости (стрелки). Этот перелом был обнаружен с помощью ИИ с использованием порога FRACT (рамка). 1 старший и 1 младший радиолог, 2 врача отделения неотложной помощи, 1 фельдшер, 3 ревматолога и 1 врач семейной медицины пропустили перелом. Все не эксперты указали на перелом с ИИ. (B) Дополнительный специальный вид правого бедра ясно показывает этот перелом (стрелка). (C) Рентгенограмма показывает истинно положительные множественные левосторонние переломы ребер (стрелки). Один перелом был обнаружен с помощью ИИ с использованием порога FRACT (сплошной прямоугольник), а другой — с использованием порога DOUBT-FRACT (штриховой прямоугольник). 2 старших и 1 младший радиолог, 1 старший хирург-ортопед, 1 врач отделения неотложной помощи и 1 фельдшер диагностировали два перелома ребер без ИИ. Все не эксперты указали на два перелома ребер при ИИ. (D) Рентгенограмма показывает истинно положительные переломы тел позвонков L3 и L4 (стрелки). Эти переломы были обнаружены с помощью ИИ с использованием порога DOUBT-FRACT (прямоугольники). 13 не экспертов указали на два перелома без ИИ. 19 указали на два перелома с ИИ. 2 врача семейной медицины, 1 ревматолог, 1 резидент-радиолог и 1 фельдшер пропустили один перелом позвонка с ИИ и без него. Было два предопределенных порога для обнаружения переломов: порог высокой чувствительности, названный DOUBT-FRACT, равный 50% после трансформации, и порог высокой специфичности, названный FRACT, равный 90% после трансформации.

Рисунок 7: Примеры производительности автономного искусственного интеллекта (ИИ): ложноположительные и ложноотрицательные рентгенограммы. (A) Рентгенограмма показывает небольшой кортикальный оссификативный фрагмент, примыкающий к нижнему краю суставной впадины (стрелка), вероятно, является следствием предшествующей травмы (хронический перелом) или кальцифицированным отслоением нижней губы, а не острым переломом.ИИ отметил это как острый перелом, используя порог DOUBT-FRACT. 15 не экспертов прочитали этот снимок как острый перелом без ИИ. 4 не экспертов подумали, что перелом был хроническим без использования ИИ, но изменили свое мнение с помощью ИИ. Только 2 рентгенолога, 1 ревматолог и 2 врача семейной медицины признали хронический характер перелома с ИИ и без него. (B) Рентгенограмма показывает тонкий перелом основания пятой пястной кости без смещения (стрелка), который не был обнаружен ИИ. Все не эксперты пропустили этот перелом с ИИ и без него. Этот перелом был заметен только на представленной здесь переднезадней проекции и не был четко виден на (С) косой проекции или боковой проекции (не показан) правой руки. Было два предопределенных порога для обнаружения переломов: порог высокой чувствительности, названный DOUBT-FRACT, равный 50% после трансформации, и порог высокой специфичности, названный FRACT, равный 90% после трансформации.

Пропущенные переломы на рентгенографических изображениях не являются редкостью в условиях острой травмы, и мы стремились оценить влияние помощи искусственного интеллекта (ИИ) на диагностические действия врачей для рентгенографического обнаружения переломов.

Автономная производительность нашего алгоритма ИИ (AUC, 0,97) сравнима с результатами других опубликованных исследований (AUC>0,90 для большинства исследований). В этом ретроспективном исследовании 480 пациентов рентгенографическое чтение с помощью ИИ шестью типами считывателей показало улучшение чувствительности обнаружения переломов на 10,4% (75,2% против 64,8%; P < 0,001 для превосходства) без снижения специфичности (+5,0%; 95,6% против 90,6%, P = 0,001 для не меньшей эффективности).

Помощь ИИ сократила время чтения рентгенограммы на 6,3 секунды для каждого пациента (P = 0,046). Улучшение чувствительности было значительным во всех местах (среднее дельта 8,0–16,2 %; P < 0,05), кроме плечевого, ключичного и грудопоясничного отделов позвоночника (среднее дельта: 4,2 % и 2,6 % соответственно; P = 0,12 и 0,52). ).

Основным преимуществом, которое ИИ может принести в клиническую практику, особенно в условиях неотложной помощи, является его способность функционировать в качестве системы сортировки в загруженных медицинских центрах. Если ИИ сможет обнаружить перелом до интерпретации радиологов, то это конкретное исследование может стать приоритетным в списке работ. Если рентгенологи смогут расставить приоритеты в исследованиях чтения с потенциально положительными результатами, то задержка между первоначальным неэкспертным чтением и окончательным отчетом рентгенологов может быть сведена к минимуму, тем самым улучшая уход за пациентами.

Еще одним потенциальным преимуществом ИИ является сокращение времени чтения. Даже если всего на несколько секунд за рентгенографическое исследование, сокращение времени считывания может привести к значительной экономии времени для рентгенологов, которые могут считывать 200–300 рентгенограмм в день. Однако мы не можем доказать, что это действительно так в реальных ситуациях.

Распознавание переломов с помощью ИИ также может повысить диагностические возможности как рентгенологов, так и нерадиологов, не только за счет обнаружения малозаметных изменений, которые трудно визуализировать человеческим глазом, но и за счет предотвращения когнитивных ошибок из-за человеческой усталости или предвзятости при интерпретации изображений. Преимущество ИИ может быть особенно заметно у врачей скорой помощи и фельдшеров, дежурных хирургов-ортопедов и дежурных рентгенологов, которые, вероятно, подвержены системным ошибкам при интерпретации рентгенограмм, таким как зрительное утомление и усталость от принятия решений.

Помощь ИИ была полезна для обнаружения неочевидных или малозаметных переломов, а также для обнаружения явных переломов, что было неожиданно. Это подтверждает клиническую полезность ИИ в реальной клинической практике.

Текущие исследования показали, что алгоритм ИИ можно использовать для определения процентной вероятности или оценки риска определенного патологического состояния, например вероятности рака, на основе данных визуализации, а также другой клинической информации. В нашем исследовании ИИ обеспечивал уровень достоверности, но не точную вероятность перелома. Вероятность перелома сильно зависит от клинических условий, и поэтому может быть трудно дать правильные цифры.

Источник