Автори: Ali Guermazi , Chadi Tannoury, Andrew J. Kompel, Akira M. Murakami, Alexis Ducarouge, André Gillibert, Xinning Li, Antoine Tournier, Youmna Lahoud, Mohamed Jarraya, Elise Lacave, Hamza Rahimi, Aloïs Pourchot, Robert L. Parisien, Alexander C. Merritt, Douglas Comeau, Nor-Eddine Regnard, Daichi Hayashi
Зміст:
- Вступ
- Матеріали та методи
- Дизайн дослідження
- Отримання набору даних
- Виконання клінічної валідації
- Продуктивність
- Результати
- Первинний аналіз
- Аналізи підгруп
- Оцінка продуктивності автономного ШІ
Вступ
Виявлення переломів за допомогою рентгенографії є одним з найпоширеніших завдань у пацієнтів із високо- або низькоенергетичною травмою в різних клінічних умовах, у тому числі у відділеннях невідкладної допомоги та амбулаторно-поліклінічних установах, таких як ортопедія, ревматологія та сімейна медицина.
Пропущені переломи на рентгенограмах є однією з найчастіших причин діагностичних розбіжностей між початковими інтерпретаціями, проведеними нерадіологами або резидентами-радіологами, та остаточними показаннями сертифікованих рентгенологів, що призводить до шкоди або затримці у наданні допомоги пацієнтові.
На сьогоднішній день було проведено кілька досліджень, присвячених штучному інтелекту (ШІ) для виявлення переломів, в яких основна увага приділялася лише певним частинам тіла, таким як кисть, зап’ястя та передпліччя, стегно та таз, коліна та хребет. В одному дослідженні оцінювалися переломи в 11 місцях тіла, включаючи верхні та нижні кінцівки та хребет, але клініцисти, які зчитували рентгенограми з ШІ та без допомоги ШІ, були лише лікарями швидкої допомоги та фельдшерами, а старші хірурги-ортопеди забезпечували остаточний діагноз. Рентгенолог не брав участі в інтерпретації знімків.
Інше недавнє дослідження проаналізувало переломи у 16 анатомічних місцях; проте читачами рентгенограм були лише рентгенологи та хірурги-ортопеди.
Метою даного дослідження було оцінити вплив допомоги ШІ на діагностичні показники лікарів під час переломів.
Матеріали та методи
Це ретроспективне дослідження фінансувалося компанією Gleamer, яка розробила ШІ та програмне забезпечення, а також створила вибірку та дизайн дослідження. Аналіз даних та написання рукопису були виконані авторами, не пов’язаними з Gleamer. 5 авторів є співробітниками Gleamer. 2 автори контролювали дані та інформацію, представлену для публікації. Поточний протокол був схвалений інституційною наглядовою радою WellCare Group (№ 20202256), яка відмовилася від поінформованої згоди через ретроспективний характер цього дослідження та той факт, що всі зображення були знеособлені та не містили жодної клінічної інформації. Наше дослідження відповідало Закону про переносимість та підзвітність медичного страхування.
Дизайн дослідження
Алгоритм ШІ був розроблений з використанням набору даних для розробки, що складається з 60 170 рентгенограм пацієнтів з травмами з 22 установ у період з січня 2011 р. по травень 2019 р. Цей набір даних був випадковим чином поділений на навчальний набір (70%), перевірочний набір (10%) та внутрішній тестовий набір (20%).
Алгоритм глибокого навчання був навчений і перевірений на цьому наборі даних для розробки на основі структури Detectron2, яка була додатково переглянута та адаптована до аналізу рентгенограм Gleamer. Примітно, що під час навчання виконувалося збільшення даних шляхом випадкового повороту, відображення, переміщення, обрізки та зміни розміру. Ми використовували 270 000 ітерацій для навчання моделі («навчальна партія») та оновлювали параметри з використанням алгоритму стохастичного градієнта із розміром партії чотири.
Залежно від порогу, встановленого для оцінок, що повертаються алгоритмом для кожної області, що цікавить, остаточний конвеєр може працювати в різних робочих точках з точки зору чутливості і специфічності. Коли рівень достовірності ШІ перевищує порогове значення, програмне забезпечення виділяє білим квадратом область, що цікавить, на рентгенограмі.
ШІ був перевірений для виявлення та локалізації переломів на цифрових рентгенограмах діагностичної якості та згодом інтегрований у програмне забезпечення для інтерпретації рентгенологічних зображень, розроблене Gleamer, як інструмент для допомоги у виявленні переломів, виділяючи потенційні переломи прямокутною рамкою.
Дане дослідження є ретроспективним діагностичним дослідженням з використанням методології з декількома зчитувачами та декількома випадками, заснованих на зовнішньому багатоцентровому наборі даних із США, зареєстрованому на сайті ClinicalTrials.gov (ідентифікаційний номер: NCT04532580).
Отримання набору даних
Загалом було отримано 480 рентгенографічних досліджень від трьох постачальників рентгенологічних даних у Сполучених Штатах. Наш набір даних був отриманий від 11 різних виробників джерел радіологічних даних: Konica Minolta, Samsung Electronics, GE Healthcare, Philips Medical Systems, KODAK, Canon, Swissray, Hologic, Varian, Siemens та Fujifilm.
Зображення були отримані за допомогою цих інструментів та зібрані з кількох установ у Сполучених Штатах. У період з липня 2020 р. по січень 2021 р. було відібрано рентгенологічні дослідження відповідно до критеріїв включення та виключення зі стратифікацією по регіонах та статусу перелому. Необхідно було провести не менше 60 обстежень для кожної з наступних анатомічних областей:
- стопа та гомілковостопний суглоб
- коліно та гомілка
- стегно та таз
- кисть та зап’ястя
- лікоть та передпліччя
- плече та ключиця
- грудна клітка та тораколюмбальний відділ хребта.
Крім того, повинні були бути включені 50% обстежень кожної області з одним переломом і більше 50% обстежень без переломів, а також 25% обстежень хоча б з одним «неочевидним» переломом, на думку експертів і 25% лише з «явними» переломами.
Виконання клінічної валідації
Всі дослідження були незалежно інтерпретовані 24 клініцистами з кількох установ у Сполучених Штатах, включаючи як тих, хто проходить навчання, так і сертифікованих лікарів з різним досвідом (2-18 років) в інтерпретації рентгенограм для виявлення переломів.
Усім читачам (експертам і не експертам) у випадковому порядку було представлено 480 рентгенографічних досліджень набору даних перевірки двічі – один раз за допомогою програмного забезпечення ШІ та один раз без допомоги, з мінімальним періодом різниці в 1 місяць.
Продуктивність
Чутливість на 1 пацієнта визначалася як частка пацієнтів, у яких були виявлені всі фактичні переломи (кожен, принаймні, на одній рентгенограмі), включаючи потенційно множинні переломи більш ніж в одній області, серед пацієнтів, що мають хоча б один перелом, навіть якщо деякі неправильні позначки (хибні спрацьовування) було додано читачем.
Специфічність на пацієнта визначалася як частка пацієнтів, у яких читач не поставив позначку про перелом, серед пацієнтів, які не мали перелому.
Чутливість на 1 перелом визначалася як частка переломів, правильно виявлених зчитувачем, серед усіх переломів, включаючи, за необхідності, множинні переломи одного пацієнта.
Середня кількість хибнопозитивних переломів на одного пацієнта визначалася як середня кількість відміток, нанесених поза переломом, на одного пацієнта.
Індекс Юдена на пацієнта визначали як (чутливість на 1 пацієнта) + (специфічність на 1 пацієнта) – 1.
Результати
Усього було включено 480 пацієнтів (середній вік 59 років ± 16 [стандартне відхилення]; 327 жінок) (зобр. 1).
Оскільки деякі пацієнти мали кілька переломів, всього 240 пацієнтів виявили 350 переломів. Точні анатомічні розташування всіх переломів наведено зображенні 2.
Вставить рисунок:
Первинний аналіз
Чутливість на одного пацієнта була оцінена в 64,8% (3732 з 5760 показань) без допомоги ШІ та 75,2% (4331 з 5760 показань) за допомогою ШІ, з ефектом ШІ, оціненим в +10,4% (95% ДІ : 6,9, 13,9, один односторонній P <0,001 для переваги). Специфічність на пацієнта склала 90,6% (5217 з 5760 показань) без допомоги ШІ та 95,6% (5504 з 5760 показань) за допомогою ШІ, з ефектом ШІ, оціненим у +5,0% (95% ДІ: +2 0, +8,0).
Отже, первинний аналіз був успішним, і було продемонстровано перевагу специфічності для одного пацієнта з допомогою ШІ (ієрархічний тест).
Інші показники усіх читачів порівнюються у таблиці малюнку 2 з допомогою двосторонніх тестів. У цілому нині час читання було на 6,3 секунди коротше (95% ДІ: –12,5, –0,1; P = 0,046) з допомогою ШІ, ніж нього.
Аналізи підгруп
Загалом аналіз за допомогою ШІ призвів до підвищення чутливості на одного пацієнта для всіх спеціальностей, але для рентгенологів та ревматологів показник становив +7,6%.
Хоча специфічність на одного пацієнта була вищою при використанні ШІ з усіх спеціальностей, ми не виявили значних відмінностей (від +2,0% до +14,0%, значення P від 0,07 до 0,49).
ШІ покращив чутливість на одного пацієнта з 58,0% (1975 з 3408 показань) до 70,4% (2398 з 3408 показань) для неочевидних переломів та з 74,7% (1757 з 2352 показань) до 82,2% (1933) з 2352 показань) для явних переломів (+7,5%; 95% ДІ: 3,7, 11,2; P < 0,001), без ознак різниці в прирості (-4,9%; 95% ДІ: –9, 9, +0,0;P = 0,05).
Загалом зчитування за допомогою ШІ показало поліпшення чутливості кожного пацієнта для виявлення переломів у всіх анатомічних областях (Таблиця на зображенні 3).
Оцінка продуктивності автономного ШІ
Криві ROC для автономного ШІ та ROC для вільної відповіді показані на зображенні 4.
Показники автономного ШІ при порозі високої чутливості, званому DOUBT-FRACT, для ребер та грудопоперекового відділу хребта були нижчими, ніж автономні характеристики для інших анатомічних областей, з відносно великою кількістю хибнопозитивних результатів (зобр. 5).
Зображення 4: Крива роботи автономного штучного інтелекту (AI) (ROC) та (B) криві ROC вільного відгуку. До експертів (сині кола) відносяться ортопеди та рентгенологи, а до неспеціалістів (зелені кола) відносяться всі інші фахівці. Діагностичні характеристики зчитувачів без допомоги ШІ показані на обох графіках (сині та зелені кола). Площа під ROC-кривою для окремого ШІ (суцільна лінія на A) склала 0,93 (95% ДІ: 0,90, 0,95). PP-FPFW = середня кількість хибнопозитивних переломів на одного пацієнта; SEPW = середня чутливість виявлення переломів на одного пацієнта; SPEPW = середня специфічність виявлення переломів на одного пацієнта.
Приклади істинно- і хибнопозитивних та/або негативних результатів показані на зображеннях 6 і 7. У ході нашого дослідження була розроблена нова версія алгоритму ШІ (хоча і не включена до програмного забезпечення), але ми не виявили жодних доказів відмінностей між новим та старим алгоритмом ШІ (користувацькі показники AUC, 0,92; 95% ДІ: 0,89, 0,94) з різницею, що оцінюється в +0,002 (95% ДІ: -0,006, +0,009; P = 0,69) порівняно з вихідним ШІ алгоритмом.
Зображення 6: Приклади продуктивності автономного штучного інтелекту: позитивні рентгенограми переломів. (А) Рентгенограма показує єдиний позитивний перелом шийки правої стегнової кістки (стрілки). Цей перелом був виявлений за допомогою ШІ з використанням порога FRACT (рамка). 1 старший та 1 молодший радіолог, 2 лікарі відділення невідкладної допомоги, 1 фельдшер, 3 ревматологи та 1 лікар сімейної медицини пропустили перелом. Усі не експерти вказали на перелом із ШІ. (B) Додаткова спеціальна проекція правого стегна ясно показує цей перелом (стрілка). (C) Рентгенограма показує позитивні множинні лівосторонні переломи ребер (стрілки). Один перелом був виявлений за допомогою ШІ з використанням порога FRACT (суцільний прямокутник), а інший з використанням порога DOUBT-FRACT (штриховий прямокутник). 2 старших та 1 молодший радіолог, 1 старший хірург-ортопед, 1 лікар відділення невідкладної допомоги та 1 фельдшер діагностували два переломи ребер без ШІ. Усі не експерти вказали на два переломи ребер при ШІ. (D) Рентгенограма показує позитивні переломи тіл хребців L3 і L4 (стрілки). Ці переломи були виявлені за допомогою ШІ з використанням порога DOUBT-FRACT (прямокутники). 13 не експертів вказали на два переломи без ШІ. 19 вказали на два переломи з ШІ. 2 лікарі сімейної медицини, 1 ревматолог, 1 резидент-радіолог та 1 фельдшер пропустили один перелом хребця з ШІ та без нього. Існували два визначені пороги для виявлення переломів: поріг високої чутливості, названий DOUBT-FRACT, рівний 50% після трансформації, і поріг високої специфічності, названий FRACT, рівний 90% після трансформації.
Зображення 7: Приклади продуктивності автономного штучного інтелекту (ШІ): хибнопозитивні та хибнонегативні рентгенограми. (A) Рентгенограма показує невеликий кортикальний осифікований фрагмент, що примикає до нижнього краю суглобової западини (стрілка), ймовірно, є наслідком попередньої травми (хронічний перелом) або кальцифікованого відшаруванням нижньої губи, а не гострим переломом.ШІ відзначив це як гострий перелом, DOUBT-FRACT. 15 не експертів прочитали цей знімок як гострий перелом без ШІ. 4 не експерти подумали, що перелом був хронічним без використання ШІ, але змінили свою думку за допомогою ШІ. Лише 2 рентгенологи, 1 ревматолог та 2 лікаря сімейної медицини визнали хронічний характер перелому з ШІ та без нього. (B) Рентгенограма показує тонкий перелом основи п’ястої кістки без зміщення (стрілка), який не був виявлений ШІ. Усі не експерти пропустили цей перелом з ШІ та без нього. Цей перелом був помітний тільки на представленій тут переднезадній проекції і не був чітко видимий на (З) косій проекції або бічній проекції (не показаний) правої руки. Існували два визначені пороги для виявлення переломів: поріг високої чутливості, названий DOUBT-FRACT, рівний 50% після трансформації, і поріг високої специфічності, названий FRACT, рівний 90% після трансформації.
Пропущені переломи на рентгенографічних зображеннях не є рідкістю в умовах гострої травми, і ми прагнули оцінити вплив допомоги штучного інтелекту (ШІ) на діагностичні дії лікарів для рентгенографічного виявлення переломів.
Автономну продуктивність нашого алгоритму ШІ (AUC, 0,97) можна порівняти з результатами інших опублікованих досліджень (AUC>0,90 для більшості досліджень). У цьому ретроспективному дослідженні 480 пацієнтів рентгенографічне читання за допомогою ШІ шістьма типами зчитувачів показало покращення чутливості виявлення переломів на 10,4% (75,2% проти 64,8%; P < 0,001 для переваги) без зниження специфічності (+5,0% 95,6% проти 90,6%, P = 0,001 для не меншої ефективності).
Допомога ШІ скоротила час читання рентгенограми на 6,3 секунд для кожного пацієнта (P = 0,046). Поліпшення чутливості було значним у всіх місцях (середнє дельта 8,0–16,2 %; P < 0,05), крім плечового, ключичного та грудопоперекового відділів хребта (середнє дельта: 4,2 % та 2,6 % відповідно; P = 0,12 та 0,52). ).
Основною перевагою, яку ШІ може принести в клінічну практику, особливо в умовах невідкладної допомоги, є його здатність функціонувати як система сортування у завантажених медичних центрах. Якщо ШІ зможе виявити перелом до інтерпретації радіологів, це конкретне дослідження може стати пріоритетним у списку робіт. Якщо рентгенологи зможуть розставити пріоритети в дослідженнях читання з потенційно позитивними результатами, то затримка між початковим не експертним читанням та остаточним звітом рентгенологів може бути зведена до мінімуму, тим самим покращуючи догляд пацієнтів.
Ще однією потенційною перевагою ШІ є скорочення часу читання. Навіть якщо лише кілька секунд за рентгенографічне дослідження, скорочення часу зчитування може призвести до значної економії часу для рентгенологів, які можуть зчитувати 200–300 рентгенограм на день. Проте ми не можемо довести, що це справді так у реальних ситуаціях.
Розпізнавання переломів за допомогою ШІ також може підвищити діагностичні можливості як рентгенологів, так і не радіологів, не тільки за рахунок виявлення малопомітних змін, які важко візуалізувати людським оком, а й за рахунок запобігання когнітивним помилкам через людську втому або упередженість при інтерпретації зображень. Перевага ШІ може бути особливо помітна у лікарів швидкої допомоги та фельдшерів, чергових хірургів-ортопедів та чергових рентгенологів, які, ймовірно, схильні до системних помилок при інтерпретації рентгенограм, таким як зорова втома та втома від прийняття рішень.
Допомога ШІ була корисною для виявлення неочевидних або малопомітних переломів, а також для виявлення явних переломів, що було несподівано. Це підтверджує клінічну корисність ШІ у реальній клінічній практиці.
Поточні дослідження показали, що алгоритм ШІ можна використовувати для визначення процентної ймовірності або оцінки ризику певного патологічного стану, наприклад, ймовірності раку, на основі даних візуалізації, а також іншої клінічної інформації. У нашому дослідженні ШІ забезпечував рівень достовірності, але не точну ймовірність перелому. Імовірність перелому залежить від клінічних умов, і тому може бути важко дати правильні цифри.