Подписаться
Оглавление
Биомолекула

Народные сказки об искусственном интеллекте в распознавании медицинских изображений

Народные сказки об искусственном интеллекте в распознавании медицинских изображений

  • 661
  • -0,2
  • 0
  • 2
Добавить в избранное print
Обзор

В этом тексте мы поговорим о том, какое применение машинное обучение нашло в медицинской диагностике и особенно в распознавании медицинских снимков. Покажем, как это применение нужно и понятно, а искусственный интеллект не так страшен, как его малюют. Рисунок в полном размере.

Статья на конкурс «Био/Мол/Текст»: Организация медицинской помощи в цифровом виде и анализ и обработка данных — другими словами цифровая медицина, — постепенно становятся стандартом. А искусственный интеллект, которым нас пугали несколько лет назад, сегодня незаменим в уйме технологических решений — от предсказания погоды до рекламы.

Конкурс «Био/Мол/Текст»-2020/2021

Эта работа опубликована в номинации «Свободная тема» конкурса «Био/Мол/Текст»-2020/2021.


BiotechClub

Генеральный партнер конкурса — ежегодная биотехнологическая конференция BiotechClub, организованная международной инновационной биотехнологической компанией BIOCAD.


SkyGen

Спонсор конкурса — компания SkyGen: передовой дистрибьютор продукции для life science на российском рынке.


«Диа-М»

Спонсор конкурса — компания «Диаэм»: крупнейший поставщик оборудования, реагентов и расходных материалов для биологических исследований и производств.


«Альпина нон-фикшн»

«Книжный» спонсор конкурса — «Альпина нон-фикшн»

Ликбез о подготовке медицинских датасетов

Для начала поставим вопрос «Как создают искусственный интеллект?», а точнее, «Без каких данных его создать невозможно?».

Для ответа на него возьмем задачу распознавания патологий и выберем для примера произвольное заболевание. Пусть Х — признак выбранного заболевания. Это может быть симптом из анамнеза или физиологические показатели, такие как рост, температура, возраст, и т.д., или биомаркеры (сокр. от «биологический маркер» — характеристика, служащая индикатором состояния организма) различных медицинских состояний (сигнал кардиограммы, пульсоксиметра, флюорографии и др.). Сперва нужно определить, в каких данных мы будем искать патологию и по каким критериям разделять медицинские данные на те, в которых Х есть и в которых Х нет.

На этапе планирования нам понадобится помощь медицинских специалистов: они, например, могут сказать, что перелом костей стопы не стоит искать на снимках черепа и наоборот, — да, бывают намного менее очевидные примеры, чем этот. Таким образом мы поймем, как сформулировать начальный набор информации, иначе известный как медицинский датасет.

Медицинский датасет — набор данных о пациенте, который может быть обработан автоматическими средствами. Иными словами, это более-менее организованная информация о болезни, готовая к загрузке в компьютер. Бумажные истории болезней, медицинские карточки на полках — всё должно быть оцифровано для анализа. Сейчас чаще всего речь идет о трех типах данных:

  • медицинские снимки (например, двухмерные рентгенограммы или трехмерные компьютерные томограммы);
  • медицинские сигналы (всё, что выглядит как кривая — электрокардиограммы, электроэнцефалограммы, запись пульсовой волны и целый ряд других параметров, изменяющихся во времени);
  • текстовые данные (например, количественные признаки лабораторных анализов, таких как скорость оседания эритроцитов или концентрации антител в плазме крови; заключения врачей или записи жалоб и осмотров).

Основная проблема всех этих данных — их плохая структурированность. Ведь когда врачи выполняют исследования и сохраняют результаты в компьютере, они не думают о том, что какие-то разработчики ИИ придут через полгода и начнут копаться в их записях. Для врача главное — сохранить результаты на случай, если через пару лет к нему придет тот же пациент (а иногда и прокурор). Об удобности использования данных машинами никто не задумывается...

Здесь нам помогают специалисты data engineering, которые, прежде чем запустить машинное обучение, вычищают исходные данные, выкидывают лишние и неполные записи, вносят единую классификацию (чертыхаясь и проклиная всё на свете, потому что работа сложная и неблагодарная).

С другой стороны, есть и хорошие новости: проявляется тенденция к всеобщей цифровизации здравоохранения. Всё больше медицинских учреждений оснащаются электронными медицинскими системами, где записи хранятся в более-менее структурированном виде. Как пример, в Москве почти все аппараты компьютерной (КТ) и магнитно-резонансной томографии (МРТ), а также цифровые рентгеновские аппараты (суммарно более тысячи единиц техники) подключены к единому хранилищу данных. Каждый день в него поступает 20 тысяч исследований, а накоплено уже больше нескольких миллионов!

Теперь, когда мы располагаем приемлемого качества данными, поговорим про важность постановки задачи.

Самый очевидный вариант — отличить некий искомый Х от нормы. Ведь мы знаем, что норма — это отсутствие любых болезней, а значит, можно выделить две группы: «без любых болезней» и «возможно, имеющий Х». В жизни, однако, бывает всё намного сложнее: иногда врожденная патология выглядит как Х, а на самом деле является вариантом нормы; а иногда вместе с Х на снимке есть Y, Z и еще множество признаков других заболеваний, и выделить отдельно Х бывает затруднительно. Вдобавок, как мы можем знать наверняка, что именно этот человек не имеет никаких болезней, даже незаметных, не проявляющих себя? На этот вопрос далеко не всегда может ответить и целый консилиум врачей, ведь сложно найти то, что мы прицельно не ищем.

Другой подход постановки задачи — определить несколько признаков (например, X, Y и Z), наиболее часто встречающихся в данной популяции. Теперь наша задача — для каждого исследования проставить вероятность наличия X, Y и Z. Если мы проставим 0, 0 и 0 соответственно, то получим норму.

Более корректно будет не называть «отсутствие X, Y и Z» нормой, а так и называть — отсутствием признаков X, Y и Z. В научных исследованиях такую группу называют контрольной, или группой сравнения.

В любом случае, всё зависит от исходно сформулированной задачи. Правильно поставленная задача — это половина успеха будущей модели искусственного интеллекта! Например, задача «поиск признаков ишемического инсульта на МРТ головного мозга» (ишемия = недостаточное кровоснабжение) сообщает нам сразу несколько фактов:

  • работаем с МРТ головного мозга;
  • ищем не болезнь, а признаки (это вернее с медицинской точки зрения);
  • не стоит задача отличить условную патологию от нормы: на снимках могут быть и другие заболевания мозга, наша задача — детектировать только признаки ишемии, наш Х.

Из задачи фактически рождаются критерии включения и невключения в датасет. Похоже на научную работу, правда?

Такая разметка данных, как мы описали выше, формирует так называемую истинную правду (более известна как ground truth). Она принимается за аксиому и не подвергается сомнению в дальнейшем машинном обучении. Считается, что ground truth — это «правильный ответ» для нейронной сети.

Кто взял наши медицинские данные «на карандаш» и можно ли ограбить биобанк с моими данными?

Вопрос использования медицинских данных для обучения нейронных сетей — это болезненный вопрос и для сообщества пациентов, и для главных врачей, которые не хотели бы получить повестку в суд, и для разработчиков ИИ, которым данные никто не дает. Причина в их характере — по сути, сколько ты их не обезличивай (то есть вычищай персональные данные), они так или иначе остаются связанными с субъектом, то есть с самим пациентом. Аналогично — глаза, закрытые черным прямоугольником на фотографии, делают эту фотографию обезличенной?

Другой вопрос, можно ли ограбить банк, в котором хранятся медицинские данные (биобанк), и использовать это против самих пациентов? Вряд ли. То, что наш конкретный снимок легких затесался в базу тысяч таких же снимков, не представляет опасности. При этом модель ИИ при его использовании научится лучше распознавать различные Х признаки, что в целом должно улучшить качество медицинской помощи.

Как выглядит искусственный интеллект в медицине?

Вооружимся терминологией с самого начала:

Искусственный интеллект (ИИ)
в этой статье под «ИИ» мы подразумеваем «умные» алгоритмы, способные принимать решения вместо человека, имитируя человеческий интеллект.
Машинное обучение (МО)
это область ИИ, которая представляет собой набор методов анализа данных, для которых характерно обучение в процессе применения решений множества сходных задач.
Нейронные сети
(NN, или neural networks) это специализированные модели машинного обучения, позволяющие эффективно анализировать большие объемы данных. Широко используются глубокие, или глубинные нейронные сети (DL, или deep learning).
Сверточные нейронные сети
(CNN, convolutional NN) это специализированные модели глубинного обучения, особенно эффективные в выполнении задач распознавания изображений.
Визуализация терминологии

Рисунок 1. Визуализация терминологии, которой мы вооружились ранее

Про сверточные нейронные сети хочется сказать еще пару слов, так как на данный момент они являются ведущим инструментом в распознавании изображений. Изображений всех, включая и медицинские.

Считается, что нейронные сети такой архитектуры имитируют работу зрительной коры головного мозга [1]. Где каждый нейрон отвечает за небольшой участок изображения, называемый полем зрения. А сами нейроны расположены иерархично, так, что каждый следующий слой отвечает за распознавание всё более сложных паттернов [2]. Схематично это представлено на рисунке 2, на примере нейросети для диагностики по данным лазерной эндоскопии [3].

Архитектура глубокой сверточной нейронной сети

Рисунок 2. Архитектура глубокой сверточной нейронной сети (CNN), которая была обучена на изображениях лазерной эндомикроскопии для диагностической классификации (а). СС1–СС5 — это первые пять сверточных слоев, а ПС6 и ПС7 — это полносвязанные («обычные») слои. б — Характеристики или паттерны первого сверточного слоя (цветные изображения), которые были рассчитаны путем свертки различных полей зрения (красные квадраты) с соответствующими областями исходного изображения.

Вернемся к задаче распознавания медицинских изображений. Вне зависимости от своей архитектуры, никакая модель машинного обучения изначально ничего не знает и не может предсказать или распознать. И узнает только тогда, когда мы обучим ее — то есть покажем ей тренировочные данные и объясним, что в этих данных есть что. А чем больше данных будет у модели для обучения, тем точнее она сможет делать предсказания. Поэтому во многом именно наличие базы данных, включающей миллионы или даже миллиарды записей, становится залогом точного прогнозирования, а не развитие методов машинного обучения как таковых. Но накопить такую базу данных чрезвычайно сложно, как мы заметили ранее. И чем реже заболевание встречается в популяции, тем менее вероятно, что для него будет накоплена большая база данных. Отсутствие больших баз данных — это, к сожалению, сильный ограничивающий фактор развития ИИ в медицине.

Но продолжим. Обучившись на множестве снимков, модель сможет выявить закономерности в изображениях сугубо эмпирическим путем, не понимая, насколько значимы выученные характеристики и паттерны. Для того чтобы контролируемо обучать модель «полезным признакам» (нашим Х) и учить модель тому, что мы уже знаем из медицины, дата-аналитикам приходится переносить существующие знания на язык кода и разрабатывать специальные схемы обучения.

В пример такого подхода можно привести систему диагностики эпилепсии по МРТ [4]. В ней алгоритм проводит предобработку данных и запускает сверточную нейросеть, которая уже сейчас правильно детектирует патологию у 9 из 10 пациентов, а также корректно распознает 85% субъектов группы контроля [4]. Авторский подход к обучению предполагает подачу данных CNN-модели таким образом, чтобы модель считывала симметричность двух полушарий. Асимметричность коры головного мозга — один из известных в медицине критериев фокальной кортикальной дисплазии, важного признака в диагностике эпилепсии. Это знание разработчики преобразовали в понятный для нейронной сети вход, разбив изображение на небольшие части (рис. 3). Таким образом, после обучения модель подсвечивала сектора, в которых более вероятно наличие патологии коры головного мозга.

Инженерный подход к обучению сверточной нейросети

Рисунок 3. Инженерный подход к обучению сверточной нейросети — симметричные сектора и их отражения подаются на вход модели

На данный момент ИИ в распознавании медицинских изображений, скорее, пытается подтянуться до уровня среднего врача, используя размеченные заранее данные (тот самый ground truth) и инженерные подходы для обучения. Можно найти единичные работы по моделям МО, которые учатся распознаванию сами, например, так называемое «обучение без учителя» [5]. Но, когда такие подходы окажутся эффективнее предыдущих, мы об этом напишем, а пока — никакой магии.

Что сегодня умеют диагностировать нейронные сети в медицине?

В последние годы мы наблюдаем увеличивающееся по экспоненте количество статей в области радиологии (рис. 4). Про некоторые из конкретных применений ИИ в радиологии можно прочитать и на «Биомолекуле» [6]. Не удивительно, в мире уже существуют сотни стартапов в области применения ИИ в сфере здравоохранения [7]. Только в России разработки умных диагностических систем ведутся в таких проектах, как «Третье мнение», «Боткин.ai», CoBrain, WebioMed и др.

Рост популярности ИИ

Рисунок 4. Рост популярности ИИ, глубокого обучения и сверточных нейронных сетей, что отражается в количестве статей, публикуемых каждый год в области радиологии на портале PubMed

Всё то, что может увидеть врач с помощью глаза, может и нейронная сеть, состоящая из хитрой системы сверточных слоев. По крайней мере, так утверждает теория. С другой стороны, на снимках могут быть скрытые от экспертов-врачей признаки, которые еще не описаны в литературе и не известны в медицинской практике. Эти признаки/паттерны могут быть распознаны нейронной сетью и стать впоследствии новыми диагностическим критериями.

Еще раз уточним, что нейронная сеть не диагностирует заболевание, точно так же, как и рентгенолог не ставит диагноз. Задача диагноста (будь он человеком или машиной) — обнаружить и описать характерные признаки (например, для рентгенологических исследований они иногда называются рентгенологическими симптомами, или диагностическими критериями) того или иного заболевания. Это могут быть различные физические характеристики медицинских изображений, например: увеличение интенсивности сигнала в определенной области, увеличение размера полости органа на снимке, локальное затемнение или изменение сигнала и т.д. Эти особенности или аномалии изображений сами по себе ничего не могут сказать о здоровье пациента. Решение о том, какой диагноз поставить пациенту, выдает лечащий врач, поэтому оно и называется медицинским заключением и часто опирается на предыдущие исследования, результаты анализов, анамнез и проч.

Получается, что ИИ в медицине еще не может ставить диагнозы, но может эффективно распознавать изображения. При этом в районной поликлинике никто нам пока не советует сходить провериться к алгоритмам «высшего разума» (исключение — Москва, но об этом ниже). Давайте разбираться, почему?

Что нового ИИ нам может сказать?

К сожалению или к счастью, в большинстве своем мы учим нейронные сети находить те характеристики, которые на снимках ищет врач. Для этого мы просим врача посмотреть на изображение и отметить на нем аномалии, подозрительные места или регионы интереса. Именно такой скрупулезный и «ручной» тип разметки чаще всего используется для медицинских снимков.

На основании разметки множества данных, мы уже можем тренировать модель. Тогда модель учится видеть, как врач, или как целый медицинский консилиум, если к разметке привлекается несколько врачей рентгенологов. Здесь нужно заметить, что нейросеть научится видеть то, что видит врач, даже если разметка на данном изображении была ошибочна (да, такое на практике тоже случается).

Так как мы заранее знаем, какое место изображения каждый из врачей отметил, как подозрительное или аномальное, мы логично предполагаем, что именно эти регионы и будет находить наша модель. Таким образом, сравнивая ground truth (разметку) с результатами работы алгоритма, мы можем отследить ошибки ретроспективно, как в предсказаниях модели так и в самой разметке. На основании такого анализа мы сможем сделать новые медицинские заключения.

Здесь хочется привести в пример и рассказать об одном из наиболее передовых исследований в области ИИ в медицинской диагностике.

Разработка системы детектирования рака молочной железы идет в Google Deep Mind с 2012 года, и в 2020-м авторы представили результаты интернационального (Великобритания и США) тестирования своей модели [8]. Архитектурой модели МО стал алгоритм из трех глубоких нейросетей, включаю сверточную RetinaNet, используемых в распознавании изображений разработчиками Facebook и Google [9]. А разметку данных врачи проводили в три этапа: первое чтение снимка, второе чтение и решение медицинского консилиума (третье чтение).

Авторы показали, что система, обученная на 25 тысячах снимков, при тестировании работает на 11,5% точнее, чем «средний» рентгенолог при первом чтении. Однако менее точно, чем второе (повторное) чтение или решение консилиума. Еще одна сильная сторона данной работы — клинический ретроспективный анализ. Применив обученный алгоритм на новых снимках и проведя анализ ошибочных предсказаний, ученые обнаружили, что нейронная сеть смогла выявить верно те случаи, где все шесть экспертов не увидели патологии. Но это работало и в обратную сторону: в отдельных случаях сеть ошибалась там, где всем экспертам диагноз был очевиден (рис. 5).

Расхождения между системой ИИ и показаниями врачей

Рисунок 5. Расхождения между системой ИИ и показаниями врачей. а — Образец случая рака, который был пропущен всеми шестью специалистами в США, но правильно идентифицирован системой ИИ. б — Образец случая рака, который был обнаружен всеми шестью специалистами, но пропущен системой ИИ. Слева — медиолатеральный косой вид; справа — краниокаудальный вид.

Точность модели отражает, насколько хорошо модель научилась предсказывать по отношению к «среднему» врачу. Данный алгоритм CNN показал 5,7% / 1,2% ложных срабатываний и 9,4% / 2,7% пропусков цели (данные для США / Великобритании).

Это исследование является показательным и наиболее близким к клиническому использованию. Однако даже у Google почти за 10 лет не получилось «натренировать» ИИ, который будет точнее лучших экспертов и сможет гарантировать эту точность на данных из других стран.

И, к сожалению, у многих сегодняшних исследований заявленная точность еще дальше от 99,9% (иллюстрировано на рис. 6). Это при более скромных обучающих выборках и, чаще, полном отсутствии слепого тестирования.

Искусственный интеллект: ожидания и реальность

Рисунок 6. Искусственный интеллект: ожидания и реальность

иллюстрация автора статьи

Кто будет отвечать за предсказание нейронной сети?

В итоге ни одно медицинское решение не принимается кем-то или чем-то, кроме врача. В ближайшее время ни один из алгоритмов машинного обучения в диагностике медицинских изображений не будет работать автономно (точнее, результаты работы таких алгоритмов официально нельзя будет увидеть, пока их не утвердит врач).

Несмотря на то, что деньги уже давно «попилены» в стартапах некоторые алгоритмы распознавания реализованы в коммерческих продуктах, их интеграция в клиническую практику вызывает массу вопросов.

Регламентирующие документы в данной области начали появляться буквально в последние пару лет. Американская медицинская ассоциация впервые опубликовала рекомендации к ИИ в сфере здравоохранения в 2018 году. В документе преимущественно говорится о необходимости интегрировать точку зрения практикующих врачей в разработку, проектирование, проверку и внедрение ИИ.

В данном ключе показательно и исследование Google из предыдущего пункта. Модель ИИ от Google сегодня рекомендуется для клинических исследований как система поддержки принятия решений врача. Алгоритм рассматривается как альтернатива второму чтению рентгенолога, что должно снизить нагрузку для экспертов второго чтения на 88%.

Когда уже можно будет пройти диагностику с ИИ?

На регулярной основе — скорее всего, не в ближайшие годы. В России наблюдается отсутствие нормативно-правовой базы, отсутствие централизованного сбора данных и в целом низкий уровень цифровизации здравоохранения. Вдобавок, законодательство в области владения и передачи медицинской информации находится в «серой зоне», и каждый действует на свое усмотрение (что можно сравнить с перемещением по минному полю).

Однако есть и хорошие новости. В Москве с начала 2020 года реализуется «Эксперимент» по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы. В рамках него уже более 1 миллиона исследований обработано отечественным и зарубежными сервисами, в основе которых находятся нейронные сети, «натренированные» на поиск патологий.

Для эксперимента было выбрано три направления, однако пандемия внесла свои коррективы, и спектр был расширен до четырех:

  • КТ органов грудной клетки — поиск признаков вирусной пневмонии (актуально для COVID-19);
  • КТ органов грудной клетки — поиск признаков рака легкого;
  • рентгенография и флюорография органов грудной клетки — поиск патологий легких (в перечне 10 признаков);
  • маммография — поиск признаков рака молочной железы.

Исследования в обезличенном виде отправляются на серверы, расположенные на территории РФ, где обрабатываются «на лету» и возвращают результаты в окно врача (по правилам — не более 15 минут от момента, когда исследование завершилось, до отображения результатов анализа).

Если эксперимент будет признан успешным, велика вероятность, что эта практика будет развиваться и в других регионах РФ. Аналогов такого широкого внедрения ИИ в реальную клиническую практику в мире нет, так что теперь есть «плюс один» повод гордиться нашей страной и соотечественниками, благодаря которым удалось реализовать такой масштабный проект.

«Эксперимент» — это уникальный проект в мировой практике по тестированию алгоритмов ИИ для распознавания медицинских изображений [10]. А появление аналогичных проектов в разных странах неизбежно стимулирует рост существующих компаний и создание новых проектов, охватывающих всё большее количество патологий.

Подробнее про сам «Эксперимент» (и в основном с коммерческой точки зрения) мы написали в другой статье на портале [10]. Во сколько обходится одно предсказание ИИ, и сколько таких предсказаний поштучно закуплено. А также что за компании уже работают как помощники московских радиологов. Всё это — по ссылке.

В этом тексте мы увидели, что ИИ не только не так страшен, как его малюют. Но и поможет обеспечить каждую районную поликлинику «средним врачом» мирового уровня.

Литература

  1. Ilya Kuzovkin, Raul Vicente, Mathilde Petton, Jean-Philippe Lachaux, Monica Baciu, et. al.. (2018). Activations of deep convolutional neural networks are aligned with gamma band activity of human visual cortex. Commun Biol. 1;
  2. Hartnett K. (2019). Математическая модель раскрывает секреты зрения. «Хабр»;
  3. Mohammadhassan Izadyyazdanabadi, Evgenii Belykh, Michael A. Mooney, Jennifer M. Eschbacher, Peter Nakaji, et. al.. (2018). Prospects for Theranostics in Neurosurgical Imaging: Empowering Confocal Laser Endomicroscopy Diagnostics via Deep Learning. Front. Oncol.. 8;
  4. Huiquan Wang, S. Nizam Ahmed, Mrinal Mandal. (2020). Automated detection of focal cortical dysplasia using a deep convolutional neural network. Computerized Medical Imaging and Graphics. 79, 101662;
  5. Stember J. and Shalu H. (2020). Deep reinforcement learning to detect brain lesions on MRI: a proof-of-concept application of reinforcement learning to medical images. arXiv.org;
  6. Увидеть то, что неподвластно глазу: как радиомика помогает врачам в диагностике опухолей;
  7. John C. Gore. (2020). Artificial intelligence in medical imaging. Magnetic Resonance Imaging. 68, A1-A4;
  8. Scott Mayer McKinney, Marcin Sieniek, Varun Godbole, Jonathan Godwin, Natasha Antropova, et. al.. (2020). International evaluation of an AI system for breast cancer screening. Nature. 577, 89-94;
  9. Ray T. (2020). Is Google breast cancer detection AI better than doctors? Not so fast. ZDNet;
  10. Заглянем в окошко московской кибер-поликлиники.

Комментарии