Михаил Беляев: об анализе изображений, взаимодействии с врачами и ограничениях в автоматизации медицинской диагностики
27 июля 2022
Михаил Беляев: об анализе изображений, взаимодействии с врачами и ограничениях в автоматизации медицинской диагностики
- 386
- 0
- 1
-
Автор
-
Редакторы
Михаил Беляев — информатик, руководитель лаборатории по анализу медицинских изображений в Сколтехе, специалист в области машинного обучения и искусственного интеллекта.
Разговоры за жизнь
За последние полгода мир вокруг нас изменился. Наука не осталась в стороне от этого. Тем не менее, области знаний, которыми интересуются ученые в России и за рубежом, остались те же. Совместный со Сколтехом и Российским научным фондом медиапроект «Разговоры за жизнь» — цикл интервью известных ученых о своей работе, пути в науке и поиске вдохновения.
— Михаил, здравствуйте! В прошлом вы участвовали в разных проектах — от испытания капсулы для Формулы-1 до построения модели системы охлаждения атомной электростанции. Расскажите, как получилось, что вы перешли в медицину?
— Первая часть моей карьеры действительно связана с индустриальными приложениями. Мы делали новые алгоритмы машинного обучения для инженеров и помогали решать различные задачи — в основном это было проектирование: например, мы работали с аэродинамикой самолетов и прочностными характеристиками болидов Формулы-1. В какой-то момент мне захотелось поменять область деятельности, найти направление, в котором, с одной стороны есть много данных, а с другой стороны — много открытых вопросов, на которые можно было бы потенциально ответить с помощью алгоритмов машинного обучения.
Какое-то время мы искали свою нишу и занимались нейроинтерфейсами. Интерфейс «мозг — компьютер» генерирует много данных по мере того, как меняется электрическая активность мозга во время мыслительных процессов. Однако при использовании неинвазивных электродов — таких, которые, в отличие от чипа Илона Маска, просто кладутся на голову — сигналы оказываются слишком слабыми, а это существенное ограничение при обработке. Позже мы переключились на нейронауки, где тоже много данных, причем очень сложных — это функциональное и структурное МРТ, по которым можно понимать, как устроена структура мозга у конкретного человека и как он функционирует при решении той или иной модельной задачи.
Но затем я понял, что анализ данных в нейронауках пока слишком далек от реальной жизни. Это абсолютно фундаментальные исследования, и не факт, что они приведут к какому-то результату. Поэтому мы занялись анализом медицинских изображений, но уже в контексте помощи врачам — то есть начали решать конкретные проблемы.
— Как строится ваше взаимодействие с врачами?
— Вообще, есть два типа исследований в этой области. Первый жанр — мы хотим решить какую-то чисто алгоритмическую задачу фундаментального характера. Например, подобную работу мы ведем в рамках моего текущего гранта РНФ. Как правило, когда на снимке что-то ищут, то пытаются выделить конкретный участок изображения или какой-то интересный объект. Самый популярный пример — поиск лица на фотографии, сейчас многие смартфоны умеют квадратиком обводить лица и фокусироваться на них. Но в медицине постановка задачи намного сложнее, так как обычно мы хотим уже не просто обвести область квадратиком, а аккуратно очертить границу на снимке (как в случае с опухолью). Кроме того, изображения, с которыми мы работаем — МРТ и КТ — это скорее стопка картинок, потому что сканирование проводится уровень за уровнем. То есть фактически, мы имеем дело с трехмерным изображением. И если мы на этих стопках картинок хотим решать задачу поиска контуров, или сегментации, например для выделения метастаза, то возникают сложности. Оказывается, в медицине часто ищут не трехмерные объекты, например шарик, а двухмерные — поверхность или вообще кривую. И хороших методов, которые помогли бы выделить на изображении сложную поверхность, имея в качестве входных данных лишь исходный снимок, сегодня нет.
Можно назвать еще один пример фундаментальной задачи, тоже очень важный. У медицинских данных есть характерная особенность: снимки внутри одной больницы очень похожи друг на друга (да, анатомия у всех безусловно разная, но стиль картинок — их яркость, резкость, — как правило, совпадает), но если прийти в другое учреждение, то там все будет выглядеть совершенно иначе: теперь новые участки изображения будут более яркими, а другие — более темными. С точки зрения человека, это не очень большая проблема. Мы с вами можем посмотреть на снимок, нам объяснят, что вот эти белые пятнышки — это очаг демиелинизации белого вещества, возможно, рассеянный склероз, а потом мы придем в другую больницу, посмотрим на их снимки и, в принципе, такие же пятнышки найдем. Алгоритмы этого делать не умеют. Они совершенно драматически ломаются, когда им начинают показывать картинки, которые в принципе похожи, но имеют другой стиль. Это большое направление — как придумать алгоритмы, которые будут лучше переноситься между разными источниками данных.
Второй жанр исследований — это конкретные прикладные, потребность в которых возникает у врача в клинической практике каждый день, и он хотел бы получить помощь в решении от алгоритма. Здесь, как правило, две потенциальные пользы. Первая — алгоритм может что-то измерить автоматически гораздо быстрее и, как правило, точнее, чем это делается вручную. Например, врачи рутинно обводят на снимках МРТ границы опухоли перед тем, как начать лучевую терапию, и это можно делать с помощью системы искусственного интеллекта — а специалист будет смотреть и корректировать результат работы алгоритма при необходимости. Такого рода исследования мы делали с Институтом нейрохирургии имени Бурденко. Здесь очень важный результат — это оценка того, как алгоритм компьютерного зрения поменял жизнь специалиста. Оказалось, что благодаря алгоритмам мы заметно повышаем согласованность между разными врачами. Оценка границ опухоли — это все-таки субъективная процедура. Кто-то решает, что вот этот кусочек надо добавить, потому что он какой-то подозрительный, а кто-то говорит — нет, не надо. Теперь же у врачей есть сценарий, когда сначала им дается подсказка, с которой они могут либо согласиться, либо нет.
И другая, более очевидная польза: мы помогаем найти сопутствующие патологии, т.е. алгоритм может «увидеть» то, на что специалист не обратит внимание. Здесь можно привести очень жизненный пример. Сейчас идет огромный поток пациентов с подозрением на СOVID-19, и врачи смотрят на результаты компьютерной томографии, концентрируясь на легких. На другие органы они могут просто не успеть посмотреть — а на КТ грудной клетки видны сердце, позвоночник, основные сосуды, виден кусочек печени, то есть очень много органов, в которых тоже что-то может быть не так. И здесь может пригодиться алгоритм, который оповестит врача, если заметит нечто подозрительное.
Это два разных жанра. Один — это фундаментальные исследования, где мы исходим из какой-то алгоритмической проблемы. Второй — более прикладные истории, где мы хотим помочь врачу сделать какой-то инструмент.
— Где находятся ваши исследования по отношению к наукам о жизни?
— То, что я делаю — это computer science. Вся моя группа — это люди по большому счету с техническим образованием. Мы уже кое-что знаем про то, как работает медицина, но все-таки основное требование — это компьютерные науки. И в этом смысле наши исследования от биологии очень далеки. Здесь мы скорее идем по пути поиска хороших партнеров, то есть мы хорошо знаем техническую часть, и нужны врачи, которые нашу энергию направят в правильную сторону и объяснят, что нужно делать, что для них важно, а что — нет. Врачи в некотором смысле — модельный пользователь. Они уже знают, как решать их задачу, и чего им не хватает для хорошей жизни.
— Алгоритмы начали развиваться где-то с 60-х годов прошлого века, и обработка изображений существует уже достаточно давно. Как сейчас обстоят дела в вашей области ИИ в медицине?
— В компьютерном зрении, в широком смысле, произошел прорыв где-то 6–7 лет назад, который после этого начал распространяться в разные области, в том числе и в медицину. Поэтому сначала было большое воодушевление — все думали, что сейчас мы решим огромное количество задач, которые решить раньше не получалось. А теперь наступило некоторое разочарование, или скорее объективная оценка того, что происходит. Выяснилось, что тот первоначальный массив научных статей, который дал основание считать, что сейчас все будет здорово, был во многом некорректно с фактологической точки зрения построен.
В частности, исследователи брали данные из одной больницы и показывали: «Смотрите, у нас супер-алгоритм». А потом выяснялось, что в соседней больнице программа совершенно не работает. Медицина, как отрасль, давно выработала определенные правила проверки эффективности. Многоцентровые испытания — это одна из форм проверки, которая используется для тестирования, например новых лекарств, но их важность для систем искусственного интеллекта стали понимать лишь недавно. И теперь, мне кажется, происходит реальная оценка того, что реально алгоритмы могут, а что нет.
Параллельно специалисты пытаются точнее понять, собственно, какие задачи остаются открытыми. Оказывается, что еще многое не решено и пока не создан универсальный алгоритм, который сможет в перспективе заменить врача, о чем так любят говорить разные популисты. Ограничений у искусственного интеллекта много — он все-таки пока довольно глупый — и неизвестно, куда его удастся в ближайшие годы с этой точки сдвинуть.
— Можете рассказать о самых больших достижениях в вашей области за последние годы?
— Если говорить про компьютерное зрение вне медицины, то прорыв произошел около 6 лет назад в ImageNet Challenge — одном из самых ярких публичных соревнований. Участникам в рамках конкурса выдается около миллиона картинок, на которых изображен какой-то объект. Или объектов может быть несколько, но главным будет что-то одно: например, собака. И каждая порода будет представлять собой один класс в этом соревновании — а их больше ста. Прорыв случился, когда точность классификации алгоритмами выросла примерно с 60–70 процентов, что очень сильно уступало человеку, до 97–98 процентов. При этом, по разным оценкам, человек допускает 3–4 процента ошибок. То есть оказалось, что нейросеть справляется с задачей лучше, чем человек.
Следующий прорыв был ближе к искусственному интеллекту, но технологически все еще похож на предыдущий. Примерно пять лет назад AlphaGo — программа, которую сделала лаборатория компании Google Deep Mind, — обыграла человека в го. Го всегда считалась самой сложной для алгоритмизации игрой, гораздо сложнее чем шахматы, потому что вариантов развития ситуации на доске в ней принципиально больше.
В медицине одним из самых известных достижений стало решение по поиску признаков рака легкого на КТ грудной клетки (тоже, кстати, от Google). Оказалось, что при анализе единичного снимка — когда человек пришел, его просканировали и тут же отдали эти данные на обработку — алгоритм показывает даже большую точность, чем врач. А в сценарии, когда тот же пациент уже раньше приходил в больницу (а значит, можно было проследить за изменениями), качество работы компьютера и живого специалиста было примерно одинаковым.
При этом в прошлом году в Lancet — самом авторитетном и самом старом медицинском журнале — вышла статья, рассказывающая о том, насколько плохо делается валидация алгоритмов искусственного интеллекта и как сильно она не соответствует клиническим требованиям. На самом деле, безусловно, потенциал у технологии есть, однако говорить, что она уже может взять на себя какую-то существенную часть задач, пока нельзя.
— Для решения каких задач применяются алгоритмы искусственного интеллекта?
— Медицина — достаточно консервативная отрасль. Цикл испытаний, который требуется для того, чтобы войти в нее — не важно с новым фарм-препаратом или с новым программным обеспечением — занимает определенное время. Этот факт несколько тормозит внедрение инноваций.
Тем не менее, есть несколько примеров. В России самый известный и хорошо организованный — эксперимент по внедрению технологий компьютерного зрения, который проводится уже второй год в поликлиниках и городских больницах Москвы. Департамент здравоохранения предложил компаниям, у которых уже есть собственные разработки, подключиться к потоку данных медицинских изображений (КТ, МРТ, флюорография, маммография) и предоставлять врачам результаты работы алгоритмов — либо автоматически «подсвечивать» какие-то патологии, либо автоматически проводить измерения и помогать врачу.
Изначально предполагалось, что искусственный интеллект будет помогать находить рак легкого и рак молочной железы, однако потом случилась пандемия COVID-19, и в итоге к списку прибавился коронавирус. Задача заключалась в следующем: понять насколько картина, которая наблюдается в легких, похожа на поражение коронавирусом, есть ли там другие патологии, и какой процент легочной ткани поражен. В итоге, получился довольно любопытный результат.
Из 15 разных российских и иностранных компаний, которые поучаствовали в проекте, семь не прошли входное тестирование: то есть их программа либо работала слишком медленно, либо выдавала некачественный результат. Из оставшихся выбрали три лидера, которые в сумме обработали данные порядка сотни тысяч человек. Аналогов такого масштабного проекта в мире я не знаю.
— Пока что искусственный интеллект врачу не замена. А хороший ли он помощник? Насколько сейчас можно в принципе полагаться на алгоритмы?
— Это очень хороший вопрос. Сейчас, на самом деле, мало хороших оценок… Они есть в научных статьях, но обычно с ограничениями. Например, взяли данные из одной больницы и здесь же определили качество работы программы. Но совершенно не факт, что при выходе на широкий рынок, продукт будет давать такой же высокий результат. В этом смысле Москва — независимый полигон для всех поставщиков и поэтому интересно будет последить за публикациями.
Есть отдельный научный центр, который анализирует результаты, но я пока что не видел официальных итогов. По предварительным данным, время описания снимков снизилось где-то на 20–30 процентов, если я правильно помню цифры. То есть, в принципе алгоритмы свою полезность уже доказали. Ведь это довольно сложная задача: представьте, у вас есть 500 изображений легкого, по которым можете «бегать» вверх-вниз, и искать на них очаги заболевания — «матовое стекло». Кроме того, для постановки диагноза нужно оценить, какую долю легких эти «матовые стекла» занимают. Это довольно сложный процесс и очень субъективный.
Когда есть алгоритм, врач может просто посмотреть на изображение, проверить, что компьютер правильно все распознал, и довериться той цифре, которую он посчитал. А если программа определила что-то неправильно, то как-то скорректировать результат. Но это применимо только к узкой задаче: когда есть одна конкретная патология. Врач-рентгенолог, например, при описании того же КТ грудной клетки должен посмотреть на все органы, которые там представлены. Он должен оценить, нет ли в сердце или позвоночнике каких-то потенциальных патологий, нет ли увеличенных лимфоузлов, как выглядят основные сосуды — аорта, легочный ствол. В легких может быть огромное количество разных изменений помимо вирусной пневмонии, которые врач тоже должен зафиксировать.
Пока текущие алгоритмы покрывают довольно маленький спектр этих задач. Или покрывают относительно большой, но разные куски делают разные производители. Соответственно, пока нет единого решения — только какой-то разнородный набор инструментов. Поэтому я бы сказал, что сейчас это один из самых важных открытых вопросов: какая конкретная польза системе здравоохранения от этих новых технологий? Ее можно измерить в минутах, в секундах, в сэкономленных жизнях. Пока оценки довольно слабые. Слабые — не в смысле плохие — доказательная база слабая.
— А с чем связаны скачки в развитии искусственного интеллекта? Почему удается вдруг подняться с 60 до 96 процентов?
— Здесь играет роль совокупность нескольких факторов. Первое — рост вычислительных возможностей. Все современные алгоритмы требуют очень серьезного «железа» для того, чтобы обучать алгоритм на основании данных и потом его применять. Просто за последние 10 лет произошли настолько сильные изменения — в частности, появились мощные современные графические карты Nvidia — которые кардинально поменяли то, насколько сложные модели можно в принципе обучать. Сложность моделей выросла многократно, при этом скорость обучения все еще остается адекватной. Это не сто лет на то, чтобы построить один алгоритм.
Второе — это то, что появилось много данных. То есть пока не было ImageNet Challenge, миллиона различных изображений, не было достаточного количества информации для обучения. А современные алгоритмы — хотя и есть определенный прогресс в этой области — по-прежнему требуют много данных для того, чтобы их, собственно, научить решать какую-то задачу.
Третье — возникли новые классы алгоритмов, которых раньше не было, или они были не популярны и недоисследованы. Оказалось, что они могут давать результаты принципиально иного уровня.
— В будущем, как по-вашему, будет развиваться именно ваша область?
— Мне кажется, основная задача сейчас — хорошая обобщаемость того решения, которое мы можем построить. Это интересная открытая проблема: как сделать так, чтобы алгоритм понимал патологию по совокупности всех причин, а не только изменению интенсивности пикселей? Как его научить переходить от успешного распознавания одной патологии легкого, примеров которой он видел сотни тысяч примеров, до распознавания других болезней по одной-двум картинкам? Человек довольно спокойно сможет обобщить свои предыдущие знания и сказать «вот это туберкулез, а это признаки хронической обструктивной болезни легких», а алгоритм пока это делает плохо. Мне кажется, это основное направление — легкое, быстрое обучение обнаружению каких-то новых патологий, которых раньше компьютер не знал, а сегодня уже знает.
— А если пофантазировать, то чего бы вам хотелось? Может быть у вас есть какая-то большая мечта?
— Первое — хочется помочь человеку, который может быть уставшим, не выспавшимся, больным, то есть врачу, который может допускать ошибки — собственно, как и все мы иногда ошибаемся. Алгоритм, даже не самый совершенный, никогда не устает, он все время работает одинаково — и утром, и ночью.
Второе — хотелось бы автоматизировать то, что человек делает сейчас. Это точно задача решаемая — вопрос в количестве данных, которые для этого нужны. Интересно попробовать понять, а можем ли мы сделать что-то, что находится за пределами человеческих возможностей? Например, в рентгенологии, в частности в онкологии, золотой стандарт диагностики, это как правило не КТ или МРТ, а гистологические исследования. То есть ткань удалили, посмотрели на нее в микроскоп и поняли: «Ага, здесь действительно был какой-то очаг». Когда врач-рентгенолог учится анализировать снимки потенциальных онкологических больных, у него есть только картинка и ничего больше.
В алгоритм мы можем ретроспективно заложить не только знания о самой картинке со всеми ее ограничениями, но еще и знания о том, какими в реальности были ткани, а затем заставить его найти паттерны, на которые человек не обратит внимание. Иными словами, хочется учить компьютер с использованием «золотого стандарта» — единственного правильного ответа для конкретного случая. И очень интересно найти задачи, в которых искусственный интеллект за счет своих особенностей смог бы поменять в принципе способы ведения пациента, постановки диагноза, принятия решения о лечении. То есть не только компенсировать невнимательность и перегруженность врача, но еще и добавить что-то сверх.
— Лично вам хотелось бы, чтобы врача заменил искусственный интеллект?
— Если вы спрашиваете хочется мне или нет, то нет, мне не хочется. Как человек, который хорошо знаком с ограничениями искусственного интеллекта, я не готов доверять ему диагностику или лечение. Поэтому я вижу все эти инструменты как помощников, не как замену.
Безусловно, есть довольно много рутинных функций, которые можно автоматизировать. Но на всякий случай надо перепроверять, чтобы алгоритм где-нибудь не сделал глупой ошибки. Здесь могу вам рассказать байку. Коллеги из Москвы тестировали различные решения по раку легкого — им нужно было в легких найти очаг, то есть что-то, что аномально увеличилось и похоже на рак легкого на ранних стадиях. И они рассказали про несколько курьезных примеров. В частности, рак легкого был найден в столе томографа — то есть там, где лежал человек — а еще в застежке бюстгальтера. Самый смешной случай был, когда нашли рак легкого в подбородке. Представьте себе, идет сканирование, и в какой-то момент высвечивается все тело, над ним кружочек подбородка, и система его определяет как опухоль. Это все смешные примеры, но они показывают, что за технологиями пока что надо присматривать.
И даже если алгоритмы сильно улучшат — например, возьмут в 10 раз больше данных и обучат на них — все равно останутся какие-то очень сложные задачи. Мы говорили, например, про диагностику рака легкого. Но ведь это только первый шаг, а дальше идет лечение! Онкология — это, наверное, самая сложная часть для алгоритмизации, потому что там всегда работает целая группа врачей: не только врач-рентгенолог, который анализирует изображения, но и хирург, химиотерапевт, и они все вместе принимают решение о стратегии лечения. И даже если представить, что мы придумали совершенный алгоритм, то помочь пациенту будет гораздо тяжелее. Там неизбежно будут ошибки.
— Сможем ли мы какие-то насущные вопросы решить в ближайшие лет 10–20? Или пока до этого еще далеко?
— Мне кажется, что по алгоритмическим вопросам — то есть как научить компьютер находить новые патологии так же быстро, как это делает человек, или как его научить обобщать данные — через пять лет будет достигнут хороший прогресс. Я допускаю, что эти проблемы вообще к тому времени уже будут решены.
Что точно останется открытым — это более сложные задачи в медицине. Сейчас в большинстве случаев достаточно работать только с изображениями. Компьютерное зрение в других областях отличается: например, при автоматическом управлении беспилотными автомобилями или роботами возникают дополнительные сложности, связанные с тем, что приходится взаимодействовать с окружающим миром, который динамически меняется. В этом смысле медицинские изображения — это статичная история, поэтому тут принципиальных фундаментальных ограничений, которые заставили бы нас упереться в потолок, нет. Но как только мы начинаем говорить о более комплексных медицинских задачах, когда надо проанализировать не только картинку, но еще историю болезни, которая написана не очень структурированным текстом, результаты лабораторных анализов, и видео пациента, например, понять, есть ли у него тремор — то есть то, что врач глазом видит и быстро понимает — то все становится сложнее. Но я не вижу здесь опять-таки принципиальных ограничений, прогресс наверняка будет.