https://extendedlab.ru/?utm_source=utm_source%3Dbiomolecula.ru&utm_medium=utm_medium%3Dbanner&utm_campaign=utm_campaign%3Dbiomolecula&utm_content=utm_content%3Dperehod_ot_biomolekula&utm_term=utm_term%3Dbiomolecula
Подписаться
Оглавление
Биомолекула

Чем докажешь? Заметка о современной (и не очень) биостатистике

Чем докажешь? Заметка о современной (и не очень) биостатистике

  • 2207
  • 0,7
  • 1
  • 6
Добавить в избранное print
Обзор

Пророк Даниил, размышляющий над решением биостатистической задачи. Казалось бы, какая связь между пророками древности и современными статистическими пакетами? Об этом мы постараемся рассказать в этой статье.

иллюстрация Анны Фирсовой

В этой статье, подготовленной совместно с Институтом биоинформатики, мы расскажем о том, как отдельные эксперименты и начинания в области биостатистики выросли в комплексную дисциплину; что значит быть биостатистиком сегодня; а также о программах Института биоинформатики, которые позволили многим выпускникам стать успешными специалистами в этой области.

О чем мы чаще всего вспоминаем, когда слышим о статистике? О шансах уронить бутерброд «правильной» стороной, большей аварийной опасности автомобилей черного цвета, классическом соотношении девчонок и ребят — 10:9 — и о других занимательных фактах. Очевидно, что область статистики гораздо глубже, и статистические методы так или иначе используются во всех областях знания. Так, можно говорить о социальной, правовой, экономической статистике — подставьте любое прилагательное и станьте создателем новой дисциплины.

Не стали исключением и науки о жизни. Открытия биологии и медицины уже давно вышли за пределы лабораторий и фундаментальных учебников и стали частью нашей повседневности. Этот социальный феномен, известный как медикализация общества [1], проявляется в числе прочего и в том, как много явлений повседневной жизни мы склонны объяснять в категориях этих наук. Так, поэзия бессонницы свелась к прозе синтеза мелатонина, феноменальные способности — к наличию определенных генетических аллелей, а чудо первой любви — к каскаду гормональных реакций. За каждым из этих пунктов кроется огромный пласт исследований [2].

Современное научное знание, в широком смысле, базируется на принципе доказательности. При этом особенно строгие требования к результатам исследований предъявляются именно в области медицины и всего, что может быть связано с человеческим здоровьем. Термин «доказательная медицина» является калькой с английского evidence-based medicine — медицина, основанная на достоверной и корректно обработанной информации. Каких доказательств требует такой подход? Прежде всего, это доказательства эффективности и безопасности лечения для пациентов. Жесткая зарегулированность медицинской и фармацевтической сфер аналогична тому, как регулируется сфера атомной энергетики [3], [4]. Как Чернобыльская катастрофа, так и талидомидовая трагедия стали притчами во языцех [5], [6]. Так, строгость к требованиям безопасности и качеству исследований не позволили сотруднице FDA, доктору Фрэнсис О. Келси, допустить талидомид на американский рынок, после чего она подверглась колоссальному давлению со стороны фармацевтической компании, но выстояла — и тем самым спасла жизни и здоровье, возможно, десяткам тысяч детей.

В целом же, получить желанный evidence можно, если критически и рационально оценивать проводимые исследования, опираясь на методы клинической эпидемиологии и биостатистики. Можно условно сказать, что первая наука отвечает за методологический базис, а вторая — за математическое сопровождение; но заметим, что в современной доказательной медицине эти два направления уже настолько переплелись друг с другом, что, говоря о математике, нужно говорить и о методологии, а говоря о методологии — о математике.

Не стоит, однако, думать, что роль статистики в мире медицины ограничивается только клиническими исследованиями. Статистика — дело серьезное и могущественное, порой пренебрежение к ней может привести к заключению невиновного человека в тюрьму, а грамотное владение ее методами — освободить. Так произошло с нидерландской медсестрой Люцией де Берк, которая в 2003 году предстала перед судом по обвинению в серийных убийствах младенцев в Гааге. Она безуспешно апеллировала в высшие инстанции, не признавая себя виновной, и провела за решеткой суммарно почти девять лет, прежде чем британскому ученому и выдающемуся статистику Ричарду Гиллу удалось вызволить женщину. Ученого заинтересовали данные, предоставленные экспертом со стороны обвинения в лице Хэнка Элфферса, согласно которым вероятность того, что смерти детей могли быть неудачным совпадением, составляет 1 к 342 миллионам. Профессор Гилл решил перепроверить расчеты самостоятельно и пришел в ужас, обнаружив большое количество методологических ошибок и когнитивных искажений [7]. В своей статье он описал, что такие малые вероятности получились, поскольку выбранная дискретная вероятностная модель была слишком упрощенной. В результате пересчета выяснилось, что вероятность того, что произойдет ряд смертей, за которые была осуждена Люция, составляет примерно 1 к 49. Гилл также утверждает, что ошибочные расчеты привели к первоначальным подозрениям и сыграли свою зловещую роль в нагнетании атмосферы вокруг судебного процесса. Эта история получила большой резонанс как в Нидерландах, так и по всему миру, и была экранизирована в 2014 году.

В целом же тенденция к росту авторитета биостатистики в медицине, безусловно, воодушевляет. За последние годы область применения этой науки многократно увеличилась, а профессия биостатистика стала по-настоящему востребованной. При этом трудно избежать соблазна рассказывать о биостатистике как о новой и технологичной области, но так ли уж она нова, если разобраться? Что, если область биостатистики стара как мир? В общем, если и начинать ретроспективу, то с самых истоков, поэтому мы расскажем вам историю биостатистики с библейских времен и до сегодняшних дней. Как уже отмечалось выше, порой бывает трудно отделить методологию исследований от непосредственно биостатистики, поэтому, вспоминая вехи одной науки, будем попутно держать в уме и другую.

Биостатистика с библейских времен и почти до наших дней

Самые ранние упоминания чего-то похожего на клиническое исследование (то есть исследование с участием людей, в ходе которого даже были сделаны попытки провести некоторые расчеты) нам удалось найти в Ветхом Завете. В 7 веке до н.э. у пророка Даниила возник спор с надзирателем Амелсаром по поводу того, как правильно питаться — заметьте, что вопрос остается актуальным и в наши дни! Даниил утверждал, что нужно придерживаться вегетарианской диеты — овощи и вода, — а Амелсар выступал за роскошную царскую еду — мясо и вино (все мы немного Амелсар).

Мясо и вино vs. овощи и вода

Рисунок 1. Мясо и вино vs. овощи и вода. Согласно Ветхому Завету, надзиратель Амелсар был приставлен к пророку Даниилу для наблюдения за его питанием. Даниил убедил его опытным путем сравнить пользу растительной и животной пищи.

иллюстрация Анны Фирсовой

И тогда сказал Даниил Амелсару: «Cделай опыт над рабами твоими в течение десяти дней; пусть дают нам в пищу овощи и воду для питья; и потом пусть явятся перед тобою лица наши и лица тех отроков, которые питаются царскою пищею, и затем поступай с рабами твоими, как увидишь» (Дан 1:11,16). Исследование длилось десять дней, и как вы думаете, каковы были результаты? «По истечении же десяти дней лица их [Даниил и его команда] оказались красивее, и телом они были полнее всех тех отроков, которые питались царскими яствами» (Дан 1:11,16). Несмотря на то, что в этом уроке доказательной диетологии от пророка Даниила мы видим практически все основные элементы полноценного клинического исследования, человечество долгое время не использовало и не развивало эти идеи, и следующее упоминание того, что можно было бы назвать клиническим исследованием, появляется только спустя несколько тысячелетий.

В 1537 г. уже нашей эры французский полковой хирург Амбруаз Паре впервые задумался о том, что эффективность лечения нужно проверять и доказывать. Так он показал, что стандартное в то время лечение огнестрельных ран (масло черной бузины) не просто бесполезно, но более того — ухудшает процесс выздоровления. Как водится, помог его величество Случай: у Паре просто закончились средства «стандартной терапии», и пришлось на скорую руку смешать мазь из того, что было. Каково же было удивление, когда наутро Паре нашел пациентов, лечившихся экспериментальной мазью, в лучшем состоянии, чем «счастливчиков», которым досталось масло бузины [8].

Примерно в это же время один из самых авторитетных итальянских докторов Габриэль Фаллопио смог найти способ защиты от сифилиса, стремительно распространяющегося по средиземноморскому побережью. «Я научу вас, каким образом, если вы увидели прекраснейших сирен и совокупились с ними, уберечься от галльской болезни». Он предложил способ защиты, который описал как чехол из тончайшего льна, пропитанный раствором гваякового дерева, и провел исследование с участием 1100 человек! Это можно назвать первым в своем роде масштабным проспективным исследованием, проведенным впрочем с некоторой погрешностью — в эксперименте не было контрольной группы [8].

В 1722 году врач Джон Арбетнот провел ретроспективное исследование эффективности вариоляции, которая являлась основным способом профилактики оспы до изобретения Эдвардом Дженнером вакцины. Было известно, что шанс умереть от вариоляции составляет 1:100. Арбетнот проанализировал статистику смертности в Лондоне и выяснил, что если человек не переболел и не был привит перед началом очередной волны эпидемии, то его шанс умереть составляет примерно 1:10. Таким образом, сравнив два числа, он доказал, что вариоляция дело хоть и опасное, но эффективное.

В 1747 году судовой врач Джеймс Линд, размышляющий над вариантами защиты моряков от цинги, по известным, похоже, одному только Богу причинам предположил, что цитрусовые могут помочь справиться с болезнью. Он взял 12 человек и разбил их на шесть пар, каждая из которых получила разные «БАДы». По завершению длительного путешествия оказалось, что только у той пары, которая получала цитрусовые, полностью отсутствовали признаки цинги [8]. Вот так мир получил лекарство от цинги и первый проспективный контролируемый многогрупповой эксперимент!

В 1850-е годы медсестра Флоренс Найтингейл во время Крымской войны решила собирать и систематизировать данные пациентов. Эта работа оказалась настолько значимой, что благодаря ей была проведена глобальная реформа как медицинского ухода за ранеными, так и методов сбора и обобщения статистических данных. Таким образом, Флоренс по праву можно назвать родоначальницей направления data management, без которого трудно себе представить современное клиническое исследование.

В конце 19 века — начале 20 уже началось зарождение современных представлений о доказательной медицине. Например, в работах Йоханнеса Фибигера, посвященных исследованию эффективности антидифтерийной сыворотки, мы уже видим проспективность, наличие контрольной группы и рандомизацию (пусть и в суррогатной форме — тип лечения зависел от дня недели). Все эти истории задали правильное направление мысли, и до полноценной научной дисциплины было уже рукой подать. И эту руку подали вступившие в игру математики!

Пророки, врачи, математики и ученые, которые внесли свой вклад в развитие биостатистики

Рисунок 2. Пророки, врачи, математики и ученые, которые внесли свой вклад в разные этапы развития биостатистики как самостоятельной науки.

иллюстрация Анны Фирсовой

Пожалуй, трудно переоценить вклад таких мастодонтов, как Абрахам де Муавр и Пьер-Симон Лаплас, в числе прочего создавших «прото-версию» Центральной Предельной Теоремы (ЦПТ), а также Карла Гаусса, изобретшего метод наименьших квадратов (МНК) — по его имени было названо, наверное, самое известное вероятностное распределение. Эти два приема — ЦПТ и МНК — в том или ином виде лежат под капотом огромного количества прикладных методов статистики, применяемых и по сей день. Также в 18 веке стараниями скромного пресвитерианского священника Томаса Байеса на свет появилась великая теорема Байеса. Технически, казалось бы, скромный результат (выводится на лекции для первокурсников за 10 минут) двести лет спустя триумфально возглавил отдельное направление в современной статистике — Байесовский анализ.

Даниил Бернулли был одним из первых математиков, заинтересовавшихся анализом непосредственно биомедицинских данных. Он провел реанализ работы уже известного вам Джона Арбетнота и подтвердил его результаты, сделав поправку на возраст жителей для повышения точности расчета эффективности. После этого на какое-то время мир биомедицины остался без математиков, и только в 19 веке их интерес к анализу медицинских данных снова вернулся. К этому моменту уже было очевидно, что несмотря на то, что медицина — это искусство, цифры все же что-то значат, но универсального математического аппарата, позволяющего сделать корректный анализ данных, все еще не было. Первый учебник по медицинской статистике был написан в 1840 году Луи Гаварре врачом, который также имел инженерное образование, что позволило ему эффективно соединить идеи математики и медицины.

Качественный скачок в развитии современной биостатистики произошел в конце 19 — начале 20 века, когда за дело взялись серьезные математики того времени, имена которых на слуху у всех, кто так или иначе имел дело с биостатистикой — Пирсон, Госсет (Стьюдент), Фишер. Так, Карл Пирсон разработал множество статистических методов, которые по сей день актуальны и используются в биологии и медицине. Он ввел в широкую практику такие понятия как гистограмма, корреляция, коэффициент вариации, также известен как автор критерия хи-квадрат и еще многого другого [9]. Пирсон не только развивал науку, но и по сути стал родоначальником биостатистического комьюнити — в 1900 году он основал журнал «Биометрика», который стал площадкой для обмена идеями ученых со всего мира.

В начале 20 века коллега и друг Пирсона — Уильям Госсет — разработал широко известный t-критерий Стьюдента. Почему не t-критерий Госсета? Потому что в компании Гиннесс, где работал Госсет, руководство считало все идеи, рождавшиеся в головах ее сотрудников, коммерческой тайной. Статья вышла под псевдонимом Student в уже известном вам журнале «Биометрика» в 1908 году. Рональд Фишер — биолог, а не математик по образованию — активно развивал идеи Пирсона и Госсета [10]. Госсет, который отличался невероятной скромностью, как-то сказал: «Фишер все равно бы сумел открыть все это сам», но все же, наверное, можно сказать, что идеи Пирсона, Госсета и Фишера — это три кита, на которых построена современная биостатистика (по крайней мере, одно из ее основных направлений)!

Три основателя современной биостатистики

Рисунок 3. Три основателя современной биостатистики — Пирсон, Госсет (Стьюдент) и Фишер — поднимают бокалы за светлое будущее биостатистики!

иллюстрация Анны Фирсовой

Биостатистика сегодня

Отдельной задачей упомянутых выше классиков было не просто создать очередную статистическую процедуру, но и сделать ее технически реализуемой средствами того времени. В идеале, для ее применения должно было быть достаточно квалифицированного специалиста, вооруженного таблицами и логарифмической линейкой. В крайнем случае — небольшого бюро, укомплектованного педантичными статистиками. Собственно, упомянутая выше «прото-версия» центральной предельной теоремы была предложена Муавром как способ аппроксимации, не требующий суммирования длинных рядов с жуткими биномиальными коэффициентами. Таким образом, в 19–20-х веках доминировала мода на предельные свойства различных распределений, сходящихся к каким-то более-менее осмысленным выражениям, в идеале табулируемым. Однако подобная парадигма создала и принципиальные проблемы большинства классических статистических процедур: их работоспособность гарантируется только либо на «достаточно больших выборках», либо для данных, обладающих какими-то специфическими свойствами. Таким образом, в большом количестве реальных случаев можно было только довериться судьбе и считать, что погрешность аппроксимации будет относительно приемлемой.

Но мир не стоял на месте, и в то время, как математики яростно боролись со стохастическими матрицами и сходимостями по распределению, инженеры-электрики тихо делали свою работу. Появление компьютеров — сначала монструозных промышленных, а потом и изящных персональных — ознаменовало новый шаг в развитии биостатистических методов. Оказалось, что нет необходимости штудировать справочник Градштейна и Рыжика в попытке свернуть очередной интеграл — достаточно с помощью несложной процедуры сгенерировать значения исследуемой функции и просуммировать их (метод Монте-Карло) [11]. И для оценки нулевого распределения можно не знать, что такое «остаточный член в форме Лагранжа», а нужно просто уметь ловко переставлять значения имеющейся выборки (пермутационные тесты) или случайным образом их вытаскивать (бутстреп) [12]. Ну и, наконец, байесовские процедуры, убивавшие своей сложностью и поэтому весьма ограниченно применявшиеся на практике, получили шанс на то, чтобы занять достойное место в арсенале современного биостатистика [13].

Конечно, эти новые методы, пришедшие из вычислительных наук, тоже имели скрытые ловушки. Долгое время актуальной задачей было построение в ЭВМ достаточно хорошего генератора случайных чисел, используемого в большинстве современных подходов. Были проблемы и с погрешностями округления, которые, накапливаясь, приводили к нестабильности получаемых результатов. Однако время шло, прикладная информатика развивалась, разрядность и тактовая частота компьютеров росли, и современный ноутбук стал способен обеспечивать более оперативные и корректные результаты анализа, нежели огромный статистический департамент середины 20 века, укомплектованный PDP-1.

Как говорится, аппетит приходит во время еды, и новые возможности сбора больших датасетов и возможности их обработки, подбадривая друг друга, принципиально изменили ландшафт анализа медицинских данных. Так, необходимость проводить огромное количество статистических тестов на клинических и геномных данных привела в середине 1990-х к появлению принципиально новых методов поправок на множественные сравнения. Для визуализации и упрощения анализа многомерных биологических данных в добавок к PCA стали применяться новые методы понижения размерности (MDS, t-SNE, UMAP и др.). В какой-то момент стало понятно, что реальная взаимосвязь между клиническими показателями выходит за рамки классических линейных моделей, что привело к массовому внедрению методов машинного обучения в системы поддержки принятия медицинских решений.

Таким образом, в современной биостатистике мирно сосуществуют и классический респектабельный t-тест; и t-тест на стероидах, разогнанный с помощью бутстрепа; и t-тест как составляющая алгоритмов машинного обучения. Можно только догадываться, каким будет следующий поворот, но, рискнем предположить, что далее слово будет за более глубокой интеграцией методов эпидемиологии и биостатистики в борьбе с систематическими ошибками исследований. Одним из примеров такого  «кроссовера» является набирающая популярность теория причинно-следственного вывода (causal inference), интересным образом связывающая эпидемиологию, биостатистику и теорию графов [14].

Весь этот карнавал внедрения новых методов был бы едва ли возможен без развития специальных сред программирования — так называемых систем компьютерной математики. В последнее десятилетие R, SAS и Python стали главными инструментами биостатистиков и вывели статистические исследования на принципиально новый уровень. Сложно с уверенностью сказать, какой из языков является самым популярным. SAS с высокой стоимостью подписки ценится прежде всего регуляторами за его валидированность и используется преимущественно в крупных контрактно-исследовательских организациях. В тоже время и R, и Python полностью бесплатны и позволяют решать большое количество научных задач, однако R безусловно лидирует по количеству пакетов статистической обработки данных.

Языки программирования, на которых «говорит» с данными мир биостатистики

Рисунок 4. Языки программирования, на которых «говорит» с данными мир биостатистики — R, SAS, Python.

иллюстрация Анны Фирсовой

В современном мире биологическая статистика — самостоятельная и довольно влиятельная дисциплина. Важно понимать, что она определяется не только набором методов, поэтому биостатистика ≠ анализ данных. Современная биостатистика — это широкая специализация, включающая помимо непосредственно математической статистики и программирования также компетенции в дизайне и нормативных регуляциях клинических исследований и понимание особенностей сбора и смыслового наполнения данных в реальной медико-биологический практике.

Современная биостатистика — комплексная дисциплина

Рисунок 5. Современная биостатистика — комплексная дисциплина, включающая помимо естественнонаучного знания методы математики, программирования и регуляторики.

иллюстрация Анны Фирсовой

Для работы в столь строго зарегулированной, но в то же время творческой профессии нужны свои внутренние правила и ориентиры. И раз уж не обошлось в нашей статье без библейских отсылок, мы попросили преподавателей программ по биостатистике Института биоинформатики, о которых будет рассказано дальше, поделиться заповедями настоящего биостатистика.

Десять заповедей настоящего биостатистика

Рисунок 6. Десять заповедей настоящего биостатистика от преподавателей Института биоинформатики.

иллюстрация Анны Фирсовой

Программы по биостатистике Института биоинформатики

Как же стать биостатистиком? Можно ли прийти в эту науку из другой сферы деятельности, где учиться? В России существуют различные интенсивы, курсы и магистерские программы по анализу медицинских данных. Здесь мы хотим рассказать про трек по биостатистике Института биоинформатики, который уже более десяти лет готовит грамотных специалистов в области биоинформатики, а последние годы — и биостатистики [15].

Так уж сложилось, что в настоящее время в России в научно-исследовательских институтах и больницах чаще всего отсутствует штатный отдел биостатистики. Таким образом, все бремя анализа данных, как правило, ложится на продвинутых врачей. Много общаясь с такими докторами, я увидел запрос на учебную программу, выходящую за рамки «нажмите на кнопку ОК и посмотрите на число p», но при этом не требующую героических подвигов на поле матанализа.

Евгений Бакин, к.т.н., руководитель программ по биостатистике Института биоинформатики

Интенсив по статистике для биологов и медиков проводится в Институте с 2018 года. Он длится всего месяц, но за это время участники успевают познакомиться с базовыми методами статистической обработки данных, особенностями их применения в клинических исследованиях и научных проектах, языком программирования R, а также учатся грамотно представлять полученные результаты. Программа подойдет тем, кто впервые столкнулся с необходимостью использовать статистические методы в собственной работе, но не знает, с чего начать; или тем, кто хочет систематизировать свои знания.

Интенсив — это концентрированное введение в мир биостатистики, основной целью которого является обучение участников осознанному применению базовых статистических методов и развитию творческого подхода к анализу данных.

Евгений Бакин, к.т.н., руководитель программ по биостатистике Института биоинформатики

Первая неделя обучения посвящена общей синхронизации, так как у участников интенсива может быть разный бэкграунд. Основная цель этой недели — научиться говорить на одном языке, разобраться с основными определениями и понятиями биостатистики, которые будут использоваться на протяжении всего интенсива и пригодятся в дальнейшей работе. С первого дня начинаются практические занятия — участники учатся писать код на языке R в соответствии с современной парадигмой воспроизводимости научных исследований.

Вторая неделя посвящена описательной статистике. Преподаватели рассказывают, как наглядно представлять основные статистические показатели данных в форме графиков и таблиц, как визуализировать многомерные данные, рассматривают такие методы, как кластеризация, дендрограммы и тепловые карты.

На третьей неделе речь идет о базовом инструментарии биостатистика — тех методах, которые используются практически в любом исследовании: точечные оценки, доверительные интервалы, p-значения, множественные сравнения.

Четвертая неделя посвящена многофакторному анализу. Участники будут с помощью языка программирования R осваивать более сложные статистические методы, такие как корреляционный анализ, дисперсионный анализ, регрессии и, конечно, будут учиться интерпретировать полученные результаты. Завершается интенсив обсуждением животрепещущего вопроса об оценке необходимого объема выборки для проведения исследования.

Помимо основных лекций и практических занятий в рамках интенсива проходят гостевые лекции, на которые приглашаются специалисты из разных областей работы с данными — от медиков и научных сотрудников до экспертов в области клинических исследований, биостатистического программного обеспечения. Дополнительно в ходе интенсива участники узнают о карьерных возможностях в этой области и знакомятся с потенциальными работодателями.

Курс очень насыщенный и содержит основные темы, с которыми сталкиваются как начинающие, так и более опытные исследователи. Отдельно надо отметить лекцию и практику по визуализации данных, которые представляют собой практически исчерпывающие знания ggplot2. Очень полезные лекции и практики по проблеме множественных сравнений и введению в многофакторный анализ данных. Бонусом к полученным знаниям являются скрипты, которые вы можете легко адаптировать к своим задачам, а также возможность обсудить свои проекты с лекторами курса. На мой взгляд, если вы ищите насыщенный стартовый курс для анализа и визуализации данных в R, то «Интенсив по медицинской статистике» — это лучший выбор.

Эльвира Бондарева, м.н.с., МГУ имени М.В.Ломоносова, участница интенсива по статистике для биологов и медиков 2020 года

С 2020 года в Институте проходит семестровая программа переподготовки по биостатистике. Она больше ориентирована на людей с опытом в анализе данных и начальными навыками владения языком программирования R. В ходе обучения у экспертов из разных областей (медицина, анализ данных, фарм-индустрия и пр.) студенты углубляют знания по биостатистике и получают самые современные навыки, необходимые специалисту в этой области.

Четыре основные концепции программы

  1. Мультидисциплинарный подход к освоению биостатистики
  2. Обучение через понимание
  3. Интенсивная практика программирования на языке R
  4. Командная работа над проектом по обработке реальных данных

Программа состоит из четырех модулей:

  1. Методология и регуляторика. В рамках этого модуля студенты знакомятся с основными методами доказательной медицины и принципами клинической разработки, учатся грамотно планировать эксперименты и оформлять полученные результаты в отчеты и статьи.
  2. Специфика биомедицинских данных. Исходные данные часто нуждаются в тщательной предварительной подготовке перед началом анализа — это может быть связано с особенностями сбора данных, спецификой объекта исследования и многими другим обстоятельствами. Понимание особенностей данных и умение привести их в пригодный для анализа вид — важный навык, которому уделяется отдельное внимание в процессе обучения.
  3. Статистика и анализ данных. Участники пройдут путь, в ходе которого подробно изучат классические методы статистического анализа, о которых узнают много нового, а также познакомятся с современными методами машинного обучения.
  4. Программирование. В течение четырех месяцев в рамках выполнения домашних заданий и работы над проектами студенты будут регулярно использовать язык программирования R, который широко применяется как в науке, так и в индустрии.

Помимо лекций и практических занятий программа включает в себя проектную часть обучения. Студенты под руководством опытных кураторов работают с реальными данными и проходят путь от формализации задачи до получения результатов, а в некоторых случаях даже до публикации. Обычно команды состоят из студентов разных специальностей: например, медиков, биологов и сотрудников фармацевтических компаний. Это позволяет участникам делиться опытом друг с другом и учиться эффективно работать в команде.

В рамках обучения по программе мне удалось поработать над проектом «Внешняя валидация шкалы мониторинга состояния пациента с COVID-19». Задача проекта заключалась в том, чтобы валидировать новый подход к оценке состояния пациентов с COVID-19, разработанный в ПСПбГМУ им. академика И.П. Павлова. Для анализа были использованы данные пациентов, прошедших через реанимацию Института Скорой Медицинской Помощи (г. Кишинев, Республика Молдова) за 2020–2021 гг. Сначала казалось, что справиться с таким объемом данных, хранящихся в специфическом формате, нереально, но нам удалось очень органично распределить роли в команде: Олег Арнаут отвечал за экспертизу в доменной области, за предоставление данных для анализа и за формирование запросов к менеджерам данных в учреждении; Мария Сергеева занималась фильтрацией, форматированием и чисткой данных; Алиса Моршнева и я занимались статистическим анализом полученных данных. Работа в команде была очень продуктивной, не было такого, что каждый сидел и самостоятельно решал свою задачу: мы достаточно много общались, все вместе прорабатывали стратегию, после чего каждый работал над своей задачей и затем рассказывал о результатах своей работы команде. В итоге каждый из нас приобрел компетенции и в дата менеджменте, и в анализе данных. Отдельно хотелось бы отметить важную роль куратора проекта — Евгений Бакин не только помогал нам на первых этапах настроить коммуникацию и организовать работу, но и познакомил с большим количеством интересных статистических аспектов, которые не входили в основную программу курса. В итоге для меня опыт работы над проектом оказался не менее важным, чем знания, полученные на лекциях и практических занятиях. Полученные навыки регулярно использую в повседневной работе.

Алексей Глазков, к.м.н., с.н.с., биостатистик, ГБУЗ МО МОНИКИ им. М.Ф. Владимирского, выпускник программы Института биоинформатики «Биостатистика и анализ медицинских данных» 2021/22 года

Один из проектов на программе 2022/23 гг. был посвящен анализу базы данных бездомных пациентов, обратившихся за медицинской помощью в Благотворительную больницу. Идейным вдохновителем проекта стал Сергей Иевков — директор больницы, а наши студенты обработали и проанализировали собранные данные, помогли найти основные факторы, влияющих на качество жизни бездомных людей. Это позволит улучшить сервисы больницы, а работы подобного рода — уникальная практика для России. Сергей и выпускники программы сейчас готовят к публикации полученные результаты. Подробную информацию о всех проектах 2022/23 года вы можете найти на сайте Института.

Впечатления от работы со студентами программы по биостатистике Института биоинформатики самые положительные: мы проверили ряд гипотез, связанных с состоянием здоровья бездомных людей в Петербурге, используя собственную базу данных почти за два года деятельности. Для нас, некоммерческой организации, это стало возможностью оценить тот массив информации, что врачи и волонтеры собирали во время рейдов к людям, попавшим в беду. Полученные результаты позволили нам оценить точки роста и определиться со стратегией развития помощи бездомным, задуматься о более точных метриках по измерению социального эффекта нашей работы. Сами студенты — молодцы, уже после окончания обучения по программе решили довести работу с данными до научной публикации в журнале, над чем сейчас и работаем. Ощутимым преимуществом обучения являлись чуткое руководство куратора, несколько промежуточных публичных выступлений и постоянное общение в группе со студентами.

Сергей Иевков, директор «Благотворительной больницы», куратор проекта на программе Института биоинформатики «Биостатистика и анализ медицинских данных» 2022/23 года

Также в рамках программы проходят гостевые лекции, круглые столы по построению карьеры, семинары, консультации. В этом году организаторы провели экспериментальный хакатон по индустриальной биостатистике, на котором участники получили практический опыт дизайна и проведения клинического исследования.

На программу приходят люди с абсолютно разным бэкграундом — медики, биологи, сотрудники фармацевтических компаний, физики, химики, программисты, преподаватели, экономисты и т.д. Как показывает практика, вне зависимости от сферы деятельности, из которой люди приходят на программу, после ее завершения им удается успешно перепрофилироваться и работать в научных институтах, больницах, фармкомпаниях, контрактно-исследовательских организациях.

Я поступила на программу, имея за плечами экономическое образование, некоторый опыт работы в сфере анализа данных, в том числе медицинских, и навыки программирования на R и Python. Моей целью была систематизация знаний по биостатистике, знакомство с регуляторными требованиями в отношении клинических исследований, расширение связей среди специалистов по работе с медицинскими данными. С уверенностью могу сказать, что я не только достигла этих целей, но и получила массу приятных и полезных бонусов — прежде всего, благодаря профессионализму преподавателей, открытости к пожеланиям слушателей со стороны администраторов программы и поддержке моих однокурсников. По всем этим критериям программа точно превзошла мои ожидания! Кроме того, на завершающем этапе обучения мне посчастливилось пройти отбор на постоянную работу в компанию «Биокад», где я теперь активно применяю полученные на программе знания и навыки. На мой взгляд, аналогов программы в российском образовательном пространстве нет, и я смело могу ее рекомендовать как тем, кто только начинает свой путь в биостатистике, так и тем, у кого уже есть опыт в этой области. Будет одновременно интересно, полезно, зажигательно, волнительно и очень душевно!

Ольга Мироненко, к.э.н., менеджер по оценке технологий здравоохранения, «БИОКАД», выпускница программы Института биоинформатики «Биостатистика и анализ медицинских данных» 2022/23 года

Мы постарались рассказать вам о том, что такое биостатистика, какова история этой науки и что происходит с ней сейчас. Конечно, в этой области остается много открытых вопросов, которые важно и нужно обсуждать, но, чтобы заниматься поиском предикторов, не обязательно быть пророком! Мы надеемся, что эта статья станет началом такого диалога, обмена мнениями и опытом, а также поиска возможностей для коллаборации. С этими мыслями мы хотим анонсировать продолжение интенсивов и программ переподготовки, будем рады новым знакомствам и расширению связей между специалистами в нашей стране и не только!

Помимо качественного обучения студентов, важной целью программ Института биоинформатики является создание открытого и развивающегося сообщества биостатистиков!

Евгений Бакин, к.т.н., руководитель программ по биостатистике Института биоинформатики

Литература

  1. Михель Д.В. (2011). Медикализация как социальный феномен. Вестник Саратовского государственного технического университета. 4, 256–263;
  2. Бороздина Е., Васильев П., Звонарева О. (2023). Курс «Доказательная медицина и общество». Stepik;
  3. Постклиника: что осталось за кадром?;
  4. И царствуют, и правят: как регуляторы следят за допуском лекарств на рынок;
  5. От живого к неживому. Доклинические исследования сегодня и завтра;
  6. Доверяй, но проверяй: как контролируют эффективность и безопасность лекарств и других продуктов после регистрации?;
  7. Cathleen O’Grady. (2023). Unlucky numbers. Science. 379, 228-233;
  8. Шифрин М. 100 рассказов из истории медицины. М.: Альпина Паблишер, 2022. — 696 с.;
  9. David H.A. (2009). Karl Pearson—The Scientific Life in a Statistical Age by Theodore M. Porter: A Review. International Statistical Review / Revue Internationale de Statistique, 77, 30–39;
  10. Ronald Aylmer Fisher, A. R. G. Owen. (1962). An Appreciation of the Life and Work of Sir Ronald Aylmer Fisher :F.R.S., F.S.S. Sc.D.. The Statistician. 12, 313;
  11. Dirk P. Kroese, Tim Brereton, Thomas Taimre, Zdravko I. Botev. (2014). Why the Monte Carlo method is so important today. WIREs Comp Stat. 6, 386-392;
  12. Efron B. (1981). Nonparametric estimates of standard error: The jackknife, the bootstrap and other methods. Biometrika. 68, 589-599;
  13. McElreath R. Statistical Rethinking : A Bayesian Course with Examples in R and Stan (2nd ed.). Chapman and Hall/CRC, 2020. — 612 p.;
  14. Judea Pearl. (2009). Causal inference in statistics: An overview. Statist. Surv.. 3;
  15. Сome to the bioinformatics side: Институт биоинформатики в Санкт-Петербурге.

Комментарии