Представьте, что вы можете заказать самособирающегося робота, разработанного эксклюзивно под ваши нужды. Такими естественными роботами в наших клетках служат белки. Дэвид Бэйкер, нынешний нобелевский лауреат, может проектировать эти молекулы на заказ — чтобы они служили крошечными машинами, наносенсорами или лекарствами. Два других награжденных — Демис Хассабис и Джон Джампер — создали программу, которая решает противоположную задачу. Их разработка удивительно точно предсказывает строение белков по последовательности, которой они закодированы в ДНК, — а это имеет самое непосредственное отношение к заветной проблеме биофизики: фолдингу белка. В этой статье мы разберем, как работают инструменты, за которые награждены нынешние лауреаты; а затем пофантазируем, какое будущее сулят нам их проекты.
Для начала следует озвучить несколько базовых истин, за открытие которых также были вручены Нобелевские премии — но это было еще в далеком ХХ веке. Белок состоит из цепочки аминокислотных остатков с разными химическими свойствами. И эти «бусы» сворачиваются в трехмерную структуру главным образом из-за взаимодействий между отдельными «бусинами»-звеньями. Почитать об этом подробнее можно в статьях «Роль слабых взаимодействий в биополимерах» [1] и «Проблема фолдинга белка» [2].
Структура белка определяет его функции, поэтому так важно уметь ее прогнозировать. Каждая полипептидная цепь складывается в уникальную для нее структуру — это открыл Нобелевский лауреат 1972 года Кристиан Анфинсен, — причем, как правило, такая четко определенная структура только одна (хотя куда в биологии без исключений: «Одна последовательность — одна структура: был ли Анфинсен неправ?»). Получается, что сама возможность такого предсказания была осознана уже давно, но вот реальный путь оказался долгим. Еще недавно практически единственным вариантом такого предсказания было моделирование по гомологии (за подробностями отсылаем к статье «Торжество компьютерных методов: предсказание строения белков»), но сейчас лидерство, безусловно, принадлежит нейросетевым подходам.
Однако давайте разберемся со всем по порядку.
Дэвид Бэйкер: дизайн белков под новые функции
Группа американского биохимика Дэвида Бэйкера заинтересовалась проблемой фолдинга белка еще в 1990-х, и ее решение они увидели в разработке компьютерной программы, получившей название Rosetta. Опираясь на аналогию с артефактом древности — Розеттским камнем, содержащим один и тот же текст на трех мертвых языках и позволившим, сопоставляя фрагменты, расшифровать два доселе неизвестных языка, — Розетта была задумана как гибрид физического и эволюционного подхода к решению проблемы фолдинга. Делая запрос к базе данных, эта программа выстраивает предположения, какие элементы вторичной структуры будут составлять моделируемый белок; а пространственная укладка этих элементов моделируется путем перебора конформаций в специальном силовом поле . Конечно, это требовало огромных вычислительных ресурсов — некоторые задачи были решены с помощью распределенной сети, включавшей до 70 000 компьютеров: «Новые успехи в предсказании пространственной структуры белков» [5]. Но оказалось, что предсказание структуры — это не самое интересное: неожиданной перспективой стала возможность дизайна новых белковых молекул, никогда не существовавших в природе.
В 2003 году команда Дэвида Бэйкера опубликовала дизайн небольшого белка Top7 из 93 аминокислот [8]. Это был совершенно новый белок, не похожий ни на что известное ранее: ни его последовательность, ни структура не содержались ни в одной базе. Мало того: пространственное строение, определенное с помощью рентгеноструктурного анализа, полностью совпало с предсказанным (рис. 1) — такого не делал еще никто.
Интересно, что креативному Бейкеру было мало чисто научных задач — при его участии разработали компьютерную игру Fold It. В ней игрокам предлагается заняться фолдингом белков в формате головоломки, не требуя для этого научной степени и даже окончания вуза. Что интересно, игроки даже стали соавторами научных публикаций! Мы рассказывали об этом замечательном примере гражданской науки в материале «Тетрис XXI века» [10].
За последующие годы команда Бэйкера значительно усовершенствовала программу. Главным трендом стало — чтобы белок не просто был новым, а выполнял какую-то важную функцию: «Дизайнерские ферменты на службе общества» [11]. Розетту научили генерировать ферменты и белки, которые связывают определенные лиганды лучше, чем известные аналоги в природе. Так, в 2017 команда выпустила дизайн белка для быстрого и специфического анализа на фентанил — опасный наркотик. А в 2021 они спроектировали частицы, по форме и свойствам напоминающие вирус гриппа. Они могут применяться для безопасной вакцинации и уже проверены на животных.
Новые метаболические пути фиксации углерода, лекарство от целиакии, «клей» для вирусов гриппа и SARS-CoV2 — вот далеко неполный список работ Института белкового дизайна, который возглавляет Бейкер. За прочими увлекательными подробностями отправим читателя к статье «Конструкторское бюро белков» [12] и к одной научной лекции (видео 1).
Демис Хассабис и Джон Джампер: AlphaFold — собираем белковую головоломку
Пока Дэвид Бейкер и его команда развивали физические подходы к моделированию и дизайну белков, в компании DeepMind, ставшей недавно научным подразделением ИТ-гиганта Гугл Google DeepMind, решили зайти с другой стороны. Бывший шахматный гений, переквалифицировавшийся в нейробиолога, а затем — специалиста по искусственному интеллекту Демис Хассабис, а также его главный сотрудник Джон Джампер чувствовали, что к предсказанию 3D-структуры белков можно подступиться иначе. Они подключили к делу технологии глубокого обучения, которые незадолго до этого опробовали в нейросети AlphaGo[13], прославившейся тем, что отобрала у человека лидерство в когда-то казавшейся неподвластной компьютерам игре го.
Искусственный интеллект в последние годы обитает буквально в каждом утюге, не обошел стороной он и биологию, о чем мы рассказываем в особом спецпроекте: «История развития искусственного интеллекта и его пришествия в биологию» [14]. Помимо предсказания структуры белков, очень яркие и неожиданные возможности открывают, например, большие белковые модели: «Как языковые модели покорили мир белков» [15]. Вездесущность ИИ можно подтвердить хотя бы тем, что Нобелевскую премию 2024 года по физике (!) тоже выдали за искусственный интеллект — а точнее, его физические основы [16]. В интернетах шутят, что Нобелевка по литературе тоже должна быть выдана за ИИ — за «неизгладимый и важнейший вклад» ЧатаГПТ в развитии литературы и поэзии :-)
Собственно, пасуя перед лицом невероятной сложности решения проблемы фолдинга белка «в лоб», биохимики давно уже заметили, что структуры белковых молекул можно предсказывать, «срисовывая» их с родственных молекул — это называется сопоставительным моделированием или моделированием на основе гомологии[4]. Но серьезных отличий от шаблона такой метод предсказать не может — тут требовалось что-то иное.
Новый алгоритм AlphaFold 2 (прорывной считают вторую версию[17], хотя была и первая[18]) основывался на искусственной нейросети глубокого обучения [19], [20]. Она способна выявлять закономерности в огромных массивах белковых последовательностей, которые указывают на пространственную близость одних фрагментов последовательностей белка к другим.
Причина успеха AlphaFold 2 — большие данные для обучения глубокой нейросети и гигантские требуемые вычислительные мощности. В DeepMind поняли, что по-настоящему большие данные надо искать в метагеномике — «сборнике» всех генетических последовательностей, которые поколения ученых секвенировали [21] в течение десятков лет. Они включали в себя [20] даже геномы организмов, которых никто никогда не видел, но генетический материал которых выловили где-то в океане или выкопали в почве. В них «отпечатались» сотни миллионов лет эволюции, закономерности которой AlphaFold 2 было необходимо просчитать. Идею использовать метагеномику испытывали и раньше [22], но именно DeepMind удалось загрузить в нейросеть все 2,5 миллиарда последовательностей и оптимальным образом натренировать программу предсказывать все существующие на текущий момент 3D-структуры. Схематично работа AlphaFold показана на рисунках 2–4, а кому этого не хватит — приглашаем почитать статью «Как языковые модели покорили мир белков» [15] (там есть раздел про AlphaFold и другие «предсказатели») и посмотреть еще одну лекцию (видео 2). Больше прикладных вопросов (например, о слабых сторонах AlphaFold 2 и 3) обсудили на Guest Club фармацевтической компании BIOCAD в октябре 2024 г. (видео 3).
Проект AlphaFold стал небывало популярным, потому что Google DeepMind сделали доступ к программе открытым для исследователей по всему миру и также поделились ее кодом. А кроме прочего, создана база данных структур AlphaFold, куда выложили 200 миллионов (!) уже предсказанных структур, так что если вам придет в голову какой-то даже самый заковыристый белок, скорее всего, его модель там уже есть.
Что будет дальше
Одна из функций, которой ученым не хватало в AlphaFold 2 — предсказание взаимодействия белков с другими белками и малыми молекулами. Это очень важно для дизайна фармацевтических препаратов, потому что лекарственные вещества нацелены на конкретные мишени [27] (например, рецепторы в мембране болезнетворных бактерий; или иммунных клеток, вызывающих аутоиммунную реакцию). На этом специализируется Isomorphic Labs — стартап, отделившийся от Google DeepMind в 2021 в качестве полигона для применения ИИ для решения задач фармацевтики. Глобальная цель его команды во главе с Демисом Хассабисом — изменить разработку лекарств, а именно сделать ее быстрее, дешевле и снизить риски. Для этого Isomorphic Labs используют ИИ и вычислительные возможности Google DeepMind и привлекают финансирование от фармкомпаний.
В коллаборации с Isomorphic Labs в 2024 году Google Deepmind выпустили еще одну инкарнацию альфа-фолда — AlphaFold 3. Третья версия предсказывает не только структуру, но и взаимодействие белков с другими белками, ДНК, РНК и малыми молекулами иного состава. Alpha Proteo, тоже выпущенный в коллаборации в 2024 году, специализируется на дизайне «байндеров» — небольших белков, связывающихся с выбранной молекулярной мишенью наподобие антител. Доступ к AlphaFold 3 и Alpha Proteo пока ограничен. Одновременно фармкомпании, которые сотрудничают с Isomorphic Labs, получают эксклюзивные возможности новых нейросетей. Что известно об этих проектах и что они обещают для развития науки и индустрии — нам рассказали два исследователя в области вычислительной молекулярной биологии, авторы «Биомолекулы»: Артур Залевский и Павел Буслаев.
Больше Биомолекула рассказывает о биологии и медицине — сейчас у нас на сайте несколько тысяч статей. Если вам нравится наш сайт и вы хотите, чтобы он дальше работал, поддержите нас, пожалуйста, посильной суммой — разово или ежемесячно. Ежемесячные платежи предпочтительнее 😀