Повтор, еще повтор!
05 ноября 2018
Повтор, еще повтор!
- 10018
- 0
- 13
-
Автор
-
Редактор
Статья на конкурс «био/мол/текст»: На одной и той же молекуле ДНК уживаются два различных типа последовательностей — уникальные, то есть «неповторимые», и тандемные повторы, которые представляют собой повторяющиеся друг за другом копии одной и той же короткой последовательности. При этом возникают, существуют и изменяются они по законам, во многом отличающимся от тех, которые действуют в мире уникальных участков ДНК. Статья посвящена своеобразию повторяющихся участков ДНК, их значению для генома в целом, а также перспективам, которые открывает получение искусственных повторяющихся последовательностей с помощью генной инженерии.
Конкурс «био/мол/текст»-2018
Эта работа опубликована в номинации «Свободная тема» конкурса «био/мол/текст»-2018.
Генеральный спонсор конкурса — компания «Диаэм»: крупнейший поставщик оборудования, реагентов и расходных материалов для биологических исследований и производств.
Спонсором приза зрительских симпатий выступил медико-генетический центр Genotek.
«Книжный» спонсор конкурса — «Альпина нон-фикшн»
Жизнь как путешествие, ДНК как повествование
Как в научных кругах, так и в популярной культуре закрепилась метафора «ДНК — это текст». Получилась на редкость жизнеспособная и глубокая аналогия. Как текст книги, так и генетические тексты биомолекул состоят из элементарных единиц — букв и их естественных объединений — слов. Оба кодируют информацию, объем которой можно точно рассчитать с помощью математических формул, но который, увы (увы?), может оказаться и малоинформативным, и неинформативным. И тот и другой текст можно переписывать и переводить на другой язык (с помощью матричного синтеза в случае текста биологического), причем делать это с большей или меньшей точностью. Оба текста можно редактировать — говоря о ДНК, мы имеем в виду как пруфридинг (самостоятельную «работу над ошибками»), так и геномное редактирование с привлечением «сторонних специалистов» [1–5]. Оба термина дополнительно утвердили аналогию ДНК и текста, поскольку были перенесены в молекулярную биологию из лингвистики. В нашей статье хотелось бы поговорить о другом явлении, общем для генетических и языковых текстов, а именно о повторах в них.
Повторение — мать учения
Человек в своей речи может повторяться, систематически произнося одни и те же фразы и тексты, которые могут быть связаны с определенными ситуациями (например, «Вот вы где открывали, туда и идите» или «Капитан включил табло “Пристегните ремни”», а также различные песни и их припевы). Он может повторять и отдельные слова (доброжелательные — в качестве приветствия приятелю; не слишком доброжелательные, но очень выразительные — в случае бытового травматизма). Наконец, человек может повторяться односложно — для усиления сказанного ранее («...да-да-дадада»), чтобы выразить сомнение («ну-ну, ну-ну»), или просто заполнить тягостное молчание (любые звуки по выбору).
Аналогичные повторы можно встретить и в текстах биологических. Прежде всего, возможен случай «А теперь давайте повторим все сначала еще раз», как при увеличении числа копий отдельных хромосом, или полиплоидии, то есть удвоении, утроении и т.д. их полного набора. Повторению самостоятельных генов-текстов посвящена отдельная статья на «Биомолекуле» — «Под “генную гармошку”» [6]. Примерами повторов «по случаю» могут являться стоп-кодоны при трансляции [7], необходимые для целенаправленной доставки в определенную часть клетки последовательности локализации (в частности ядерной локализации [8]) или, скажем, концевые повторы вирусной ДНК.
Начинать всегда проще с элементарного — а именно повторов односложных, или, используя существующую биологическую терминологию, тандемных. Тандемными повторами ДНК называют расположенные непосредственно друг за другом совпадающие последовательности. Они могут быть прямыми (например ACTG-ACTG) или обратными (ACTG-GTCA). Аминокислотная последовательность некоторых белков также содержит подобные участки: например, в них могут присутствовать повторяющиеся последовательности длиной около 40 аминокислотных остатков, называемые Arm-повторы (от англ. armadillo — «броненосец»). Однако в этом случае идеальные (то есть не отклоняющиеся от последовательности-образца) повторы в белковых цепочках нестабильны [9]. О другом интересном примере повторяющихся элементов структуры в белках речь пойдет позже.
Какие бывают повторы
От тандемных повторов ДНК следует отличать повторяющиеся последовательности другого типа — диспергированные, то есть распределенные по геному повторы. Такие последовательности не примыкают друг к другу непосредственно, а разделены некоторыми отличающимися участками ДНК.
Сами же тандемные повторы также бывают разными:
- Сателлитные повторы — наибольшие как по размеру повторяющейся последовательности, так и по общей протяженности участки ДНК. На их долю приходится существенная часть генома в целом.
- Минисателлитные повторы — мотивы ДНК длиной 10–60 нуклеотидов, повторяющиеся примерно 5–50 раз.
- Микросателлитные повторы — «младшие братья» минисателлитных. Имеют длину 1–6 или более нуклеотидов, сгруппированных по 5–50 штук.
Разберемся с ними поподробнее. Слово satellite (с англ. «спутник») в названиях этих сходных групп последовательностей имеет историческое происхождение. Оно возникло в связи с тем, что при градиентном ультрацентрифугировании (методике, позволяющей разделять молекулы с разными физическими свойствами) сателлитная ДНК образует отдельную фракцию. Причина этого заключается в том, что такие последовательности отличаются от основной части генома по GC-составу. Таким образом, данный поэтический термин описывает техническую сторону получения первых образцов данных последовательностей и не имеет биологического смысла.
При использованной классификации все рассматриваемые разновидности тандемных повторов принадлежат эукариотическому геному и приурочены, главным образом, к области теломер и центромер (соответственно концов и средних частей (перехватов) хромосом). Здесь они придают ДНК особые механические свойства, а именно хрупкость.
Следует отметить, что сателлитная ДНК гораздо больше последовательностей двух других групп по размеру (то есть отличается бóльшим числом повторяющихся последовательностей) и локализована в гетерохроматине, то есть плотно упакованной и слабо транскрибируемой части генома. В то же время последовательности двух других типов могут быть найдены и в эухроматине — деспирализованной части хромосом. Доля повторов в эукариотических геномах впечатляет: на повторяющиеся последовательности разного типа приходится почти половина генома человека [10]. Общее их количество, в пересчете на уникальные последовательности, превышает один миллион, многие из этого числа к тому же очень изменчивы. Есть и специфические связанные с тандемными повторами заболевания, возникающие при так называемой экспансии — превышении определенного числа повторов. К их числу относят синдром хрупкой X-хромосомы, различного рода атаксии, многие формы амиотрофического латерального склероза и болезнь Хантингтона [11].
Ученые не сошлись во мнениях
В этом месте стоит рассмотреть сложившуюся вокруг этой сложной родословной путаницу в терминологии. Минисателлитные и микросателлитные повторы могут совместно обозначаться как локусы с варьирующим числом тандемных повторов (variable number of tandem repeat locus, VNTR). С другой стороны, термины VNTR и «минисателлитные повторы» могут использоваться как синонимы, в то время как под микросателлитными повторами будут понимать короткие тандемные повторы (short tandem repeats, STRs), или простые повторяющиеся последовательности (simple sequence repeats, SSRs) [12].
Чтобы запутать читателя еще больше, отметим: несмотря на то, что все VNTR могут рассматриваться как минисателлиты, не все минисателлиты при этом будут относиться к VNTR. VNTR могут иметь варьирующее для отдельных индивидов количество повторов, в то время как некоторые отличные от VNTR минисателлиты имеют повторы, представленные одним и тем же количеством копий у всех представителей вида, имеющих такой тандемный повтор в геноме.
Дополнительные трудности вызваны созвучностью всех этих названий с сателлитными (спутниковыми) районами хромосом с резко различающимися по размеру плечами (акроцентрических), представляющими собой совершенно отдельный феномен. При этом использование исследователями одного и того же термина следует признать неудачным совпадением [13]. Последним штрихом в терминологическом хаосе является распространенное в биологии явление, когда один и тот же тип последовательностей использующие их в работе криминалисты (поскольку они уникальны и позволяют установить личность!), генетики растений, микробиологи и т.д. обозначают разными терминами [14].
Зачем повторяться?
И все же для чего повторы, скажем, те же VNTR, нужны нашему (или некоторому другому эукариотическому) разумно и целесообразно устроенному организму? И как их можно использовать для нужд народного хозяйства? Изучать их нетрудно: детектирование VNTR возможно при помощи доступных молекулярных методов. Благодаря этому можно выявить число тандемных повторов в определенном гене любого из нас — причем их может оказаться и 3, и 15 без заметных отличий в функционировании этого гена. Известна значительная изменчивость кратности повторов, то есть количества копий повторяющейся единицы последовательности: это связано с тем, что тандемные повторы являются «горячими точками» мутагенеза. Вероятность возникновения «ошибок» в таких текстах превосходит вероятность стандартных «опечаток» (точечных мутаций «неповторимой» ДНК) примерно в 100 000 раз.
Причина этого связана с так называемыми ошибками репликации при редактировании (slipped strand mispairing). Поскольку тандемные повторы представляют собой расположенные одна за другой идентичные последовательности, две комплементарные цепочки дуплекса ДНК могут принять неправильное расположение друг относительно друга. При этом происходит как бы проскальзывание одной цепи относительно другой (от англ. to slip — «проскользнуть», «сдвинуться») (рис. 1).
В ходе репликации первый повтор одной цепи, скажем, GTAC, может оказаться спаренным с первым повтором CATG другой цепи, но может также быть связан и со вторым, третьим и т.д. Некоторые последовательности-повторы могут быть вытеснены в сторону и в результате этого оказаться «вне игры», в данном случае — транскрипции. В связи с этим нарушением комплементарности ферменты репликации могут допускать ошибки при синтезе копии ДНК — а именно «потерять» или добавить дополнительные копии повторов (рис. 1). В этом случае возникают специфические мутации — условные «слова» остаются правильными, а вот их число изменяется. Поскольку затронутой оказывается значительная часть последовательности (не единичный нуклеотид), ДНК приобретает довольно существенные изменения. Именно поэтому они избирательно возникают только в тех участках генов, которые менее чувствительны к заменам и способны «стерпеть» такое грубое изменение последовательности.
Любопытно отметить, что ошибкам репликации при редактировании могут противодействовать точечные мутации внутри последовательности отдельного повтора. Это справедливо даже в том случае, если произошла замена на синонимичный (то есть кодирующий ту же аминокислоту) кодон. Эти однобуквенные замены приводят к возникновению изменения, заметного на однородном фоне точных повторов. Благодаря такой метке выполняющая репликацию клеточная машинерия окажется способна различить данное положение и избежать проскальзывания. В результате обе цепи дуплекса будут сориентированы друга относительно друга надлежащим образом. С течением времени и новых репликаций в таком стабильном тандемном повторе накапливаются небольшие изменения, в связи с чем он всё больше изменяется.
Таким образом, последовательность тандемных повторов может постепенно исчезать. Возможен и противоположный случай, когда удаление повтора (его делеция) приводит к исчезновению имеющегося однобуквенного отличия-мутации, а последующая неправильная гибридизация — привести к синтезу точного повтора.
Это предоставляет возможность использовать уровень «безошибочности» тандемного повтора для того, чтобы установить, насколько интенсивному отбору он подвергался в прошлом. Если неточностей окажется немного, это свидетельствует о многочисленных вставках (называемых в этом случае экспансиями) и выпадениях (делециях). Если же в тандемном повторе накопилось множество ошибок, то отбор, по-видимому, не уделял особого внимания такой последовательности [15].
Кальмары для народного хозяйства
В эпоху геномного редактирования за описанием какого-либо молекулярно-генетического феномена встает вопрос о его воспроизведении в искусственных условиях, улучшении и применении для повседневных (а также исследовательских) нужд. Итак, какую пользу можно ожидать от получения искусственных тандемных повторов?
Нетрудно догадаться, что принцип матричного синтеза подразумевает: тандемные повторы в кодирующей ДНК могут соответствовать тандемным повторам в последовательности белка. Подобные интересные белки были обнаружены у кальмаров, являющихся носителями многих вдохновляющих суперспособностей (сложно устроенной нервной системы, маскировки за счет отражающих тканей, сильных щупалец и т.д.). В данном случае речь идет о твердых тканях этих ловких и очень даже хищных мягкотелых, которые привлекли внимание материаловедов благодаря своим исключительным механическим свойствам (рис. 2).
Внешне напоминающий птичий и выглядящий зловеще, клюв кальмаров является биологическим композитом, содержащим богатый гистидином белок-матрицу и хитиновые волокна. Другое опасное оружие кальмара — острые зубцы роговых колец, находящихся внутри присосок на его щупальцах. Такие зубцы состоят из твердого биогенного материала, имеющего эластичные модули. В основе этого материала — белок с сегментированной структурой, который является сополимером, включающим чередующиеся кристаллические и аморфные домены [16].
Большие перспективы связаны с использованием белка зубцов роговых колец с измененной структурой. Таким материалам могут быть приданы заданные растяжимость, жесткость, прочность, электропроводность, прозрачность и даже способность залечивать дефекты. Области применения могут быть самыми разными — от хирургических швов до сенсоров и других высокотехнологичных приложений.
Эти удивительные белки можно получать из животного сырья, но лучше, разумеется, использовать методы генетической инженерии. С точки зрения создания новых материалов это предоставляет ряд преимуществ при получении структурных фибриллярных белков. Прежде всего, состав и размеры аминокислотной последовательности такого белка можно строго контролировать. В этом случае возможно получение идентичных молекул и однородного материала. Далее структуру молекулы белка можно изменять, заменяя обычные функциональные группы (тиоловые, фенольные и аминогруппы) на более экзотические (например, галогенид, азид, олефин, оксим, гидразон, бороновый эфир). Наконец, в состав таких рекомбинантных белков могут быть введены полипептиды со специфическими свойствами (антибактериальными, адгезивными, со склонностью к переходам «спираль—клубок»), что открывает исключительно большие возможности по созданию новых материалов с ценными заданными свойствами, которые к тому же можно сочетать между собой. Отдельным важным плюсом для применения таких веществ в медицине становится их биосовместимость и биоразлагаемость.
Последовательность рассматриваемого белка кальмара состоит из двух сильно различающихся модулей. Главная повторяющаяся единица-мономер состоит из кристаллизующейся области (содержит бета-листы, стабилизированные водородными связями) и аморфной области, которые чередуются одна за другой. Кристаллическая часть каждого повтора богата остатками аланина и гистидина, в то время как аморфная содержит много остатков тирозина и глицина. Соединяющая два различных участка повтора последовательность часто содержит пролин. Такая система подразумевает ограниченное число типов аминокислот, поскольку далеко не все остатки могут в нее «вписаться». В связи с этим перебор возможных последовательностей также сравнительно невелик.
Наступление светлого будущего, в котором люди используют легкие, прочные и самозалечивающиеся материалы на основе белка кальмара задерживают некоторые технические трудности, возникающие при конструировании повторяющихся последовательностей.
Проблемы на уровне конструирования ДНК заключаются в следующем. Прежде всего, разработка искусственных генов, кодирующих интересующие нас белки, может оказаться неудачной или приводить к получению неспецифических продуктов. В настоящее время доступны три подхода к получения генов тандемных повторов, которые иллюстрирует рисунок 3а.
В прошлом активно применяли стандартное клонирование, при котором мономеры поочередно, один за другим, соединяются в длинные цепочки-конкатемеры. Однако данный метод — трудоемкий и времязатратный [17]. Новые методики основаны на «бесшовном» клонировании (seamless cloning) и рекурсивном направленном лигировании (recursive directional ligation, RDL) [18–20]. Однако и они включают ряд этапов, которые сложно проводить параллельно, и не предоставляют возможность контролировать процесс в случае молекул с различным молекулярным весом. Для преодоления этих затруднений разработали метод на основе амплификации ДНК по механизму катящегося кольца с удлинением перекрывающихся концов (overlap extension rolling circle amplification, OERCA). Он позволяет производить параллельный синтез генов, кодирующих повторяющиеся последовательности подобных эластину полимеров-белков [21]. Недавно предложили еще один метод, позволяющий конструировать протяженные последовательности повторов — защищенное расщепление при амплификации катящегося кольца (protected digestion of rolling circle amplification, PD-RCA) (рис. 3б) [22].
Благодаря PD-RCA имеющий замкнутую форму отдельный повтор может непрерывно нарабатываться ферментом полимеразой в присутствии нуклеотида дезокси-ЦТФ (dCTP), а также его метилированной формы. При этом содержащие цитозин сайты рестрикции (на которые способны избирательно действовать соответствующие ферменты нуклеазы) окажутся расщепленными, а защищенные, то есть содержащие 5-метилцитозин, останутся нетронутыми. В связи с этим становится возможным получение последовательностей, содержащих тандемные повторы с варьирующими размерами. Преимуществом PD-RCA является то, что данный метод позволяет синтезировать такие олигомерные продукты различающейся длины в ходе одной реакции. Это делает доступным создание большого набора (так называемой библиотеки) генов, кодирующих белки с различным количеством повторяющейся последовательности.
Недавно на основе этого подхода экспрессировали содержащие тандемные повторы белки, основой для которых послужил упомянутый белок кальмара. Цель при этом была поставлена фундаментальная: выявить связь аминокислотной последовательности и структурных свойств, в том числе распознать участки последовательности, определяющие способность белка к самозалечиванию при повреждениях [16].
Остается надеяться, что некоторые технические трудности на пути создания материалов на основе таких бионических белков (включая недостаточную чистоту продукта, а также некоторую дороговизну) будут преодолены. Тогда, пользуясь ножом или сверхпрочной тканью, мы сможем мечтательно вспоминать, как выглядит стремительно плывущий в океанских глубинах кальмар-изобретатель этих материалов. Более того, целая область самобытных последовательностей ДНК, которые представляют собой повторяющиеся небольшие участки, возникающие и эволюционирующие по своим особым законам, принесет нам много интересных открытий и возможностей их приложения.
Литература
- Просто о сложном: CRISPR/Cas;
- Мутагенная цепная реакция: редактирование геномов на грани фантастики;
- От слов к делу: технологию CRISPR-Cas впервые применили для лечения онкозаболеваний;
- Битва века: CRISPR vs ВИЧ;
- Вылечить миодистрофию Дюшенна: конкуренция групп, единство методик;
- Под «генную гармошку»;
- Рибосома за работой;
- Элементы: «Для ядерного импорта мембранных белков нужна линкерная последовательность»;
- Julien Jorda, Bin Xue, Vladimir N. Uversky, Andrey V. Kajava. (2010). Protein tandem repeats - the more perfect, the less structured. FEBS Journal. 277, 2673-2682;
- G.-F. Richard, A. Kerrest, B. Dujon. (2008). Comparative Genomics and Molecular Dynamics of DNA Repeats in Eukaryotes. Microbiology and Molecular Biology Reviews. 72, 686-727;
- Как спасти Тринадцатую? (Перспективы лечения болезни Хантингтона);
- Turnpenny P. and Ellard S. Emery's elements of medical genetics (12th Edition). London: Elsevier, 2005. — 443 p.;
- Фогель Ф. и Мотульски А. Генетика человека (в 3-х т., т. 1). М.: «Мир», 1989. — 312 с.;
- van Belkum A., Scherer S., van Alphen L., Verbrugh H. (1998). Short-sequence DNA repeats in prokaryotic genomes. Microbiol. Mol. Biol. Rev. 62, 275–293;
- Myers P. (2007). Tandem repeats and morphological variation. Nature Education. 1, 1;
- Abdon Pena-Francesch, Natalia E. Domeradzka, Huihun Jung, Benjamin Barbu, Mert Vural, et. al.. (2018). Research Update: Programmable tandem repeat proteins inspired by squid ring teeth. APL Materials. 6, 010701;
- Joseph Cappello, John Crissman, Mary Dorman, Marcia Mikolajczak, Garret Textor, et. al.. (1990). Genetic engineering of structural protein polymers. Biotechnol. Prog.. 6, 198-202;
- R. Andrew McMillan, Terrence A. T. Lee, Vincent P. Conticello. (1999). Rapid Assembly of Synthetic Genes Encoding Protein Polymers. Macromolecules. 32, 3643-3648;
- Dan E. Meyer, Ashutosh Chilkoti. (2002). Genetically Encoded Synthesis of Protein-Based Polymers with Precisely Specified Molecular Weight and Sequence by Recursive Directional Ligation: Examples from the Elastin-like Polypeptide System. Biomacromolecules. 3, 357-367;
- Olena Tokareva, Valquíria A. Michalczechen-Lacerda, Elíbio L. Rech, David L. Kaplan. (2013). Recombinant DNA production of spider silk proteins. Microbial Biotechnology. 6, 651-663;
- Miriam Amiram, Felipe Garcia Quiroz, Daniel J. Callahan, Ashutosh Chilkoti. (2011). A highly parallel method for synthesizing DNA repeats enables the discovery of ‘smart’ protein polymers. Nature Mater. 10, 141-148;
- Huihun Jung, Abdon Pena-Francesch, Alham Saadat, Aswathy Sebastian, Dong Hwan Kim, et. al.. (2016). Molecular tandem repeat strategy for elucidating mechanical properties of high-strength proteins. Proc Natl Acad Sci USA. 113, 6478-6483.