Кэп-ана́лиз экспре́ссии ге́нов[1] (англ.cap analysis gene expression, CAGE) — технология, используемая в молекулярной биологии, в результате которой получают профили экспрессии геновэукариот с одновременным определением специфических для клетки/ткани условий транскрипционных стартовых сайтов (TSS), включая данные о задействованных промоторах. Метод заключается в получении и прочтении коротких (обычно длиной 27 нуклеотидов) участков последовательности 5'-конца кэпированных РНК эукариот. Далее проводится картированиесеквенированных последовательностей на готовый геном, что позволяет уточнить 5'-границы транскрибируемых областей, а также провести количественный анализ экспрессии. Методика была разработана и опубликована в 2003 году, после чего активно совершенствовалась[2]. Метод активно используется в исследовательском проекте по функциональной аннотации геномов млекопитающих (англ.FANTOM — Functional Annotation of the Mammalian Genome)[3].
С помощью данного метода было показано существование альтернативно регулируемых сайтов начала транскрипции[4][5] и были открыты новые регуляторные элементы[6]. Также он позволил предсказывать сайты связывания факторов транскрипции[7] и других мотивов, связанных с транскрипцией[8]. Анализ 5'-концов данным методом особенно хорош для исследования регуляторных взаимосвязей генов; с его помощью выявили ключевые транскрипционные факторы, ответственные за дифференцировкумонобластов в моноциты[9]. Поскольку данный метод не предполагает никакую известную модель гена, он показал, что ретротранспозоны экспрессируются специфично и регулируют мРНК и другие некодирующие РНК[10].
Для транскрипции необходимо, чтобы РНК-полимераза связалась с промоторной последовательностью ДНК. У бактерий за этот процесс отвечает сигма-фактор, и, как правило, инициация происходит на −10 и −35 нуклеотидов до точки начала транскрипции (σ70 узнает консенсусные последовательности в этой области)[11]. У архей и эукариот происходит преинициация с участием транскрипционных факторов. В зависимости от типа транскрипционного фактора инициация у эукариот может происходить в разных сайтах промоторной области до точки начала транскрипции. Кроме того, существует множество механизмов регуляции этого процесса. Например, некоторые транскрипционные факторы способны связываться со специальными регуляторными последовательностями, что приводит к активации или подавлению транскрипции целевого гена. Сложность системы инициации транскрипции затрудняет точное предсказание сайта начала транскрипции по последовательности ДНК[12].
Секвенирование последовательностей мРНК позволяет решить эту проблему, однако используемый для поиска транскрибируемых участков RNA-seq, основанный на современных методах секвенирования с последующим картированием ридов на геном, обычно не позволяет определить четкие границы (с точностью до одного нуклеотида) концов РНК. С одной стороны, чем более протяженный участок мы можем отсеквенировать, тем проще будет собирать риды. С другой стороны, чем длиннее риды, тем меньше вероятность каждого из них попасть на край транскрипта. В результате при любой технологии секвенирования обычно возникают отклонения в количестве ридов на концах транскрибируемой области (см. рис. 1)[13].
Для решения проблемы определения точки начала транскрипции у бактерий существуют различные методы, основанные на избирательном присоединении различных тэгов к 5'-концу мРНК с трифосфатом на конце[14][15].
Для решения проблемы определения точки начала транскрипции у эукариот был создан метод CAGE и последующие его модификации. Он сосредоточен на секвенировании 5’-концов РНК, которые кэпированы у эукариот. У прокариот на 5'-конце вместо кэпа находится трифосфат, поэтому метод CAGE к ним применить невозможно. Однако применяется альтернативный метод: РНК обрабатывают эндонуклеазами, после чего подвергают обработке 5'-экзонуклеазами. При этом остаются только защищенные трифосфатом 5’-концевые фрагменты[16].
Внешние изображения
Поддержка ридами участков секвенируемой РНК при RNA-seq не одинакова
Сравнение методов RNA-seq и CAGE показывает, что оба метода дают почти одинаковые количественные оценки экспрессии генов[17]. Это подтверждает высокую эффективность метода CAGE ещё и для количественного анализа экспрессии. Основное преимущество CAGE — возможность секвенирования последовательностей старта транскрипции. Данная методика неоднократно совершенствовалась и были достигнуты следующие технологические показатели[18]:
Малое время эксперимента (около 62 ч)
Низкое начальное количество РНК (1 — 5 мкг)
Возможность упрощения протоколов (можно сократить некоторые стадии эксперимента, например амплификацию с помощью ПЦР)
Относительно небольшая стоимость (81$ за библиотеку)
Ограничения
Так как метод был изначально создан для анализа 5'-концевых участков РНК, претерпевших процесс кэпирования, с помощью него невозможно анализировать некэпированные РНК. В связи с этим метод не применим к прокариотам, а также к РНК, транскрибированных РНК-полимеразами I и III. Кроме того большинство разработанных протоколов не работают с РНК короче ~100 нуклеотидов, так как они вымываются в ходе очистки[19].
Очистка кэп-содержащих дуплексов с использованием стрептавидиновых носителей.
Гидролиз мРНК, получение одноцепочечной полной кДНК.
Прикрепление к 5'-концу 1-го биотинилированного линкера с сайтами узнавания эндонуклеаз рестрикции XmaJI и MmeI.
Синтез второй цепи кДНК (до сайта полиаденилирования).
Обработка дцДНК эндонулеазой рестрикции MmeI. Рестриктаза MmeI способна делать разрез двухцепочечной нуклеиновой кислоты, отступив 20/18 нуклеотидов. Эта её особенность используется, чтобы избавиться от большей части кДНК, сохранив примерно 20 нуклеотидов, соответствующих 5'-концу мРНК.
Лигирование с противоположной стороны 2-го линкера, содержащего сайт узнавания XbaI.
ПЦР (увеличение числа копий).
Обработка рестриктазами XmaJI и XbaI (получение фрагментов по 32 нуклеотида, из которых 20 — последовательность с 5'-конца мРНК).
Очистка стрептавидином (избавляемся от фрагментов линкеров).
Получение конкатемеров[англ.] лигированием липких GATC концов, возникших после обработки рестриктазами.
В 2011 году, в связи с задействованием технологии в ENCODE, был переосмыслен протокол CAGE для секвенирования платформами нового поколения. Так, теперь[21]:
В реакции обратной транскрипции используется фермент, не имеющий рибонуклеазной активности. Обратная транскриптаза SuperScript II (РНКаза Н активность практически уничтожена мутагенезом)[22] заменена на PrimeScript (полностью отсутствует активность РНКаза Н, кроме того хорошо работает с GC-богатой РНК и РНК с богатой вторичной структурой, обладает более высокой точностью)[23]. В результате происходит более качественный синтез первой цепи кДНК.
Вместо олиго(dТ) праймеров используются праймеры, содержащие случайную последовательность длиной 15 нт. Случайные праймеры были впервые предложены в 2006 году[19] и позволяют работать с слабополиаденилированной и неполиаденилированной РНК. Также при использовании случайных праймеров эффективность транскрипции 5'-концов не зависит от длины мРНК.
Вместо эндонуклеазы рестрикции MmeI используется EcoP15I. Эндонуклеаза EcoP15I разрезает ДНК с отступом в 27 нт от сайта узнавания, что позволяет увеличить читаемое число нуклеотидов с 20 до 27, увеличив таким образом однозначность картирования последовательностей на геном.
Перед биотинилированием смесь обрабатывается РНКазами. Это приводит к увеличению качества очистки целевой РНК, так как экстрагируются только полные с 5'-конца РНК
Биотинилируются как кэп, так и 3'-конец РНК.
Одноцепочечные кДНК лигируют со специально подготовленными димерами маркированных линкеров, неспособными соединяться друг с другом.
После лигирования кДНК с димерами линкеров смесь обрабатывают специальной фосфатазой, работающей при низких температурах Данная процедура увеличивает точность метода.
Синтез второй цепи кДНК происходит при участии биотинилированных праймеров.
Производится лигирование со 2-м линкером, комплеметарным 3'-концевым праймерам секвенирования.
ПЦР (необходимый этап при создании библиотеки клонов и дальнейшего секвенирования) содержит 5'- и 3'-концевые последовательности праймеров секвенирования.
Методы, основанные на CAGE
DeepCAGE
Данный метод был разработан для нахождения малоактивных промоторов. Метод устарел по сравнению с более поздними протоколами. Для прочтения конкатемеров применяются методы 454-секвенирования «нового поколения»[24].
nanoCAGE
Данный метод был разработан для работы с очень малыми количествами РНК (до 10 нг тотальной РНК)[25]:
Вместо использования реагента «CAP Trapper» применяется подход со сменой матрицы.
Используется эндонуклеаза EcoP15I, что позволяет увеличить длины последовательностей до 27 нуклеотидов.
Последовательности читаются напрямую на NGS-платформе Solexa (сейчас часть Illumina), что позволяет отказаться от получения конкатемеров.
Не используется стадия ферментативного отрезания 5'-тегов.
5'-концы кДНК секвенируются в обе стороны, чтобы соединить данные о новых промоторах со старыми аннотациями.
HeliScopeCAGE
Данный метод был разработан для уменьшения предвзятости и предполагает использование одномолекулярного секвенирования. Протокол автоматизирован Itoh et al.[26] в 2012 году[6].
Отсутствуют стадии достраивания второй цепи, лигирования и отрезания 5'-концевых участков.
5'-кэпированные РНК секвенируются без ПЦР с использованием платформы HeliScope (секвенирует индивидуальные молекулы).
RAMPAGE
Данный метод был разработан для профилирования активности промоторов[27].
Использование исходного реагента «CAP Тrapper», смена матрицы (nanoCAGE) и обработка 5′-фосфат-зависимыми экзонуклеазами совмещены для максимизации специфичности промотора.
nAnTi-CAGE
Данный метод был разработан для уменьшения предвзятости и предполагает использование Illumina[28].
Результатом кэп-анализа экспрессии генов является набор последовательностей секвенированных областей, следующих за сайтами старта транскрипции, и их уровень экспрессии. Граница начала транскрипции определяется с точностью до одного нуклеотида. Окружение сайта начала транскрипции обычно включают в себя регуляторные элементы, контролирующие экспрессию генов. Таким образом, становится возможным сопоставление уровня экспрессии с различных точек инициации транскрипции, выявление и анализ мотивов в прилегающих к ним областях для поиска и качественного описания энхансеров и репрессоров[29].
Благодаря CAGE стало возможным картировать сайты стартов транскрипции и промоторы для мРНК с низким уровнем экспрессии[29]. Также удалось доказать, что транскрипция часто начинается не строго с определённой позиции, а существует распределение: острое (где предпочтителен один старт и вариации незначительны) или широкое (когда явного пика не существует, и транскрипция может начинаться на участке в десятки и даже сотни нуклеотидов). В результате разное начало инициации транскрипции может влиять на функцию РНК/белка и открывает возможность для дополнительной регуляции[30].
При анализе результатов CAGE надо учитывать отклонение в получаемых библиотеках в сторону добавления лишних гуанозинов на 5'-конец[30]. Это происходит из-за проскальзывания обратной транскриптазы и даже используется в ряде протоколов, использующих «смену матрицы»[25][31].
↑Valen E., Pascarella G., Chalk A., Maeda N., Kojima M., Kawazu C., Murata M., Nishiyori H., Lazarevic D., Motti D., Marstrand T. T., Tang M.-H. E., Zhao X., Krogh A., Winther O., Arakawa T., Kawai J., Wells C., Daub C., Harbers M., Hayashizaki Y., Gustincich S., Sandelin A., Carninci P.Genome-wide detection and analysis of hippocampus core promoters using DeepCAGE (англ.) // Genome Research. — 2008. — 3 December (vol. 19, no. 2). — P. 255—265. — ISSN1088-9051. — doi:10.1101/gr.084541.108. [исправить]
↑ 123Plessy Charles, Bertin Nicolas, Takahashi Hazuki, Simone Roberto, Salimullah Md, Lassmann Timo, Vitezic Morana, Severin Jessica, Olivarius Signe, Lazarevic Dejan, Hornig Nadine, Orlando Valerio, Bell Ian, Gao Hui, Dumais Jacqueline, Kapranov Philipp, Wang Huaien, Davis Carrie A, Gingeras Thomas R, Kawai Jun, Daub Carsten O, Hayashizaki Yoshihide, Gustincich Stefano, Carninci Piero.Linking promoters to functional transcripts in small samples with nanoCAGE and CAGEscan (англ.) // Nature Methods. — 2010. — 13 June (vol. 7, no. 7). — P. 528—534. — ISSN1548-7091. — doi:10.1038/nmeth.1470. [исправить]