De novo сборка транскриптома - De novo transcriptome assembly

De novo сборка транскриптома это сборка последовательности de novo метод создания транскриптом без помощи эталонный геном.

Вступление

В результате развития новых технологий секвенирования в период с 2008 по 2012 годы произошло значительное снижение стоимости секвенирования. Стоимость мегабазы и генома упала до 1/100 000 и 1/10 000 от цены соответственно.^[1] До этого секвенировались только транскриптомы организмов, которые представляли широкий интерес и были полезны для научных исследований; однако они были разработаны в 2010-х гг. высокопроизводительное секвенирование Технологии (также называемые секвенированием следующего поколения) экономичны и трудоемки, и спектр организмов, изучаемых с помощью этих методов, расширяется.^[2] Впоследствии были созданы стенограммы для нут,^[3] планарии,^[4] Parhyale hawaiensis,^[5] а также мозги Нильский крокодил, то кукурузная змея, то Бородатый дракон, а красноухий слайдер, чтобы назвать только несколько.^[6]

Изучение немодельных организмов может дать новое понимание механизмов, лежащих в основе «разнообразия увлекательных морфологических инноваций», которые сделали возможным изобилие жизни на планете Земля.^[7] У животных и растений "инновации", которые нельзя исследовать на обычных модельных организмах, включают: мимикрия, мутуализм, паразитизм, и бесполое размножение. De novo Сборка транскриптома часто является предпочтительным методом изучения немодельных организмов, поскольку это дешевле и проще, чем построение генома, а методы на основе ссылок невозможны без существующего генома. Таким образом, транскриптомы этих организмов могут выявить новые белки и их изоформы, которые участвуют в таких уникальных биологических явлениях.

De novo по сравнению со сборкой на основе ссылок

Набор собранных транскриптов позволяет проводить начальные исследования экспрессии генов. До разработки компьютерных программ сборки транскриптома данные транскриптома анализировались в первую очередь путем сопоставления с эталонным геномом. Хотя выравнивание генома является надежным способом характеристики последовательностей транскриптов, этот метод имеет недостаток из-за его неспособности учитывать случаи структурных изменений транскриптов мРНК, такие как альтернативное сращивание.^[8] Поскольку геном содержит сумму всех интронов и экзонов, которые могут присутствовать в транскрипте, сплайсированные варианты, которые не выстраиваются непрерывно по геному, могут не учитываться как фактические изоформы белка. Даже если эталонный геном доступен, сборка de novo должна выполняться, поскольку она может восстанавливать транскрипты, которые транскрибируются из сегментов генома, отсутствующих в сборке генома.^[9]

Транскриптом против сборки генома

В отличие от уровней покрытия последовательностей генома, которые могут варьироваться случайным образом в результате повторяющегося содержимого в некодируемых интрон области ДНК - уровни покрытия последовательностей транскриптома могут прямо указывать на уровни экспрессии генов. Эти повторяющиеся последовательности также создают неоднозначность в формировании контиги в сборке генома, в то время как неоднозначности в контигах сборки транскриптома обычно соответствуют сплайсингу изоформы, или незначительная вариация среди членов генной семьи.^[8] Ассемблер генома нельзя напрямую использовать при сборке транскриптома по нескольким причинам. Во-первых, глубина секвенирования генома обычно одинакова для всего генома, но глубина транскриптов может варьироваться. Во-вторых, обе нити всегда секвенируются при секвенировании генома, но RNA-seq может быть специфичной для нити. В-третьих, сборка транскриптома более сложна, потому что варианты транскрипта из одного и того же гена могут иметь общие экзоны и их трудно однозначно разрешить.^[9]

Метод

РНК-последовательность

Как только РНК извлекается и очищается из клеток, она отправляется на высокопроизводительное секвенирование, где она сначала обратная расшифровка для создания библиотеки кДНК. Эта кДНК затем может быть фрагментирована на различные длины в зависимости от платформы, используемой для секвенирования. Каждая из следующих платформ использует разные типы технологий для последовательности миллионов коротких чтений: 454 Последовательность, Иллюмина, и Твердый.

Алгоритмы сборки

Считанные последовательности кДНК собираются в транскрипты с помощью программы сборки коротких считываний транскриптов. Скорее всего, некоторые аминокислотные вариации среди транскриптов, которые в остальном схожи, отражают разные изоформы белка. Также возможно, что они представляют разные гены в одном и том же семействе генов или даже гены, которые разделяют только консервативный домен, в зависимости от степени вариации.

Доступен ряд программ сборки (см. Ассемблеры ). Хотя эти программы в целом были успешными при сборке геномов, сборка транскриптома представляет некоторые уникальные проблемы. В то время как высокий охват последовательностей для генома может указывать на присутствие повторяющихся последовательностей (и, таким образом, быть замаскированным), для транскриптома они могут указывать на изобилие. Кроме того, в отличие от секвенирования генома, секвенирование транскриптома может быть специфичным для цепи из-за возможности обоих смысл и антисмысл стенограммы. Наконец, может быть трудно реконструировать и разделить все изоформы сплайсинга.^[9]

Ассемблеры для короткого чтения обычно используют один из двух основных алгоритмов: графы перекрытия и графы де Брейна.^[10] Графики перекрытия используются для большинства сборщиков, предназначенных для Сэнгер в последовательности читает. Перекрытия между каждой парой считываний вычисляются и компилируются в граф, в котором каждый узел представляет собой одну считанную последовательность. Этот алгоритм требует больших вычислительных ресурсов, чем графы де Брейна, и наиболее эффективен при сборке меньшего количества операций чтения с высокой степенью перекрытия.^[10]Графики де Брейна выровнять k-mers (обычно 25-50 п.н.) на основе сохранения последовательности k-1 для создания контигов. K-меры короче, чем длина чтения, что обеспечивает быстрое хеширование, поэтому операции в графах де Брейна, как правило, требуют меньших вычислительных затрат.^[10]

Функциональная аннотация

Функциональная аннотация собранных транскриптов позволяет понять конкретные молекулярные функции, клеточные компоненты и биологические процессы, в которых участвуют предполагаемые белки. Blast2GO (B2G) позволяет Генная онтология основанный на интеллектуальном анализе данных для аннотирования данных последовательности, для которых еще нет аннотации GO. Это исследовательский инструмент, часто используемый в исследованиях функциональной геномики немодельных видов.^[11] Это работает взрыв собранные контиги в базе данных неизбыточных белков (в NCBI), а затем аннотирование их на основе сходства последовательностей. GOanna - еще одна программа аннотаций GO, предназначенная для генных продуктов животных и сельскохозяйственных растений, которая работает аналогичным образом. Он является частью базы данных AgBase с тщательно подобранным общедоступным набором вычислительных инструментов для аннотации и анализа GO.^[12] После аннотации KEGG (Киотская энциклопедия генов и геномов) позволяет визуализировать метаболические пути и сети молекулярного взаимодействия, зафиксированные в транскриптоме.^[13]

Помимо аннотации для терминов GO, контиги также могут быть проверены на открытые рамки для чтения (ORF) для прогнозирования аминокислотной последовательности белков, полученных из этих транскриптов. Другой подход - аннотировать белковые домены и определять наличие семейств генов, а не конкретных генов.

Проверка и контроль качества

Поскольку эталонный геном недоступен, качество собранных компьютером контигов может быть проверено либо путем сравнения собранных последовательностей с чтениями, используемыми для их генерации (без ссылок), либо путем выравнивания последовательностей консервативных доменов генов, обнаруженных в транскриптах мРНК. к транскриптомам или геномам близкородственных видов (на основе ссылок). Такие инструменты, как Transrate^[14] и ДЕТОНАЦИЯ^[15] позволяют статистический анализ качества сборки этими методами. Другой способ - спроектировать ПЦР праймеры для предсказанных транскриптов, затем попытайтесь амплифицировать их из библиотеки кДНК. Часто отфильтровываются исключительно короткие чтения. Короткие последовательности (<40 аминокислот) вряд ли представляют собой функциональные белки, поскольку они не могут складываться независимо и образовывать гидрофобные ядра.^[16]

Ассемблеры

Ниже приводится частичный сборник программного обеспечения для сборки, которое использовалось для генерации транскриптомов, а также цитировалось в научной литературе.

SeqMan NGen

SeqMan NGen, часть ДНАСТАР Программный конвейер включает в себя ассемблер транскриптомов de novo для малых или больших наборов данных транскриптомов. SeqMan NGen использует запатентованный алгоритм, который использует RefSeq для идентификации и объединения транскриптов, а также автоматическое аннотирование собранных транскриптов с помощью запатентованного инструмента аннотации транскриптов DNASTAR для идентификации и выделения известных и новых генов.^[17]

SOAPденово-Транс

SOAPdenovo-Trans - это de novo ассемблер транскриптома, унаследованный от инфраструктуры SOAPdenovo2, разработанный для сборки транскриптома с альтернативным сплайсингом и другим уровнем экспрессии. Ассемблер обеспечивает более полный способ создания наборов полных транскриптов по сравнению с SOAPdenovo2.

Бархат / Оазисы

Алгоритм Velvet использует графы де Брейна для сборки стенограмм. При моделировании Velvet может продуцировать контиги длиной до 50 т.п.н. с использованием прокариотических данных и N50 размером 3 т.п.н. у млекопитающих. бактериальные искусственные хромосомы (BAC).^[18] Эти предварительные стенограммы передаются Оазисы, который использует парный конец чтения и долго читаемая информация для построения изоформ транскриптов.^[19]

Транс-ABySS

ABySS - это ассемблер параллельных последовательностей с парными концами. Trans-ABySS (Assembly By Short Sequences) - это программный конвейер, написанный на Python и Perl для анализа контигов транскриптомов, собранных ABySS. Этот конвейер можно применять к сборкам, созданным в широком диапазоне значений k. Сначала он сокращает набор данных на меньшие наборы неизбыточных контигов и идентифицирует события сплайсинга, включая пропуск экзонов, новые экзоны, сохраненные интроны, новые интроны и альтернативный сплайсинг. Алгоритмы Trans-ABySS также могут оценивать уровни экспрессии генов, определять потенциальные полиаденилирование сайты, а также события слияния генов-кандидатов.^[20]

Троица

Троица^[21] сначала делит данные последовательности на ряд графы де Брейна, каждый из которых представляет варианты транскрипции в одном гене или локусе. Затем он извлекает изоформы сплайсинга полной длины и различает транскрипты, полученные из паралогичные гены из каждого графика отдельно. Trinity состоит из трех независимых программных модулей, которые используются последовательно для создания стенограмм:

Inchworm собирает данные RNA-Seq в последовательности транскриптов, часто генерируя полноразмерные транскрипты для доминантной изоформы, но затем сообщает только об уникальных частях транскриптов альтернативного сплайсинга.
Хризалис кластеризует контиги Inchworm и строит полные графы де Брейна для каждого кластера. Каждый кластер представляет полную сложность транскрипции для данного гена (или семейства или набора генов, которые имеют общую консервативную последовательность). Затем Chrysalis разделяет полный набор для чтения между этими отдельными графами.
Бабочка затем обрабатывает отдельные графы параллельно, отслеживая пути чтения внутри графа, в конечном итоге сообщая полноразмерные транскрипты для альтернативно сплайсированных изоформ и разделяя транскрипты, соответствующие паралогичным генам.^[22]