Рфам - Rfam

Рфам
Rfam logo.png
Содержание
ОписаниеБаза данных Rfam предоставляет сопоставления, согласованные вторичные структуры и ковариационные модели для семейств РНК.
Типы данных
захвачен
Семейства РНК
Организмывсе
Контакт
Исследовательский центрEBI
Основное цитированиеPMID  29112718
Доступ
Формат данныхСтокгольмский формат
Интернет сайтрфам.org
Скачать URLFTP
Разное
ЛицензияВсеобщее достояние
Закладки
сущности
да

Рфам это база данных содержащий информацию о некодирующая РНК (нкРНК) и другие структурированные элементы РНК. Это аннотированный, открытый доступ база данных, изначально разработанная в Wellcome Trust Sanger Institute в сотрудничестве с Ферма Джанелия,[1][2][3][4] и в настоящее время размещается в Европейский институт биоинформатики.[5] Rfam разработан, чтобы быть похожим на Pfam база данных для аннотирования семейств белков.

В отличие от белки, нкРНК часто имеют похожие вторичная структура не разделяя большого сходства в первичная последовательность. Rfam делит нкРНК на семейства на основе эволюции от общего предка. Производство множественное выравнивание последовательностей (MSA) этих семейств может дать представление об их структуре и функции, как и в случае белковых семейств. Эти MSA становятся более полезными с добавлением информации о вторичной структуре. Исследователи Rfam также вносят свой вклад в Википедия с РНК WikiProject.[4][6]

Использует

База данных Rfam может использоваться для множества функций. Для каждого семейства нкРНК интерфейс позволяет пользователям: просматривать и загружать несколько выравниваний последовательностей; прочитать аннотацию; и изучить видовое распределение членов семьи. Есть также ссылки на литературу и другие базы данных РНК. Rfam также предоставляет ссылки на Википедию, чтобы пользователи могли создавать или редактировать записи.

Интерфейс на веб-сайте Rfam позволяет пользователям искать нкРНК по ключевому слову, фамилии или геному, а также выполнять поиск по последовательности нкРНК или EMBL инвентарный номер. [1] Информация о базе данных также доступна для загрузки, установки и использования с помощью программного пакета INFERNAL.[7][8][9] Пакет INFERNAL также можно использовать с Rfam для аннотирования последовательностей (включая полные геномы) гомологов известных нкРНК.

Методы

Теоретическое выравнивание нкРНК от 6 видов. Пары оснований вторичной структуры окрашены в блоки и обозначены в согласованной последовательности вторичной структуры (нижняя строка) символами <и>.

В базе данных информация о вторичная структура и первичная последовательность в лице MSA, объединяется в статистические модели, называемые профилем стохастические контекстно-свободные грамматики (SCFG), также известные как ковариационные модели. Это аналог скрытые марковские модели используется для аннотации семейства белков в Pfam база данных.[1] Каждое семейство в базе данных представлено двумя множественными выравниваниями последовательностей в Стокгольмский формат и SCFG.

Первый MSA - это «начальное» выравнивание. Это вручную подобранное выравнивание, которое содержит репрезентативных членов семейства нкРНК и аннотировано структурной информацией. Это начальное выравнивание используется для создания SCFG, который используется с программным обеспечением Rfam INFERNAL для идентификации дополнительных членов семейства и добавления их к выравниванию. Во избежание ложных срабатываний выбирается пороговое значение для конкретной семьи.

До выпуска 12 Rfam использовал начальный ВЗРЫВ этап фильтрации, поскольку профили SCFG были слишком дорогими в вычислительном отношении. Однако последние версии INFERNAL достаточно быстрые.[10] так что шаг BLAST больше не нужен.[11]

Второй MSA представляет собой «полное» выравнивание и создается в результате поиска с использованием модели ковариации по базе данных последовательностей. Все обнаружено гомологи выравниваются по модели, обеспечивая автоматическое полное выравнивание.

История

Версия 1.0 Rfam была запущена в 2003 году и содержала 25 семейств нкРНК и аннотировала около 50 000 генов нкРНК. В 2005 году была выпущена версия 6.1, которая содержала 379 семейств, аннотирующих более 280 000 генов. В августе 2012 года версия 11.0 содержала 2208 семейств РНК, тогда как текущая версия (14.1) аннотирует 3016 семейств.

Проблемы

  1. Геномы высших эукариот содержат много нкРНК-производных. псевдогены и повторяется. Отличить эти нефункциональные копии от функциональной нкРНК - сложная задача.[2]
  2. Интроны не моделируются ковариационными моделями.

Рекомендации

  1. ^ а б Гриффитс-Джонс С., Бейтман А., Маршалл М., Ханна А., Эдди С. Р. (2003). «Rfam: база данных семейства РНК». Нуклеиновые кислоты Res. 31 (1): 439–41. Дои:10.1093 / нар / gkg006. ЧВК  165453. PMID  12520045.
  2. ^ а б Гриффитс-Джонс С., Моксон С., Маршалл М., Ханна А., Эдди С. Р., Бейтман А. (2005). «Rfam: аннотирование некодирующих РНК в полных геномах». Нуклеиновые кислоты Res. 33 (Выпуск базы данных): D121–4. Дои:10.1093 / nar / gki081. ЧВК  540035. PMID  15608160.
  3. ^ Гарднер П.П., Дауб Дж., Тейт Дж. Г. и др. (Октябрь 2008 г.). «Rfam: обновления базы данных семейств РНК». Исследования нуклеиновых кислот. 37 (Проблема с базой данных): D136 – D140. Дои:10.1093 / nar / gkn766. ЧВК  2686503. PMID  18953034.
  4. ^ а б Гарднер П.П., Дауб Дж., Тейт Дж., Мур Б.Л., Осуч И.Х., Гриффитс-Джонс С., Финн Р.Д., Навроцкий Е.П., Кольбе Д.Л., Эдди С.Р., Бейтман А. (2011). «Рфам: Википедия, кланы и« десятичный »выпуск». Нуклеиновые кислоты Res. 39 (Выпуск базы данных): D141–5. Дои:10.1093 / nar / gkq1129. ЧВК  3013711. PMID  21062808.
  5. ^ «Переход на xfam.org». Блог Xfam. Получено 3 мая 2014.
  6. ^ Дауб Дж., Гарднер П.П., Тейт Дж. И др. (Октябрь 2008 г.). "The RNA WikiProject: Аннотации сообщества семейств РНК". РНК. 14 (12): 2462–4. Дои:10.1261 / rna.1200508. ЧВК  2590952. PMID  18945806.
  7. ^ Эдди С.Р., Дурбин Р. (июнь 1994 г.). «Анализ последовательности РНК с использованием ковариационных моделей». Исследования нуклеиновых кислот. 22 (11): 2079–88. Дои:10.1093 / nar / 22.11.2079. ЧВК  308124. PMID  8029015.
  8. ^ Эдди SR (2002). «Эффективный с точки зрения памяти алгоритм динамического программирования для оптимального выравнивания последовательности с вторичной структурой РНК». BMC Bioinformatics. 3: 18. Дои:10.1186/1471-2105-3-18. ЧВК  119854. PMID  12095421.
  9. ^ Nawrocki EP, Эдди SR (2013). «Infernal 1.1: поиск гомологии РНК в 100 раз быстрее». Биоинформатика. 29 (22): 2933–5. Дои:10.1093 / биоинформатика / btt509. ЧВК  3810854. PMID  24008419.
  10. ^ Nawrocki, Eric P .; Эдди, Шон Р. (2013-11-15). «Infernal 1.1: поиск гомологии РНК в 100 раз быстрее». Биоинформатика. 29 (22): 2933–2935. Дои:10.1093 / биоинформатика / btt509. ISSN  1367-4811. ЧВК  3810854. PMID  24008419.
  11. ^ Nawrocki, Eric P .; Бердж, Сара У .; Бейтман, Алекс; Дауб, Дженнифер; Eberhardt, Ruth Y .; Эдди, Шон Р .; Floden, Evan W .; Гарднер, Пол П .; Джонс, Томас А. (январь 2015 г.). «Rfam 12.0: обновления базы данных семейств РНК». Исследования нуклеиновых кислот. 43 (Выпуск базы данных): D130–137. Дои:10.1093 / нар / gku1063. ISSN  1362-4962. ЧВК  4383904. PMID  25392425.

внешняя ссылка