Аннотация ДНК - DNA annotation

Аннотация ДНК или же аннотация генома это процесс определения местоположения гены и все кодирующие области в геном и определение того, что делают эти гены. Аннотация (независимо от контекста) - это примечание, добавленное в виде пояснения или комментария. После того, как геном секвенирован, его необходимо аннотировать, чтобы понять его смысл.[1]

Для аннотации ДНК ранее неизвестное представление последовательности генетического материала обогащается информацией, касающейся геномная позиция к интрон -экзон границы, регуляторные последовательности, повторяет, ген имена и белок товары. Эта аннотация хранится в геномные базы данных Такие как Информатика генома мыши, FlyBase, и WormBase. Учебные материалы по некоторым аспектам биологической аннотации из 2006 г. Генная онтология аннотационный лагерь и аналогичные мероприятия доступны на веб-сайте Gene Ontology.[2]

Национальный центр биомедицинской онтологии (www.bioontology.org) разрабатывает инструменты для автоматического аннотирования.[3] записей базы данных на основе текстовых описаний этих записей.

Как общий метод, dcGO [4] имеет автоматизированную процедуру для статистического вывода ассоциаций между терминами онтологии и доменами белков или комбинациями доменов из существующих аннотаций на уровне гена / белка.

Процесс

Аннотации генома состоят из трех основных этапов:[5]

  1. идентификация частей генома, которые не кодируют белки
  2. идентификационные элементы на геном, процесс, называемый предсказание генов
  3. прикрепление биологической информации к этим элементам

Инструменты автоматического аннотирования пытаются выполнить эти шаги с помощью компьютерного анализа, в отличие от ручного аннотирования (также известного как курирование), который требует человеческого опыта. В идеале эти подходы сосуществуют и дополняют друг друга в одной аннотации. трубопровод.

Простой метод аннотации генов основан на инструментах поиска на основе гомологии, таких как ВЗРЫВ, для поиска гомологичных генов в конкретных базах данных полученная информация затем используется для аннотирования генов и геномов.[6] Однако по мере добавления информации на платформу аннотаций ручные аннотаторы получают возможность деконволюции расхождений между генами, которым даны одинаковые аннотации. Некоторые базы данных используют контекстную информацию генома, оценки сходства, экспериментальные данные и интеграцию других ресурсов для предоставления аннотаций генома через свой подход «Подсистемы». Другие базы данных (например, Ансамбль ) полагаются на тщательно отобранные источники данных, а также на ряд различных программных инструментов в своем конвейере автоматической аннотации генома.[7]

Структурная аннотация состоит из идентификации геномных элементов.

  • ORF и их локализация
  • генная структура
  • кодирующие области
  • расположение регуляторных мотивов

Функциональная аннотация состоит из присоединения биологической информации к геномным элементам.

  • биохимическая функция
  • биологическая функция
  • вовлеченное регулирование и взаимодействия
  • выражение

Эти шаги могут включать как биологические эксперименты, так и in silico анализ. Протеогеномика подходы, основанные на использовании информации из экспрессируемых белков, часто получаемой из масс-спектрометрии, чтобы улучшить аннотации геномики.[8]

Было разработано множество программных инструментов, позволяющих ученым просматривать и обмениваться аннотациями генома; Например, ИЗГОТОВИТЕЛЬ.

Аннотации генома остаются серьезной проблемой для ученых, исследующих человеческий геном, теперь, когда последовательности генома более тысячи человек (The 100,000 Genomes Project, Великобритания) и нескольких модельные организмы в основном завершены.[9][10] Определение местоположения генов и других элементов генетического контроля часто описывается как определение биологического «списка частей» для сборки и нормальной работы организма.[6] Ученые все еще находятся на ранней стадии процесса определения этого списка частей и понимания того, как все части «сочетаются друг с другом».[11]

Аннотации генома - активная область исследований, в которой участвует ряд различных организаций в сообществе медико-биологических наук, которые публикуют результаты своих усилий в открытом доступе. биологические базы данных доступны через Интернет и другие электронные средства. Вот алфавитный список текущих проектов, имеющих отношение к аннотации генома:

В Википедии аннотации генома начали автоматизировать под эгидой Портал Gene Wiki который управляет бот который собирает данные о генах из исследовательских баз данных и создает на их основе заглушки генов.[12]

Рекомендации

  1. ^ «Определение аннотации генома».
  2. ^ "Учебные ресурсы GO". Архивировано из оригинал 10 октября 2006 г.. Получено 21 сентября 2006.
  3. ^ http://bioontology.stanford.edu/annotator-service
  4. ^ Фанг, H; Гоф, Дж (2013). «DcGO: База данных доменных онтологий по функциям, фенотипам, заболеваниям и т. Д.». Исследования нуклеиновых кислот. 41 (Выпуск базы данных): D536–44. Дои:10.1093 / нар / гкс1080. ЧВК  3531119. PMID  23161684.
  5. ^ Стейн, Л. (2001). «Аннотации генома: от последовательности к биологии». Природа Обзоры Генетика. 2 (7): 493–503. Дои:10.1038/35080529. PMID  11433356. S2CID  12044602.
  6. ^ а б Певснер, Джонатан (2009). Биоинформатика и функциональная геномика (2-е изд.). Хобокен, штат Нью-Джерси: Wiley-Blackwell. ISBN  9780470085851.
  7. ^ "Электронная документация по конвейеру аннотации генома Ensembl". Архивировано из оригинал 5 марта 2016 г.
  8. ^ Гупта, Нитин; Стивен Таннер; Навдип Джайтли; Джошуа Н. Адкинс; Мэри Липтон; Роберт Эдвардс; Маргарет Ромайн; Андрей Остерман; Винит Бафна; Ричард Д. Смит; Павел Певзнер (сентябрь 2007 г.). «Полный протеомный анализ посттрансляционных модификаций: применение масс-спектрометрии для протеогеномной аннотации». Геномные исследования. 17 (9): 1362–1377. Дои:10.1101 / гр.6427907. ISSN  1088-9051. ЧВК  1950905. PMID  17690205.
  9. ^ Консорциум проектов ENCODE (2011 г.). Беккер ПБ (ред.). «Руководство пользователя Энциклопедии элементов ДНК (ENCODE)». PLOS Биология. 9 (4): e1001046. Дои:10.1371 / journal.pbio.1001046. ЧВК  3079585. PMID  21526222. открытый доступ
  10. ^ McVean, G.A .; Abecasis, D. M .; Auton, R.M .; Брукс, Г. А. Р .; Депристо, Д. Р .; Дурбин, А .; Handsaker, A. G .; Kang, P .; Marth, E. E .; McVean, P .; Габриэль, С.Б .; Гиббс, Р. А .; Green, E.D .; Hurles, M.E .; Кнопперс, Б. М .; Korbel, J. O .; Lander, E. S .; Lee, C .; Lehrach, H .; Mardis, E. R .; Marth, G.T .; McVean, G.A .; Никерсон, Д. А .; Schmidt, J. P .; Sherry, S.T .; Wang, J .; Wilson, R.K .; Гиббс (главный исследователь), Р. А .; Dinh, H .; и другие. (2012). «Интегрированная карта генетических вариаций из 1092 геномов человека». Природа. 491 (7422): 56–65. Bibcode:2012Натура 491 ... 56Т. Дои:10.1038 / природа11632. ЧВК  3498066. PMID  23128226.
  11. ^ Dunham, I .; Бернштейн, А .; Birney, S. F .; Dunham, P.J .; Green, C.A .; Gunter, F .; Snyder, C.B .; Frietze, S .; Harrow, J .; Kaul, R .; Хатун, Дж .; Lajoie, B.R .; Landt, S.G .; Lee, B.K .; Паули, Ф .; Rosenbloom, K. R .; Sabo, P .; Safi, A .; Sanyal, A .; Шореш, Н .; Саймон, Дж. М .; Песня, Л .; Trinklein, N.D .; Альтшулер, Р. С .; Birney, E .; Brown, J. B .; Cheng, C .; Джебали, С .; Донг, X .; и другие. (2012). «Интегрированная энциклопедия элементов ДНК в геноме человека». Природа. 489 (7414): 57–74. Bibcode:2012Натура 489 ... 57т. Дои:10.1038 / природа11247. ЧВК  3439153. PMID  22955616.
  12. ^ Huss, Jon W .; Ороско, К; Гудейл, Дж; Wu, C; Баталов, С; Викерс, Т.Дж.; Валафар, Ф; Су, AI (2008). «Вики-сайт по генам для аннотации функций генов». PLOS Биология. 6 (7): e175. Дои:10.1371 / journal.pbio.0060175. ЧВК  2443188. PMID  18613750.