WikiDer > GeneMark

GeneMark
Оригинальный автор (ы)	Группа биоинформатики Марка Бородовского
Разработчики)	Технологический институт Джорджии
изначальный выпуск	1993
Операционная система	Linux, Windows, и Mac OS
Лицензия	Бесплатно для академических, некоммерческих или государственных нужд
Интернет сайт	opal.biology.gatech.edu/GeneMark

GeneMark

GeneMark общее название для семьи ab initio программы прогнозирования генов, разработанные в Технологический институт Джорджии в Атланта. Разработанный в 1993 году оригинальный GeneMark использовался в 1995 году в качестве основного инструмента прогнозирования генов для аннотации первого полностью секвенированного бактериального генома Haemophilus influenzae, а в 1996 г. - первый геном архей Methanococcus jannaschii. Введенный алгоритм неоднородный трехпериодический Цепь Маркова модели кодирования белков Последовательность ДНК Это стало стандартом в предсказании генов, а также в байесовском подходе к предсказанию генов одновременно в двух цепях ДНК. Специфические для видов параметры моделей оценивались на основе обучающих наборов последовательностей известного типа (кодирующие и некодирующие). На основном этапе алгоритма вычисляются апостериорные вероятности для данного фрагмента ДНК того, что он «кодирует белок» (несет генетический код) в каждой из шести возможных рамок считывания (включая три рамки в комплементарная ДНК strand) или быть «некодирующими». Оригинальный GeneMark (разработанный до эры HMM в биоинформатике) представляет собой алгоритм, подобный HMM; его можно рассматривать как приближение к известному в теории HMM алгоритму апостериорного декодирования для правильно определенного HMM.

Прогнозирование прокариотических генов

Алгоритм GeneMark.hmm (1998) был разработан для повышения точности предсказания генов при поиске коротких генов и генных запусков. Идея заключалась в том, чтобы интегрировать модели цепей Маркова, используемые в GeneMark, в скрытая марковская модель framework с переходом между кодирующими и некодирующими областями, формально интерпретируемыми как переходы между скрытыми состояниями. Кроме того, рибосома сайт привязки Модель была использована для повышения точности предсказания старта гена. Следующий шаг был сделан с разработкой самообучающегося инструмента прогнозирования генов GeneMarkS (2001). GeneMarkS активно используется сообществом геномиков для идентификации генов в новых геномных последовательностях прокариот. GeneMarkS +, расширение GeneMarkS, интегрирующее информацию о гомологичных белках в прогнозирование генов, используется в конвейере NCBI для аннотации прокариотических геномов; конвейер может аннотировать до 2000 геномов ежедневно (www.ncbi.nlm.nih.gov/genome/annotation_prok/process).

Эвристические модели и прогнозирование генов в метагеномах и метатрансциптомах

Точная идентификация видоспецифичных параметров алгоритмов GeneMark и GeneMark.hmm была ключевым условием для создания точных прогнозов генов. Однако был поднят вопрос, мотивированный исследованиями вирусных геномов, как определить параметры для предсказания генов в довольно короткой последовательности, не имеющей большого геномного контекста. В 1999 году этот вопрос был решен путем разработки «эвристического метода» вычисления параметров как функций от содержания последовательности G + C. С 2004 года модели, построенные на основе эвристического подхода, используются для поиска генов в метагеномных последовательностях. Впоследствии анализ нескольких сотен прокариотических геномов привел к разработке более совершенного эвристического метода (реализованного в MetaGeneMark) в 2010 году.

Прогнозирование эукариотических генов

В моделировании геномов эукариот экзон границы с интронами и межгенными регионами представляют собой серьезную проблему, решаемую с помощью HMMs. HMM-архитектура эукариотического GeneMark.hmm включает скрытые состояния для начальных, внутренних и конечных экзонов, интроны, межгенные области и гены с одним экзоном, расположенные в обеих цепях ДНК. Первоначальный эукариотический GeneMark.hmm требовал обучающих наборов для оценки параметров алгоритма. В 2005 году была разработана первая версия алгоритма самообучения GeneMark-ES. В 2008 году алгоритм GeneMark-ES был распространен на грибковые геномы путем разработки специальной модели интрона и более сложной стратегии самообучения. Затем, в 2014 году, в это семейство был добавлен алгоритм GeneMark-ET, который дополнял самообучение информацией из отображенных в несобранный геном считываний RNA-Seq. Прогнозирование генов в эукариотических транскриптах может быть выполнено с помощью нового алгоритма GeneMarkS-T (2015)

Семейство программ генетического прогнозирования GeneMark

Бактерии, Археи

GeneMark
GeneMarkS
GeneMarkS +

Метагеномы и метатранскриптомы

MetaGeneMark

Эукариоты

GeneMark
GeneMark.hmm ^[1]
GeneMark-ES: алгоритм поиска генов для геномов эукариот, который выполняет автоматическое обучение в неконтролируемом ab initio режиме. ^[2]
GeneMark-ET: дополняет GeneMark-ES новым методом, который интегрирует выравнивание считывания RNA-Seq в процедуру самообучения. ^[3]
GeneMark-EX: полностью автоматический интегрированный инструмент для аннотации генома, который демонстрирует высокую производительность для входных данных различного размера, структуры и качества. Алгоритм выбирает подход к оценке параметров в зависимости от объема, качества и особенностей входных данных, размера набора данных RNA-seq, филогенетического положения вида, степени фрагментации сборки. Он может автоматически модифицировать архитектуру HMM в соответствии с особенностями рассматриваемого генома и интегрировать информацию о транскрипте и белке в процесс прогнозирования генов. ^[4]

Вирусы, фаги и плазмиды

Эвристические модели

Транскрипты, собранные из RNA-Seq, читаются

GeneMarkS-T

Смотрите также

использованная литература

Бородовский М. и МакИнинч Дж. "GeneMark: параллельное распознавание генов для обеих цепей ДНК." Компьютеры и химия (1993) 17 (2): 123–133.
Лукашин А. и Бородовский М. "GeneMark.hmm: новые решения для поиска генов." Исследования нуклеиновых кислот (1998) 26 (4): 1107–1115. Дои:10.1093 / nar / 26.4.1107
Бесемер Я. и Бородовский М. "Эвристический подход к построению моделей для поиска генов." Исследования нуклеиновых кислот (1999) 27 (19): 3911–3920. Дои:10.1093 / nar / 27.19.3911
Бесемер Я., Ломсадзе А. и Бородовский М. "GeneMarkS: метод самообучения для предсказания начала генов в микробных геномах. Значение для поиска мотивов последовательностей в регуляторных областях." Исследования нуклеиновых кислот (2001) 29 (12): 2607–2618. Дои:10.1093 / nar / 29.12.2607
Миллс Р., Розанов М., Ломсадзе А., Татусова Т. и Бородовский М. "Улучшение аннотации генов в полных вирусных геномах." Исследования нуклеиновых кислот (2003) 31 (23): 7041–7055. Дои:10.1093 / nar / gkg878
Бесемер Я. и Бородовский М. "GeneMark: веб-программа для поиска генов у прокариот, эукариот и вирусов." Исследования нуклеиновых кислот (2005) 33 (Проблема с веб-сервером): W451-454. Дои:10.1093 / нар / gki487
Ломсадзе А., Тер-Оганесян В., Чернов Ю. и Бородовский М. »Идентификация генов в новых геномах эукариот с помощью алгоритма самообучения." Исследования нуклеиновых кислот (2005) 33 (20): 6494–6506. Дои:10.1093 / нар / gki937
Жу В., Ломсадзе А. и Бородовский М. "Идентификация гена ab initio в метагеномных последовательностях." Исследования нуклеиновых кислот (2010) 38 (12): e132. Дои:10.1093 / nar / gkq275

внешние ссылки

Официальный веб-сайт

[1] ttp://exon.gatech.edu/GeneMark/gmhmme.cgi

[2] ttps://academic.oup.com/nar/article/33/20/6494/1082033

[3] ttps://www.rna-seqblog.com/genemark-et-gene-finding-algorithm-for-eukaryotic-genomes/

[4] ttps://pag.confex.com/pag/xxvi/meetingapp.cgi/Paper/31299 GeneMark-EX

[1]

[2]

[3]

[4]

v т е Омикс
Геномика	Когнитивная геномика Вычислительная геномика Сравнительная геномика Функциональная геномика Геномный проект Проект "Геном человека" Метагеномика Пангеномика Персональная геномика Социальная геномика Структурная геномика
Биоинформатика	Биочип Хеминформатика Хемогеномика Коннектомика Проект Human Connectome Гликомикс Иммуномика Липидомика Метаболомика Микробиомика Нутригеномика Палеополиплоидия Фармакогенетика Фармакогеномика Системная биология Токсикогеномика Транскриптомика
Структурная биология	Протеомика Проект протеома человека Протеомика карты вызовов Дизайн лекарств на основе структуры Протеомика экспрессии
Инструменты исследования	2-D электрофорез Масс-спектрометр Электрораспылительная ионизация Матричная лазерная десорбционная ионизация Матричный лазерно-десорбционный ионизационно-времяпролетный масс-спектрометр Инструменты на основе микрофлюидов Теги сродства изотопов
Организации	Национальные институты здоровья (СОЕДИНЕННЫЕ ШТАТЫ АМЕРИКИ) Банк данных ДНК Японии (JP) Европейская лаборатория молекулярной биологии (ЕС) Центр Сангера (EN)
Список Категория

Navigation