WikiDer > GeneMark
Оригинальный автор (ы) | Группа биоинформатики Марка Бородовского |
---|---|
Разработчики) | Технологический институт Джорджии |
изначальный выпуск | 1993 |
Операционная система | Linux, Windows, и Mac OS |
Лицензия | Бесплатно для академических, некоммерческих или государственных нужд |
Интернет сайт | opal.biology.gatech.edu/GeneMark |
GeneMark общее название для семьи ab initio программы прогнозирования генов, разработанные в Технологический институт Джорджии в Атланта. Разработанный в 1993 году оригинальный GeneMark использовался в 1995 году в качестве основного инструмента прогнозирования генов для аннотации первого полностью секвенированного бактериального генома Haemophilus influenzae, а в 1996 г. - первый геном архей Methanococcus jannaschii. Введенный алгоритм неоднородный трехпериодический Цепь Маркова модели кодирования белков Последовательность ДНК Это стало стандартом в предсказании генов, а также в байесовском подходе к предсказанию генов одновременно в двух цепях ДНК. Специфические для видов параметры моделей оценивались на основе обучающих наборов последовательностей известного типа (кодирующие и некодирующие). На основном этапе алгоритма вычисляются апостериорные вероятности для данного фрагмента ДНК того, что он «кодирует белок» (несет генетический код) в каждой из шести возможных рамок считывания (включая три рамки в комплементарная ДНК strand) или быть «некодирующими». Оригинальный GeneMark (разработанный до эры HMM в биоинформатике) представляет собой алгоритм, подобный HMM; его можно рассматривать как приближение к известному в теории HMM алгоритму апостериорного декодирования для правильно определенного HMM.
Прогнозирование прокариотических генов
Алгоритм GeneMark.hmm (1998) был разработан для повышения точности предсказания генов при поиске коротких генов и генных запусков. Идея заключалась в том, чтобы интегрировать модели цепей Маркова, используемые в GeneMark, в скрытая марковская модель framework с переходом между кодирующими и некодирующими областями, формально интерпретируемыми как переходы между скрытыми состояниями. Кроме того, рибосома сайт привязки Модель была использована для повышения точности предсказания старта гена. Следующий шаг был сделан с разработкой самообучающегося инструмента прогнозирования генов GeneMarkS (2001). GeneMarkS активно используется сообществом геномиков для идентификации генов в новых геномных последовательностях прокариот. GeneMarkS +, расширение GeneMarkS, интегрирующее информацию о гомологичных белках в прогнозирование генов, используется в конвейере NCBI для аннотации прокариотических геномов; конвейер может аннотировать до 2000 геномов ежедневно (www.ncbi.nlm.nih.gov/genome/annotation_prok/process).
Эвристические модели и прогнозирование генов в метагеномах и метатрансциптомах
Точная идентификация видоспецифичных параметров алгоритмов GeneMark и GeneMark.hmm была ключевым условием для создания точных прогнозов генов. Однако был поднят вопрос, мотивированный исследованиями вирусных геномов, как определить параметры для предсказания генов в довольно короткой последовательности, не имеющей большого геномного контекста. В 1999 году этот вопрос был решен путем разработки «эвристического метода» вычисления параметров как функций от содержания последовательности G + C. С 2004 года модели, построенные на основе эвристического подхода, используются для поиска генов в метагеномных последовательностях. Впоследствии анализ нескольких сотен прокариотических геномов привел к разработке более совершенного эвристического метода (реализованного в MetaGeneMark) в 2010 году.
Прогнозирование эукариотических генов
В моделировании геномов эукариот экзон границы с интронами и межгенными регионами представляют собой серьезную проблему, решаемую с помощью HMMs. HMM-архитектура эукариотического GeneMark.hmm включает скрытые состояния для начальных, внутренних и конечных экзонов, интроны, межгенные области и гены с одним экзоном, расположенные в обеих цепях ДНК. Первоначальный эукариотический GeneMark.hmm требовал обучающих наборов для оценки параметров алгоритма. В 2005 году была разработана первая версия алгоритма самообучения GeneMark-ES. В 2008 году алгоритм GeneMark-ES был распространен на грибковые геномы путем разработки специальной модели интрона и более сложной стратегии самообучения. Затем, в 2014 году, в это семейство был добавлен алгоритм GeneMark-ET, который дополнял самообучение информацией из отображенных в несобранный геном считываний RNA-Seq. Прогнозирование генов в эукариотических транскриптах может быть выполнено с помощью нового алгоритма GeneMarkS-T (2015)
Семейство программ генетического прогнозирования GeneMark
Бактерии, Археи
- GeneMark
- GeneMarkS
- GeneMarkS +
Метагеномы и метатранскриптомы
- MetaGeneMark
Эукариоты
- GeneMark
- GeneMark.hmm [1]
- GeneMark-ES: алгоритм поиска генов для геномов эукариот, который выполняет автоматическое обучение в неконтролируемом ab initio режиме. [2]
- GeneMark-ET: дополняет GeneMark-ES новым методом, который интегрирует выравнивание считывания RNA-Seq в процедуру самообучения. [3]
- GeneMark-EX: полностью автоматический интегрированный инструмент для аннотации генома, который демонстрирует высокую производительность для входных данных различного размера, структуры и качества. Алгоритм выбирает подход к оценке параметров в зависимости от объема, качества и особенностей входных данных, размера набора данных RNA-seq, филогенетического положения вида, степени фрагментации сборки. Он может автоматически модифицировать архитектуру HMM в соответствии с особенностями рассматриваемого генома и интегрировать информацию о транскрипте и белке в процесс прогнозирования генов. [4]
Вирусы, фаги и плазмиды
- Эвристические модели
Транскрипты, собранные из RNA-Seq, читаются
- GeneMarkS-T
Смотрите также
использованная литература
- Бородовский М. и МакИнинч Дж. "GeneMark: параллельное распознавание генов для обеих цепей ДНК." Компьютеры и химия (1993) 17 (2): 123–133.
- Лукашин А. и Бородовский М. "GeneMark.hmm: новые решения для поиска генов." Исследования нуклеиновых кислот (1998) 26 (4): 1107–1115. Дои:10.1093 / nar / 26.4.1107
- Бесемер Я. и Бородовский М. "Эвристический подход к построению моделей для поиска генов." Исследования нуклеиновых кислот (1999) 27 (19): 3911–3920. Дои:10.1093 / nar / 27.19.3911
- Бесемер Я., Ломсадзе А. и Бородовский М. "GeneMarkS: метод самообучения для предсказания начала генов в микробных геномах. Значение для поиска мотивов последовательностей в регуляторных областях." Исследования нуклеиновых кислот (2001) 29 (12): 2607–2618. Дои:10.1093 / nar / 29.12.2607
- Миллс Р., Розанов М., Ломсадзе А., Татусова Т. и Бородовский М. "Улучшение аннотации генов в полных вирусных геномах." Исследования нуклеиновых кислот (2003) 31 (23): 7041–7055. Дои:10.1093 / nar / gkg878
- Бесемер Я. и Бородовский М. "GeneMark: веб-программа для поиска генов у прокариот, эукариот и вирусов." Исследования нуклеиновых кислот (2005) 33 (Проблема с веб-сервером): W451-454. Дои:10.1093 / нар / gki487
- Ломсадзе А., Тер-Оганесян В., Чернов Ю. и Бородовский М. »Идентификация генов в новых геномах эукариот с помощью алгоритма самообучения." Исследования нуклеиновых кислот (2005) 33 (20): 6494–6506. Дои:10.1093 / нар / gki937
- Жу В., Ломсадзе А. и Бородовский М. "Идентификация гена ab initio в метагеномных последовательностях." Исследования нуклеиновых кислот (2010) 38 (12): e132. Дои:10.1093 / nar / gkq275