WikiDer > Сложность лингвистической последовательности
Сложность лингвистической последовательности (LC) - это мера «словарного богатства» генетического текста в генные последовательности.[1]Когда нуклеотид последовательность записывается как текст с использованием четырехбуквенного алфавита, повторяемость текста, то есть повторение его N-граммы (слова), могут быть вычислены и служат мерой сложности последовательности. Таким образом, чем сложнее Последовательность ДНК, тем богаче его олигонуклеотид словарный запас, тогда как повторяющиеся последовательности имеют относительно меньшую сложность. Последующая работа улучшила исходный алгоритм, описанный в Трифонов (1990),[1] без изменения сути лингвистического сложного подхода.[2][3][4]
Значение LC можно лучше понять, рассматривая представление последовательности как дерево всех подпоследовательностей данной последовательности. Наиболее сложные последовательности имеют максимально сбалансированные деревья, в то время как мера дисбаланса или асимметрии дерева служит мера сложности. Количество узлов на уровне дерева я равен фактическому объему словарного запаса слов с длиной я в заданной последовательности; количество узлов в наиболее сбалансированном дереве, которое соответствует наиболее сложной последовательности длины N, на уровне дерева я либо 4я или N-i + 1, в зависимости от того, что меньше. Сложность (C) фрагмента последовательности (длиной RW) можно непосредственно вычислить как произведение показателей использования словаря (Uя):[2]
Использование словарного запаса для олигомеры заданного размера я может быть определено как отношение фактического размера словаря данной последовательности к максимально возможному размеру словарного запаса для последовательности такой длины. Например, U2 для последовательности ACGGGAAGCTGATTCCA = 14/16, поскольку она содержит 14 из 16 возможных различных динуклеотидов; U3 для той же последовательности = 15/15, а U4= 14/14. Для последовательности ACACACACACACACACA, U1= 1/2; U2= 2/16 = 0,125, так как в его простом словаре всего два динуклеотида; U3 для этой последовательности = 2/15. k-наборов с k от двух до W рассматривается, а W зависит от RW. Для значений RW менее 18 W равно 3; для RW менее 67 W равно 4; для RW <260, W = 5; для RW <1029, W = 6 и т. д. Значение C обеспечивает меру сложности последовательности в диапазоне 0
Рекомендации
- ^ а б c Эдуард Николаевич Трифонов (1990). «Осмысление генома человека». Структура и методы. 1. Инициатива по геному человека и рекомбинация ДНК; Труды шестого разговора по дисциплине «Биомолекулярная стереодинамика». Олбани, Нью-Йорк: Adenine Press. С. 69–77.
- ^ а б c d Габриэлян А. (1999). «Сложность последовательности и кривизна ДНК». Компьютеры и химия. 23 (3–4): 263–274. Дои:10.1016 / S0097-8485 (99) 00007-8. PMID 10404619.
- ^ Орлов Ю.Л .; Потапов, В. Н. (2004). «Сложность: Интернет-ресурс для анализа сложности последовательности ДНК». Исследования нуклеиновых кислот. 32 (Проблема с веб-сервером): W628 – W633. Дои:10.1093 / нар / гх466. ЧВК 441604. PMID 15215465.
- ^ Janson, S .; Lonardi, S .; Шпанковский, В. (2004). «Средняя сложность последовательности». Теоретическая информатика. 326 (1–3): 213–227. Дои:10.1016 / j.tcs.2004.06.023.
- ^ а б Троянская, О.Г .; Arbell, O .; Корен, Й .; Ландау, Г. М .; Большой А. (2002). «Профили сложности последовательностей прокариотических геномных последовательностей: быстрый алгоритм для расчета лингвистической сложности». Биоинформатика. 18 (5): 679–88. Дои:10.1093 / биоинформатика / 18.5.679. PMID 12050064.
- ^ Kalendar, R .; Ли, Д .; Шульман, А. Х. (2011). «Веб-инструменты Java для ПЦР, in silico PCR, сборки и анализа олигонуклеотидов». Геномика. 98 (2): 137–144. Дои:10.1016 / j.ygeno.2011.04.009. PMID 21569836.