WikiDer > Сложность лингвистической последовательности

Linguistic sequence complexity

Сложность лингвистической последовательности (LC) - это мера «словарного богатства» генетического текста в генные последовательности.^[1]Когда нуклеотид последовательность записывается как текст с использованием четырехбуквенного алфавита, повторяемость текста, то есть повторение его N-граммы (слова), могут быть вычислены и служат мерой сложности последовательности. Таким образом, чем сложнее Последовательность ДНК, тем богаче его олигонуклеотид словарный запас, тогда как повторяющиеся последовательности имеют относительно меньшую сложность. Последующая работа улучшила исходный алгоритм, описанный в Трифонов (1990),^[1] без изменения сути лингвистического сложного подхода.^[2]^[3]^[4]

Значение LC можно лучше понять, рассматривая представление последовательности как дерево всех подпоследовательностей данной последовательности. Наиболее сложные последовательности имеют максимально сбалансированные деревья, в то время как мера дисбаланса или асимметрии дерева служит мера сложности. Количество узлов на уровне дерева $я$ равен фактическому объему словарного запаса слов с длиной $я$ в заданной последовательности; количество узлов в наиболее сбалансированном дереве, которое соответствует наиболее сложной последовательности длины N, на уровне дерева $я$ либо 4^я или N-i + 1, в зависимости от того, что меньше. Сложность ( $C$ ) фрагмента последовательности (длиной RW) можно непосредственно вычислить как произведение показателей использования словаря (U_я):^[2]

${ displaystyle C = U_ {1} U_ {2} ... U_ {i} .... U_ {w}}$

Использование словарного запаса для олигомеры заданного размера $я$ может быть определено как отношение фактического размера словаря данной последовательности к максимально возможному размеру словарного запаса для последовательности такой длины. Например, U₂ для последовательности ACGGGAAGCTGATTCCA = 14/16, поскольку она содержит 14 из 16 возможных различных динуклеотидов; U₃ для той же последовательности = 15/15, а U₄= 14/14. Для последовательности ACACACACACACACACA, U₁= 1/2; U₂= 2/16 = 0,125, так как в его простом словаре всего два динуклеотида; U₃ для этой последовательности = 2/15. k-наборов с k от двух до W рассматривается, а W зависит от RW. Для значений RW менее 18 W равно 3; для RW менее 67 W равно 4; для RW <260, W = 5; для RW <1029, W = 6 и т. д. Значение $C$ обеспечивает меру сложности последовательности в диапазоне 0 [2]Эта формула отличается от исходной меры LC^[1] в двух отношениях: в способе использования словарного запаса U_я рассчитывается, и поскольку $я$ не находится в диапазоне от 2 до N-1, а только до W. Это ограничение диапазона U_я делает алгоритм существенно более эффективным без потери мощности.^[2]В ^[5] была использована другая модифицированная версия, в которой лингвистическая сложность (LC) определяется как отношение количества подстрок любой длины, присутствующих в строке, к максимально возможному количеству подстрок. Максимальный словарный запас при размере слов от 1 до m можно рассчитать по простой формуле.^[5]Этот расчет сложности анализа последовательностей может использоваться для поиска консервативных областей между сравниваемыми последовательностями для обнаружения областей с низкой сложностью, включая простые повторы последовательностей, несовершенные непосредственный или же перевернутые повторы, полипурин и полипиримидин трехцепочечные структуры ДНК, и четырехцепочечные структуры (например, G-квадруплексы).^[6]

Рекомендации

^ ^а ^б ^c Эдуард Николаевич Трифонов (1990). «Осмысление генома человека». Структура и методы. 1. Инициатива по геному человека и рекомбинация ДНК; Труды шестого разговора по дисциплине «Биомолекулярная стереодинамика». Олбани, Нью-Йорк: Adenine Press. С. 69–77.
^ ^а ^б ^c ^d Габриэлян А. (1999). «Сложность последовательности и кривизна ДНК». Компьютеры и химия. 23 (3–4): 263–274. Дои:10.1016 / S0097-8485 (99) 00007-8. PMID 10404619.
^ Орлов Ю.Л .; Потапов, В. Н. (2004). «Сложность: Интернет-ресурс для анализа сложности последовательности ДНК». Исследования нуклеиновых кислот. 32 (Проблема с веб-сервером): W628 – W633. Дои:10.1093 / нар / гх466. ЧВК 441604. PMID 15215465.
^ Janson, S .; Lonardi, S .; Шпанковский, В. (2004). «Средняя сложность последовательности». Теоретическая информатика. 326 (1–3): 213–227. Дои:10.1016 / j.tcs.2004.06.023.
^ ^а ^б Троянская, О.Г .; Arbell, O .; Корен, Й .; Ландау, Г. М .; Большой А. (2002). «Профили сложности последовательностей прокариотических геномных последовательностей: быстрый алгоритм для расчета лингвистической сложности». Биоинформатика. 18 (5): 679–88. Дои:10.1093 / биоинформатика / 18.5.679. PMID 12050064.
^ Kalendar, R .; Ли, Д .; Шульман, А. Х. (2011). «Веб-инструменты Java для ПЦР, in silico PCR, сборки и анализа олигонуклеотидов». Геномика. 98 (2): 137–144. Дои:10.1016 / j.ygeno.2011.04.009. PMID 21569836.

[Trifonov1990-1] а ^б ^c Эдуард Николаевич Трифонов (1990). «Осмысление генома человека». Структура и методы. 1. Инициатива по геному человека и рекомбинация ДНК; Труды шестого разговора по дисциплине «Биомолекулярная стереодинамика». Олбани, Нью-Йорк: Adenine Press. С. 69–77.

[Gabrielian1999-2] а ^б ^c ^d Габриэлян А. (1999). «Сложность последовательности и кривизна ДНК». Компьютеры и химия. 23 (3–4): 263–274. Дои:10.1016 / S0097-8485 (99) 00007-8. PMID 10404619.

[Orlov2004-3] Орлов Ю.Л .; Потапов, В. Н. (2004). «Сложность: Интернет-ресурс для анализа сложности последовательности ДНК». Исследования нуклеиновых кислот. 32 (Проблема с веб-сервером): W628 – W633. Дои:10.1093 / нар / гх466. ЧВК 441604. PMID 15215465.

[Janson2004-4] Janson, S .; Lonardi, S .; Шпанковский, В. (2004). «Средняя сложность последовательности». Теоретическая информатика. 326 (1–3): 213–227. Дои:10.1016 / j.tcs.2004.06.023.

[TAKLB01-5] а ^б Троянская, О.Г .; Arbell, O .; Корен, Й .; Ландау, Г. М .; Большой А. (2002). «Профили сложности последовательностей прокариотических геномных последовательностей: быстрый алгоритм для расчета лингвистической сложности». Биоинформатика. 18 (5): 679–88. Дои:10.1093 / биоинформатика / 18.5.679. PMID 12050064.

[Kalendar2011-6] Kalendar, R .; Ли, Д .; Шульман, А. Х. (2011). «Веб-инструменты Java для ПЦР, in silico PCR, сборки и анализа олигонуклеотидов». Геномика. 98 (2): 137–144. Дои:10.1016 / j.ygeno.2011.04.009. PMID 21569836.

[1]

[2]

[3]

[4]

[5]

[6]

Navigation

Navigation

Themenportale

WikiDer > Сложность лингвистической последовательности

Рекомендации