Предсказание вторичной структуры рнк

Прогнозирование структуры нуклеиновой кислоты — Nucleic acid structure prediction

Прогнозирование структуры нуклеиновой кислоты — это вычислительный метод определения вторичной и третичной структуры нуклеиновой кислоты по ее последовательности. Вторичную структуру можно предсказать по одной или нескольким последовательностям нуклеиновой кислоты. Третичная структура может быть предсказана на основе последовательности или путем сравнительного моделирования (когда известна структура гомологичной последовательности).

Проблема прогнозирования нуклеиновой кислоты вторичной структуры зависит главным образом от спаривания оснований и оснований укладываемых взаимодействий; многие молекулы имеют несколько возможных трехмерных структур, поэтому прогнозирование этих структур остается недостижимым, если не наблюдается очевидная последовательность и функциональное сходство с известным классом молекул нуклеиновых кислот, например, транспортной РНК (тРНК) или микроРНК (миРНК). Многие методы прогнозирования вторичной структуры основаны на вариациях динамического программирования и поэтому не могут эффективно идентифицировать псевдоузлы .

Хотя методы схожи, есть небольшие различия в подходах к предсказанию структуры РНК и ДНК. In vivo структуры ДНК с большей вероятностью будут дуплексами с полной комплементарностью между двумя цепями, тогда как структуры РНК с большей вероятностью будут складываться в сложные вторичные и третичные структуры, такие как рибосома , сплайсосома или транспортная РНК . Отчасти это связано с тем, что дополнительный кислород в РНК увеличивает склонность к образованию водородных связей в основной цепи нуклеиновой кислоты. Эти энергетические параметры также различны для двух нуклеиновых кислот. Методы предсказания структуры могут следовать полностью теоретическому подходу или гибридному подходу, включающему экспериментальные данные.

СОДЕРЖАНИЕ

Прогнозирование структуры одиночной последовательности

Распространенной проблемой исследователей, работающих с РНК, является определение трехмерной структуры молекулы с учетом только последовательности нуклеиновой кислоты. Однако в случае РНК большая часть окончательной структуры определяется вторичной структурой или внутримолекулярными взаимодействиями спаривания оснований молекулы. Об этом свидетельствует высокая сохранность пар оснований у разных видов.

Самая устойчивая конструкция

Вторичная структура малых молекул РНК в значительной степени определяется сильными локальными взаимодействиями, такими как водородные связи и стэкинг оснований . Суммирование свободной энергии для таких взаимодействий должно обеспечить приближение устойчивости данной структуры. Для прогнозирования свободной энергии сворачивания данной вторичной структуры используется эмпирическая модель ближайшего соседа . В модели ближайшего соседа изменение свободной энергии для каждого мотива зависит от последовательности мотива и его ближайших пар оснований. Модель и параметры минимальной энергии для пар Уотсона – Крика, пар GU и областей петель были получены из эмпирических калориметрических экспериментов, самые последние параметры были опубликованы в 2004 году, хотя в большинстве программных пакетов используется предыдущий набор, собранный в 1999 году.

Самый простой способ найти самую низкую свободную структуру энергии будет генерировать все возможные структуры и вычислить свободную энергию для него, но число возможных структур для последовательности экспоненциально возрастает с увеличением длины РНК: . Для более длинных молекул количество возможных вторичных структур огромно: последовательность из 100 нуклеотидов имеет более 10 25 возможных вторичных структур. number of secondary structures = (1,8) N , N- number of nucleotides

Читайте также:  Предсказания будущего россии ясновидящими

Алгоритмы динамического программирования

Наиболее популярные методы предсказания вторичной структуры РНК и ДНК включают динамическое программирование . Одна из первых попыток предсказания вторичной структуры РНК была предпринята Рут Нусинов и соавторами, которые разработали алгоритм, основанный на динамическом программировании, который максимизировал длину и количество серии «блоков» (полинуклеотидных цепей). Каждый «блок» требовал по крайней мере двух нуклеотидов, что уменьшало требования к памяти для алгоритма по сравнению с подходами к сопоставлению одного основания. Нусинов и др. позже опубликовал адаптированный подход с улучшенной производительностью, который увеличил ограничение размера РНК до

1000 оснований за счет сворачивания подсекций все большего размера при сохранении результатов предыдущих сверток , теперь известный как алгоритм Нусинова . В 1981 году Майкл Цукер и Патрик Стиглер предложили усовершенствованный подход с производительностью, сопоставимой с решением Нуссинова и др., Но с дополнительной возможностью находить «неоптимальные» вторичные структуры.

Алгоритмы динамического программирования предоставляют средства для неявной проверки всех вариантов возможных вторичных структур РНК без явной генерации структур. Сначала определяется самая низкая конформационная свободная энергия для каждого возможного фрагмента последовательности, начиная с самых коротких фрагментов, а затем для более длинных фрагментов. Для более длинных фрагментов рекурсия по оптимальным изменениям свободной энергии, определенным для более коротких последовательностей, ускоряет определение наименьшей свободной энергии сворачивания. После вычисления самой низкой свободной энергии полной последовательности определяется точная структура молекулы РНК.

Алгоритмы динамического программирования обычно используются для обнаружения паттернов спаривания оснований , которые «хорошо вложены», то есть образуют водородные связи только с основаниями, которые не перекрывают друг друга в положении последовательности. Вторичные структуры, которые попадают в эту категорию, включают двойные спирали , стержневые петли и варианты «клеверного листа», обнаруженные в молекулах транспортной РНК . Эти методы основаны на предварительно рассчитанных параметрах, которые оценивают свободную энергию, связанную с определенными типами взаимодействий пар оснований, включая пары оснований Уотсона-Крика и Хугстина . В зависимости от сложности метода можно рассматривать одиночные пары оснований и короткие двух- или трехосновные сегменты, чтобы учесть эффекты наложения оснований. Этот метод не может идентифицировать псевдоузлы , которые плохо вложены, без существенных алгоритмических модификаций, которые требуют больших вычислительных затрат.

Субоптимальные структуры

Точность предсказания вторичной структуры РНК из одной последовательности путем минимизации свободной энергии ограничивается несколькими факторами:

  1. Список значений свободной энергии в модели ближайшего соседа неполный.
  2. Не все известные РНК складываются таким образом, чтобы соответствовать термодинамическому минимуму.
  3. Некоторые последовательности РНК имеют более одной биологически активной конформации (например, рибопереключатели ).

По этой причине способность предсказывать структуры, которые имеют аналогичную низкую свободную энергию, может предоставить важную информацию. Такие структуры называют субоптимальными . MFOLD — это программа, которая генерирует неоптимальные структуры.

Прогнозирование псевдоузлов

Одна из проблем при прогнозировании вторичной структуры РНК заключается в том, что стандартные методы минимизации свободной энергии и статистической выборки не могут найти псевдоязычные узлы . Основная проблема заключается в том, что обычные алгоритмы динамического программирования при прогнозировании вторичной структуры учитывают только взаимодействия между ближайшими нуклеотидами, в то время как псевдоузловые структуры образуются из-за взаимодействий между удаленными нуклеотидами. Ривас и Эдди опубликовали алгоритм динамического программирования для предсказания псевдоузлов. Однако этот алгоритм динамического программирования очень медленный. Стандартный алгоритм динамического программирования для минимизации свободной энергии масштабирует O (N 3 ) во времени (N — количество нуклеотидов в последовательности), в то время как алгоритм Риваса и Эдди масштабирует O (N 6 ) во времени. Это побудило нескольких исследователей реализовать версии алгоритма, ограничивающие классы псевдоузлов, что привело к увеличению производительности. Например, инструмент pknotsRG включает только класс простых рекурсивных псевдоузлов и масштабируется во времени O (N4).

Читайте также:  Предсказания 2021 отец пио держите ваши окна хорошо закрытыми

Другие подходы к предсказанию вторичной структуры РНК

Другой подход к определению вторичной структуры РНК — это выборка структур из ансамбля Больцмана , как показано на примере программы SFOLD. Программа генерирует статистическую выборку всех возможных вторичных структур РНК. Алгоритм выбирает вторичные структуры в соответствии с распределением Больцмана . Метод отбора проб предлагает привлекательное решение проблемы неопределенности складывания.

Сравнительный прогноз вторичной структуры

Методы ковариации последовательностей основаны на существовании набора данных, состоящего из множества гомологичных последовательностей РНК со связанными, но непохожими последовательностями. Эти методы анализируют ковариацию отдельных базовых сайтов в эволюции ; поддержание в двух широко разделенных сайтах пары нуклеотидов спаривания оснований указывает на наличие структурно необходимой водородной связи между этими положениями. Показано, что общая проблема предсказания псевдоузлов является NP-полной .

В общем, проблема согласования и предсказания консенсусной структуры тесно связаны. Можно выделить три различных подхода к предсказанию консенсусных структур:

  1. Сгибание выравнивания
  2. Одновременное выравнивание и сворачивание последовательности
  3. Выравнивание прогнозируемых конструкций

Выровняйте, затем сложите

Практический эвристический подход заключается в использовании нескольких инструментов для выравнивания последовательностей, чтобы произвести выравнивание нескольких последовательностей РНК, найти согласованную последовательность и затем свернуть ее. Качество согласования определяет точность модели структуры консенсуса. Консенсусные последовательности складываются с использованием различных подходов, как и в задаче прогнозирования индивидуальной структуры. Примером термодинамического фолдинга является программа RNAalifold. Примеры различных подходов иллюстрируются программами Pfold и ILM. Программа Pfold реализует SCFG . ILM (итеративное сопоставление циклов), в отличие от других алгоритмов свертывания выравниваний, может возвращать структуры с псевдонимами. Он использует комбинацию оценок термодинамики и взаимной информации .

Выровняйте и сложите

Эволюция часто сохраняет функциональную структуру РНК лучше, чем последовательность РНК. Следовательно, общая биологическая проблема состоит в том, чтобы вывести общую структуру для двух или более сильно различающихся, но гомологичных последовательностей РНК. На практике выравнивания последовательностей становятся непригодными и не помогают повысить точность предсказания структуры, когда сходство последовательностей двух последовательностей составляет менее 50%.

Программы выравнивания на основе структуры улучшают производительность этих выравниваний, и большинство из них являются вариантами алгоритма Санкоффа. По сути, алгоритм Санкофф представляет собой слияние метода динамического программирования выравнивания последовательностей и метода сворачивания Нусинова (максимальное спаривание). Сам алгоритм Санкоффа является теоретическим упражнением, поскольку он требует огромных вычислительных ресурсов (O (n3m) по времени и O (n2m) по пространству, где n — длина последовательности, а m — количество последовательностей). Некоторые известные попытки реализации ограниченных версий алгоритма Санкоффа — это Foldalign, Dynalign, PMmulti / PMcomp, Stemloc и Murlet. В этих реализациях ограничивается максимальная длина выравнивания или варианты возможных консенсусных структур. Например, Foldalign фокусируется на локальном выравнивании и ограничивает возможную длину выравнивания последовательностей.

Читайте также:  Когда придумают лекарство от рака предсказания ванги

Сложите, затем выровняйте

Менее широко используемый подход — сворачивание последовательностей с использованием методов прогнозирования структуры одиночной последовательности и выравнивание полученных структур с использованием древовидных показателей. Основным недостатком этого подхода является то, что прогнозы отдельных последовательностей часто бывают неточными, что влияет на все последующие анализы.

Прогнозирование третичной структуры

Как только вторичная структура РНК известна, следующая задача — предсказать третичную структуру . Самая большая проблема — это определение структуры областей между двухцепочечными спиральными областями. Также молекулы РНК часто содержат посттранскрипционно модифицированные нуклеозиды, которые из-за новых возможных неканонических взаимодействий создают много проблем для предсказания третичной структуры.

Методы прогнозирования трехмерной структуры могут использовать сравнительное моделирование, которое начинается с известной связанной структуры, известной как шаблон. Альтернативной стратегией является моделирование вторичной структуры РНК de novo, которое использует основанные на физике принципы, такие как молекулярная динамика или случайная выборка конформационного ландшафта с последующим скринингом со статистическим потенциалом для оценки. Эти методы используют либо полностью атомное представление структуры нуклеиновой кислоты, либо крупнозернистое представление. Структуры с низким разрешением, созданные многими из этих методов моделирования, затем подвергаются уточнению с высоким разрешением.

Источник

Предсказание вторичной структуры РНК

  • Предсказа́ние втори́чной структу́ры РНК — метод определения вторичной структуры нуклеиновой кислоты по последовательности её нуклеотидов. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное выравнивание семейства родственных РНК.

Вторичная структура нуклеиновой кислоты зависит, главным образом, от спаривания оснований друг с другом и стэкинг-взаимодействий. Однако во многих случаях вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем её первичная последовательность. Многие способы предсказания вторичной структуры основаны на методе динамического программирования и не в состоянии эффективно выявлять псевдоузлы.

Несмотря на схожесть, существуют некоторые различия в методах предсказания структур ДНК и РНК. В естественных условиях ДНК чаще всего представляет собой полностью комплементарный дуплекс, в то время как РНК образует сложные вторичные и третичные структуры, как, например, у тРНК, рибосомальных РНК или сплайсосом. Происходит это отчасти потому, что дополнительный атом кислорода в составе рибозы увеличивает склонность к образованию водородной связи основной цепью нуклеиновой кислоты. Отличаются и энергетические параметры двух этих нуклеиновых кислот.

Связанные понятия

В статистике, машинном обучении и теории информации снижение размерности — это преобразование данных, состоящее в уменьшении числа переменных путём получения главных переменных. Преобразование может быть разделено на отбор признаков и выделение признаков.

Сети адаптивного резонанса — разновидность искусственных нейронных сетей, основанная на теории адаптивного резонанса Стивена Гроссберга и Гейла Карпентера. Включает в себя модели обучения с учителем и без учителя, которые используются при решении задач распознавания образов и предсказания.

Источник

Оцените статью