Что можно делать с одиночной последовательностью ДНК
Download
1 / 34

Что можно делать с одиночной последовательностью ДНК ? - PowerPoint PPT Presentation


  • 118 Views
  • Uploaded on

Что можно делать с одиночной последовательностью ДНК ?. Как исключить векторные фланки ? Рестрикционная карта Вашей последовательности Дизайн праймеров Анализ ДНК-состава Повторы в ДНК Как искать гены ? ( прокариоты, эукариоты) Тривиальные случаи применения сборки фрагментов.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Что можно делать с одиночной последовательностью ДНК ?' - natala


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Что можно делать с одиночной последовательностью ДНК?

  • Как исключить векторные фланки?

  • Рестрикционная карта Вашей последовательности

  • Дизайн праймеров

  • Анализ ДНК-состава

  • Повторы в ДНК

  • Как искать гены? (прокариоты, эукариоты)

  • Тривиальные случаи применения сборки фрагментов


Как выявить векторные сегменты в Вашей последовательности?

  • Просто сравнить с исходным вектором?

    VecScreen:

    http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen_docs.html

    “VecScreen is a system for quickly identifying segments of a nucleic acid sequence that may be of vector origin. NCBI developed VecScreen to minimize the incidence and impact of vector contamination in public sequence databases. GenBank Annotation Staff use VecScreen to verify that sequences submitted for inclusion in the database are free from contaminating vector sequence. Any sequence can be screened for vector contamination using the VecScreen Web site”


Как это выглядит Вашей последовательности?


Vecscreen output
VecScreen - output Вашей последовательности

  • “Non-significant similarity found” – ok!

  • В нашем случае:


Vecscreen
Как интерпретировать результаты VecScreen?

  • Если сегменты гомологии с векторов по краям – просто удалить их

  • Если в нескольких местах по всей длине – проще всего… все это выбросить

    (!) Не надо выбрасывать, если:

  • Вектор не ваш – он может быть просто родственным (100% сходство!)

  • Ваш ген мог быть основой для вектора

  • Но: если Вы видите неожиданную гомологию к E.coli или дрожжам – задумайтесь!


Почему надо бояться загрязнения ДНКчужеродными сегментами?

  • Быть уверенным в том, что Вы анализируете (и не тратить время зря)

  • Ошибки распространяются по базам данных с экспоненциальной скоростью: неверная информация, проблемы сборки и т.п.

  • В Swiss-Prot даже были специальные записи (P39188 – P39195: Alu-derived белки)

  • Будьте внимательны при работах с базами данных! (неожиданно высокая гомология к бактериям в эукариотах и т.п.)


Карта рестрикционных ДНКфрагментов

  • Еще одна возможность проверить сиквенс на идентичность с тем, что Вы ожидаете (годится, также, для длинных геномных кусков вплоть до бактериальных геномов)

  • Все сайты рестрикции лежат в базе данных REBASE (http://rebase.neb.com/)

  • Как предсказать список рестрикционных фрагментов?


Rebase
REBASE ДНК



Output
Output ДНК


Дизайн праймеров для ДНКPCR

http://biotools.umassmed.edu/


Primer3
Primer3 ДНК

Output – простой текстовый формат, предлагает четыре варианта пар

праймеров, первый из которых размечен на последовательности


Что можно варьировать ДНК?

  • Искать только левый или правый праймер, или пробу для гибридизации

  • Предлагать свой собственный левый или правый праймер

  • Выбрать последовательность, которую Вы хотите включить или наоборот исключить из амплифицированного фрагмента

  • Выбрать диапазон длины фрагмента

  • Выбрать диапазон размера олигонуклеотидов, GC-состав, точку плавления


Анализ ДНК-состава ДНК

  • G+C – состав

  • Статистика ди- и три- нуклеотидов

    (не путайте статистику тринуклеотидов и codon usage)

  • Частота более длинных слов


Зачем анализировать статистику ДНК?

  • GC-состав: (динамика плавления)

  • Ди- и тринуклеотиды -уникальная геномная подпись:

    • Идентификация загрязнения вектором

    • Свидетельство параллельного переноса

    • Островки патогенности

    • Классификация метагеномных контигов

  • Выявление origin репликации

  • Более длинные слова – регуляторные сигналы


Как это делать ДНК?

  • Это самые элементарные программы – обычно установлены на компьютере

  • EMBOSS (European Molecular Biology Open Software Suite) – бесплатный пакет (~ 100 модулей, только под Unix)

  • Web:

    http://www.genomatix.de/cgi-bin/tools/tools.plhttp://bioweb.pasteur.fr/intro-uk.html

  • Осмысленно смотреть “скользящим окном”



Как искать повторы в ДНК ДНК?

  • Внутренние повторы – сегменты, встречающиеся чаще, чем ожидается

  • Могут быть несовершенными – отличаться одной или несколькими буквами

  • Что лучше – 5 точных букв, 9 из 10 или 111 из 145? Разные score. Какой выбрать порог?

  • => Много программ и несопоставимые результаты. Нельзя верить отрицательным результатам


Dot plot approach
Dot-Plot ДНКapproach

http://arbl.cvmbs.colostate.edu/

molkit/


Как оценить сколько одинаковых слов много, а сколько нет

  • Статистическая модель – следует вероятность слова

  • Самый простой расчет: CTGA - 10 раз в последовательности длины 5000. Оценим вероятность: в каждой позиции - ¼*¼*¼*¼ = 1/256. Всего должно быть – 5000*1/256 ~ 20 раз

  • Если от ожидания отличается меньше, чем в 2 раза – все нормально. То есть от 10 до 40 раз - ок


Repeatmasker
Геном-специфические повторы слов много, а сколько нет: RepeatMasker

http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker


Поиск слов много, а сколько нет(белок-кодирующих) генов

  • Прокариоты – просто поиск длинных открытых рамок считывания (ORF) (> 100 aa)

  • ORFing – например, ORF finder на сайте NCBI

http://www.ncbi.nlm.nih.gov/

gorf/gorf.html


Output1
Output слов много, а сколько нет

Открытые рамки сортированы по длине

Графическое представление – ссылка на белковую последовательность, соответствующую ORF

Можно сразу запустить бласт этой последовательности по разным подмножествам GenBank

Если надо найти CDS в эукариотической мРНК – абсолютно аналогично


Genemark hmm
Более точное предсказание – слов много, а сколько нетGeneMark (HMM)

  • Использует Hidden Markov Models

  • Более короткие рамки

  • Выбор из нескольких перекрывающихся рамок

  • Более точное предсказание старта

http://opal.biology.gatech.edu/

GeneMark/


Heuristic model input window
Heuristic Model input window слов много, а сколько нет

Если Вы знаете геном, то лучше выбрать не Heuristic Model и указать организм


Output2
Output слов много, а сколько нет

Графический формат – посмотреть дома!


Предсказание внутренних экзонов (позвоночные)

  • Принцип:

    • ищут те участки, которые статистически похожи на белок-кодирующие сегменты (codon usage, статистика ДНК)

    • Выбирают только те из них, которые фланкированы подходящими последовательностями (splicing sites)

  • То есть (!), ищут только внутренние, белок-кодирующие экзоны


MZEF

http://rulai.cshl.edu/tools/genefinder/human.htm


Mzef output
MZEF - output

  • Результат работы программы на сегменте генома человека ~2 Kbp, включающем 2 полных экзона и экзон на границе сегмента

  • Типичный выход – ~1/2


Genomescan
Поиск генов : GenomeScan

  • На основе HMM (учитывает статистику ДНК) и динамического программирования

  • Разные объекты предсказывают разные модули

  • Использует белковую гомология

http://genes.mit.edu/

genomescan.html



Egassembler
Сборка геномных фрагментов в контиги: EGassembler

  • Чистит последовательности

  • Маскирует повторы

  • Маскирует векторные сегменты

  • Маскирует сегменты геномов органелл

  • Собирает контиги

http://egassembler.hgc.jp/


Egassembler output
EGassembler - output контиги


Поиски регуляторных сигналов контиги

  • Пока поиск слишком несовершенен

  • Самые лучшие программы не доступны on-line

  • Результаты программ должен курировать специалист

  • Почти все подходы используют Positional Weight Matrix (PWM)


ad