slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Использование биоинформатики в практической молекулярной биолоРPowerPoint Presentation
Download Presentation
Использование биоинформатики в практической молекулярной биолоÐ

Loading in 2 Seconds...

play fullscreen
1 / 39

Использование биоинформатики в практической молекулярной биолоР- PowerPoint PPT Presentation


  • 220 Views
  • Uploaded on

Использование биоинформатики в практической молекулярной биологии. И.И. Артамонова, ИОГен РАН. План. Гомологи и сходство последовательностей Что можно выяснить на основании множественного выравнивания гомологов Филогенетический анализ и восстановлении эволюции.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Использование биоинформатики в практической молекулярной биолоÐ' - bracha


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Использование биоинформатики в практической молекулярной биологии

И.И. Артамонова,

ИОГен РАН

slide2
План

Гомологи и сходство последовательностей

Что можно выяснить на основании множественного выравнивания гомологов

Филогенетический анализ и восстановлении эволюции

slide3
Почему нас интересует локальное сходство последовательностей?

Мы верим, что:

1. функцию, структуру и многие другие свойства белка/ДНК определяет последовательность;

  • родственные белки имеют похожие свойства
  • молекулы, похожие по последовательности, похожи и по свойствам

Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

slide4
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка)

Признаки гомологичности белков

  • сходная 3D-структура
  • в той или иной степени похожая аминокислотная последовательность
  • аналогичная функция
  • разные другие соображения…
slide5
Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию

Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

slide6
Средство поиска сходства - выравнивание

«Идеальное» выравнивание – запись последовательностей одна под другойтак, чтобы гомологичные фрагментыоказались друг под другом.

домовойскупидомводомерка

лесовоз ---лесо---воз ледоход лед---оход---

slide7
Схожие 3D структуры

Вставка в «синей» последовательности

slide8
Как выровнять две последовательности?

Цель - максимальное количество совпадений

  • Просто написать их друг под другом
  • Двигать друг относительно друга
  • Вставлять пробелы

лесовоз ---лесо---воз ледоход лед---оход---

Гэп – пропуск в

последовательности

slide9
Типы выравнивания
  • Локальное – поиск фрагментов наиболее похожих друг на друга

домовой домовой домовой

скупидомводомеркаводомерка

  • Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару

лесовоз ---лесо---воз ледоход лед---оход---

?

slide10
Критерии качества выравнивания
  • Количество идентичных (похожих) аминокислот/нуклеотидов
    • Для белков – более 25%id при длине > 100 aa
    • Для ДНК – более 70%id при длине > 100 nt
  • Длина выравнивания
  • Вероятность наблюдать такое сходство случайным образом
    • Зависит от базы данных
  • Score – общая мера сходства:
    • Зависит от программы
blast basic local alignment and search tool
BLAST – Basic Local Alignment and Search Tool
  • Локальное выравнивание
  • Главная задача – поиск похожих последовательностей в базах данных (=> главное достоинство – скорость)
  • Очень неточно восстанавливает сходство
  • Основная программа поиска по БД
  • Для специализированных БД часто предлагается на сайте БД
  • Для поиска среди известных последовательностей есть специальные сервера
slide12
Выбор параметров
  • Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций)
  • Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу
slide13
Какие параметры менять? Фильтрация
  • Low-complexity region – другой aa-состав
  • Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации
  • Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную
  • ДНК – геном-специфичные повторы!
slide14
Параметры выравнивания
  • Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM
    • Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80 вместо BLOSUM45 – более короткие выравнивания)
    • РАМ – чем ниже, тем строже
  • Штрафы за делеции:
    • Чем больше штраф за внесение, тем короче выравнивания
    • Меняете матрицу – надо менять и штраф
    • Чем ниже номер BLOSUM (выше РАМ),тем меньше штраф за внесение делеции
    • Штраф за удлинение ~10 раз ниже, чем за внесение
  • Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение
  • Близкие гомологи – штрафы ближе друг к другу
output
Параметры output-формата
  • Количество хитов
  • Выбор базы данных (организм)
  • Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные)
  • Entrez query – ключевые слова (например, “protease AND human”)
slide16
Что такое множественное выравнивание?

Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом:

  • Гомологичные остатки один под другим
  • Остатки в одинаковом пространственном положении один под другим
  • Остатки, имеющие одинаковую функциональную нагрузку, один под другим
  • Одинаковые или похожие остатки один под другим
slide18
Какие бывают выравнивания?

Выравнивания

парные

множественные

глобальные

локальные

глобальные

локальные

slide19
Зачем нужно множественное выравнивание?
  • Перенос аннотации
  • Предсказание функции каждого остатка (например, выявление остатков, составляющих активный центр фермента)
  • Моделирование 3D – структуры
  • Реконструкция эволюционной истории последовательности (филогения)
  • Выявление паттерна функциональных семейств и сигналов в ДНК
  • Построение доменных профайлов
  • Аккуратный дизайн праймеров для PCR анализа
slide20
Как выбрать последовательности для множественного выравнивания?
  • Выравнивайте белки, а не ДНК, если есть выбор
  • Последовательностей лучше много, но не слишком (~ 10-15)
  • В выборке лучше избегать:
    • слишком похожих последовательностей (>90% id)
    • слишком разных последовательностей (<30% id c большинством)
    • неполных последовательностей (фрагментов)
    • тандемных повторов
slide21
Изучая новую последовательность
  • Выборка на основе BLAST
  • Подробно охарактеризованные последовательности - аннотация
  • Совсем неохарактеризованные (hypothetical proteins) – достаточный уровень разнообразия
  • Выравнивание по всей длине
  • e-value – 10 -40 – 10 -6
  • Избегать partial sequences
msa multiple sequence alignment
Современные методы построения множественного выравнивания (MSA, multiple sequence alignment):
  • Алгоритм ClustalW (реализации ClustalX, emmaиз EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, http://www.ebi.ac.uk/Tools/clustalw/index.html)
  • Muscle– быстрее и немного точнее, самый новый и довольно модный (http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py, http://www.ebi.ac.uk/Tools/muscle/index.html)
  • T-COFFEE – заметно точнее, но существенно медленнее

(http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)

tcoffee
TCoffee
  • Построение множественных выравниваний
  • Оценка достоверности существующего выравнивания
  • Использование 3-D структуры при построении выравнивания
  • Сравнение и комбинирование выравниваний
jalview
JalView – редактирование выравниваний

Другие программы для редактирования выравниваний (stand-alone):

GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSE

Список - http://bioweb.pasteur.fr/cgi-bin/seqanal/review-edital.pl

slide25
Как “читать” множественное выравнивание?
  • Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями
  • ДНК – консервативные “островки”
  • Качество – score, локально важно
  • “consensus” – строка с символами “*”, “:”, “.” – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно
slide26
Если консервативны только отдельные столбцы
  • W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой
  • G,P - фланкируют бета-стренды и альфа-спирали
  • С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между
  • H,S – каталитические центры протеаз
  • K, R, D, E – заряженные аминокислоты, участвуют в связывании лигандов
  • L – редко консервативны. Формируют leucine zipper – белок-белковые взаимодействия
slide27
Что такое филогенетическое дерево?
  • Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий.
  • Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств
slide28
Зачем нужны филогенетические деревья?

Биологические задачи:

  • сравнение 3-х и болееобъектов

(кто на кого более похож ....)

  • реконструкция эволюции
  • (кто от кого, как и когда произошел…)
slide29
Основные термины

Узел (node) — точка разделения предковой последовательности(вида, популяции) на две независимо эволюционирующие.Соответствует внутренней вершине графа, изображающего эволюцию.

Лист(leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа.

Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.Корень (root) — гипотетический

общий предок.

Клада (clade) - группа двух или

более таксонов или последователь-

ностей ДНК, которая включает как

своего общего предка, так и всех его

потомков.

slide30
Рутинная процедура, или как строят деревья?

Составление выборки последовательностей

Множественное выравнивание

Построение дерева

фрагмент записи в виде скобочной формулы:

Визуализация и редактура дерева

(((((con101:38.51018,(f53969:28.26973,((f67220:8.39851,

max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,

newick format
Скобочная формула (Newick format)

5.2

7.5

5.5

7.7

6.3

3.2

6.1

B

C

E

A

8.0

D

(((C,D),E)),(A,B));только топология

(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5);длины ветвей

slide32
Как выбирать последовательности для дерева?
  • Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК)
  • Придерживайтесь небольшой выборки (< 50 последовательностей)
  • Избегайте:
    • фрагментов;
    • ксенологов;
    • рекомбинантных последовательностей;
    • многодоменных белков и повторов
  • Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)
slide33
Самое главное – хорошее выравнивание!
  • Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию
  • Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.
slide34
Методы, основанные на оценке

расстояний (матричные методы):

Вычисляются эволюционные

расстояния между всеми листьями

(OTUs) и строится дерево, в котором

расстояния между вершинами

наилучшим образом соответствуют

матрице попарных расстояний.

UPGMA

Neighbor-joining

Минимальная эволюция

Квартеты («топологический»)

...

Наибольшего

правдоподобия,

Maximal likelihood,ML

Используется модель эволюции

и строится дерево, которое наиболее

правдоподобно при данной модели

Максимальной экономии (бережливости),

maximal parsimony, MP

Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных

Основные алгоритмы построения филогенетических деревьев
slide35

Как понимать расстояние между объектами?

  • Как время, в течение которого они эволюционировали
  • Как число «эволюционных событий» (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время, что, как правило, верно)

Но время непосредственно измерить невозможно

neighbor joining nj
Метод ближайших соседей (Neighbor-joining,NJ)
  • Строит неукоренённое дерево
  • Может работать с большим количеством данных
  • Достаточно быстрый
  • Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено.
  • Могут появиться ветви с длиной <0
slide37
Как можно нарисовать построенное дерево?

Arabidopsis

Arabidopsis

Caenorhabditis

Caenorhabditis

Drosophila

Drosophila

Anopheles

Anopheles

Tenebrio

Tenebrio

Trout

Trout

Mus

Mus

0.1 substitutions per site

Филограмма:

Длина ребер пропорциональна эволюционному расстоянию между узлами.

Кладограмма:

представлена только топология, длина ребер игнорируется.

bootstraps
Достоверность топологии. Bootstraps

Есть множественное выравнивание и построенноепо

нему дерево. Верим ли мы в топологию дерева?

  • Создадим псевдоданные:

N множественных выравниваний

той же длины, что и исходное,

каждое из псевдовыравниваний

  • случайный набор столбцов из

исходного (выборка с возвращением!)

  • Построим N деревьев:

на каждой внутренней ветви отметим

долюслучаев из N, в которых появлялся

этот узел.

Обычно верят в топологию, если метки ветвей

на бутстрепном дереве больше 70-80% .

Если меньше 50%, то не верим.

В иных случаях – думаем…

slide39
MEGA: филогенетический анализ последовательностей

http://www.megasoftware.net/