1 / 26

Alinhamento de sequências

Alinhamento de sequências. Almir R. Pepato. Homologia primária e secundária. 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes – codificação dos caracteres e seus estados- homologia primária sensu Pinna , 19910)

keegan
Download Presentation

Alinhamento de sequências

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Alinhamento de sequências Almir R. Pepato

  2. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes – codificação dos caracteres e seus estados- homologia primária sensuPinna, 19910) 2- Busca do esquema de relações filogenéticas ótima segundo algum critério, levando a proposição de hipóteses filogenéticas. De acordo com a topologia obtida caracteres codificados sob o mesmo estado podem se revelar verdadeiras sinapomorfias ou homoplasias (homologia secundária sensuPinna, 1990).

  3. O problema da homologia no que se refere às sequências de nucleotídeos A rose is a rose is a rose is a rose is a rose Gertrude Stein A cytosine is a cytosine, is a cytosine, is a cytosine...

  4. O problema da homologia: alinhamento

  5. Alinhamento como problema informacional • Custos altos • para substituições : • TCAG-ACG-ATTG • | |||||| • TC-GGA- GC-T- G • 0 mis 7 mat 6 gaps • 2. Custos altos • para as inserções/deleções : • TCAGACGATTG • | ||| • TCGGAGCTG–- • 5 mis 4 mat 2 gaps A maior parte dos programas usa um sistema de custos para substituições, introdução de inserções/deleções e outros eventos. Como a enumeração/avaliação de todas as possibilidades seria muito custosa, os programas usam o recurso da programação dinâmica como com o algoritmo de Needleman & Wunch.

  6. Alinhamento como problema informacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Preenchendo a matriz: Substituição= -1 gap= -1 Regra: Fij = max(Fi − 1,j − 1 + Sij, Fi,j − 1 + gap, Fi − 1,j + gap) Para preencher a casa, X= Fij = max(0 + 0, -1-1, -1-1) = 0

  7. Alinhamentocomoproblemainformacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Preenchendo a matriz: Substituição= -1 gap= -1 Regra: Fij = max(Fi − 1,j − 1 + Si,j), Fi,j − 1 + gap, Fi − 1,j + gap) Para preencher a casa, X= Fij = max(-2 + 0, -3-1, -3-1) = -2

  8. Alinhamento como problema informacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento

  9. Alinhamento como problema informacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento Caminho 1 (1 sub, 1 gap): AA T G C | | | | A G- G C

  10. Alinhamento como problema informacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento Caminho 1 (1 sub, 1 gap): AA T G C | | | | A- G G C Caminho 2 (1 sub., 1 gap): AA T G C | | | | AG G-- C

  11. Alinhamentos de múltiplas sequências Soma com pesagem de Pares WSP (WeightedSumofPairs): WSP= ∑ ∑ WijDij Complexidade informacional: O (NM): Proporcional ao comprimento da sequência elevado ao número de sequências Poucos programas implementam (BaliBase, FastMSA), pois pode ser usado para poucas sequências! i j

  12. Clustal Método Heurístico: Não garante que todo o espaço de respostas ao problema será examinado. Passos: 1- Faz um alinhamento empregando uma função de custos para todos os possíveis pares de sequências. 2- A partir daí monta uma matriz de distâncias para todas as sequências

  13. Clustal 3-Daí deriva-se uma árvore de similaridade. Para cada nó da árvore é produzido um alinhamento aos pares, que produz uma sequência de consenso para o próximo alinhamento. Note que os gaps introduzidos nas sequências que são alinhadas nas primeiras etapas não podem ser modificados!

  14. T-Coffe

  15. T-Coffe

  16. Mafft e Muscle

  17. Muscle

  18. Malign, POY e Otimização Direta O POY é um programa que implementa uma série de algoritmos para inferência filogenética, a maior parte dos quais baseado na parcimônia como critério de otimização. A Otimização Direta consiste na otimização dos caracteres das sequências diretamente, sem o passo preliminar de inferência das homologias primárias

  19. Malign, POY e Otimização Direta Uma análise empregando a otimização direta geralmente inclui: 1- O teste do maior número possível de combinações de valores de custo, já que como qualquer outro método automático, o resultado é dependente dele. 2- A presença/ausência de clados nos diversos valores de custo é compilada. A assim chamada análise de sensibilidade é vista como uma medida da estabilidade dos clados. 3- Um regime de custos ótimo é escolhido de forma a minimizar a incongruência entre as partições de dados. A incongruência é medida através de índices como ILD, RILD, TILD etc...

  20. Malign, POY e Otimização Direta ILD= (.Comp.comb -ΣComp. ind.)/ Comp.comb

  21. Malign, POY e Otimização Direta

  22. BAli-Phy é um programa que estima árvores filogenéticas a partir de dados não alinhados quando o alinhamento é incerto. Ao invés de condicionar a inferência a um único alinhamento, ele dá conta da incerteza relacionada integrando sobre todos os alinhamentos possíveis . árvores Probabilidades conjuntas Comprimentos dos ramos Probabilidades marginais

  23. BAli-Phy é um programa que estima árvores filogenéticas a partir de dados não alinhados quando o alinhamento é incerto. Ao invés de condicionar a inferência a um único alinhamento, ele dá conta da incerteza relacionada integrando sobre todos os alinhamentos possíveis .

  24. Alinhamento como problema biológico Mas será mesmo o alinhamento um problema informacional? Não pode ser tratado como um problema biológico onde a homologia é inferida levando em conta informações relacionadas a processos biológicos?

  25. Alinhamento como problema biológico

  26. Homologia molecular: sumário • As inserções/deleções são inferências feitas durante o estabelecimento de relações de homologia. Tem dois impactos sobre a inferência filogenética: levam a introdução de uma certa margem de erro, intrínseca a qualquer inferência por um lado, e informação filogenética adicional por outro. • Como nas análises morfológicas, o estabelecimento das homologias primárias e a construção da matriz é o alicerce sobre o qual a inferência é assentado. Pouca atenção tem sido dada a esse aspecto, no entanto. • Há debate na literatura sobre cada um dos métodos descritos nessa aula. Algo mandatário, no entanto, é que as hipóteses de homologia fiquem tão explicita ao leitor de um artigo de sistemática molecular quanto o que ficaria a um que use caracteres morfológicos.

More Related