Clustal-W

Clustal-W Oscar Miranda

Conteúdo • Problema • Características • A ferramenta • Algoritmos • Referências ClustalW

Alinhamento Múltiplo • Comparando Várias Seqüências • Visualmente • Manter bases conservadas -----GC-GATAG---- CAGTCGCTGATCGTACG • Quantificando a qualidade de um alinhamento • Tratamento de gaps e substituições ClustalW

Para quê? • Encontrar padrões que caracterizam famílias de proteínas • Detectar ou demonstrar homologia entre novas seqüências e famílias de seqüências existentes • Ajuda a predizer as estruturas secundárias e terciárias de novas seqüências • Sugerir oligonucleotídios primários para PCR • Análise da evolução molecular ClustalW

Comparando Várias Seqüências • Caso geral do alinhamento de entre 2 seqüências • O(n2 ) • Alinhamento Ótimo • Programação dinâmica O(k22knk) • NP-completo • Tree Alignment • Qualidade aceitavel • Rápido para poucas seqüências • Outras Heurísticas • Busca em base de dados ClustalW

Clustal-W: A ferramenta • Disponível gratuitamente • Código aberto • Várias plataformas • Parâmetros definidos pelo usuário • Reconhece automaticamente vários formatos • NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF e GDE flat file. • Clustal-X • Versão mais amigável • Alinhamento colorido • Ajuda/explicação de parâmetros ClustalW

Matriz de distâncias Geração da árvore Alinhamento Processo • Dividido em 3 passos ClustalW

Processo: Passo 1 • Passo 1 • É gerada a matriz de distâncias • Todas as seqüências são comparadas par a par • Dois métodos: • Fast Approximate method • Rápido • Full dynamic programming • Eficaz mas lento • default ClustalW

Processo: Passo 1 • Programação dinâmica • Alinha todas as seqüências par a par • Algoritmo de Myers e Miller modificado • Usa Matriz de pesos • Proteínas: PAM, BLOSUM, GONNET • DNA: IUB(bestfit), clustal • Parâmetros GAP • Abertura de gap: GOP • Extensão de gap: GEP ClustalW

Algoritmo de Myers e Miller • Espaço linear • Cálculo do escore em espaço linear • Cada elemento da matriz é calculado com apenas 3 vizinhos ClustalW

Algoritmo de Myers e Miller ClustalW

Algoritmo de Myers e Miller • Dividir para conquistar • Encontrar na linha do meio o ponto que faz parte do alinhamento ClustalW

Algoritmo de Myers e Miller Path(i1,j1, i2, j2) midi = (i1+i2)/2 S+ <- alinhamento(i1, j1, midi, j2); S* <- alinhamento_reverso(midi, j1, i2, j2); midj = j entre j1 e j2 tal que S+[j] + S*[j] é máximo path(i1, j1, midi, midj); path(midi, midj, i2, j2); ClustalW

>S1 ATCTCGAGA >S2 ATCCGAGA >S3 ATGTCGACGA >S4 ATGTCGACAGA >S5 ATTCAACGA Matriz de Distância ClustalW

Processo: Passo 1 • Fast Approximate • Algoritmo de Wilbur e Lipman • Alinhamento Aproximado • O(n + m + M2) • M: número de fragmentos ClustalW

Algoritmo de Wilbur e Lipman • Seleciona os fragmentos onde cada fragmento é uma tripla (i,j,k) tal que as k-tuplas de símbolos das duas seqüências casam; xi=yj, xi+1=yj+1,...,xi+k=yj+k O(n+m+M) Um fragmento (i’,j’,k’) é dito abaixo(i,j,k) se i+k<=i’ e j+k<=j’; Quando as substring no fragmento (i’,j’,k’) aparecem estritamente depois das de (i,j,k) nas strings de entrada. O tamanho do fragmento (i,j,k) é k. A diagonal do fragmento (i,j,k) é o número j – i e a diagonal reversa é i + j; ClustalW

Algoritmo de Wilbur e Lipman • Um alinhamento de fragmentos é definido como uma seqüência • de fragmentos tais que, se (i,j,k) e (i’,j’,k’) são • fragmentos adjacentes na seqüência, ou (i’,j’,k’) está • abaixo de (i,j,k) em uma diagonal diferente(um gap), ou os • dois fragmentos estão na mesma diagonal, com i’> i(mismatch). ClustalW

Matriz de Distância 2 Programação dinâmica Fast-Approximate ClustalW

Processo: Passo 2 • Construção da árvore a partir da matriz de distâncias • Usada como guia para o próximo passo • Método Neighbour-Joining • Gera arquivo que pode ser visualizado posteriormente ClustalW

Método Neighbor-Joining • Saitou and Nei (1987) • Algoritmo guloso • Inicia Com uma Árvore Estrela • A cada iteração junta os dois nós da raiz os quais a soma das divergências de cada para o resto da árvore seja mínimo • Estima o tamanho do novo nó a partir dos valores de divergência dos nós escolhidos ClustalW

Exemplo Neighbor-Joining ClustalW

Processo: Passo 3 • Alinhamento Progressivo baseado na árvore filogenética • Feng e Doolittle • Diferentes Penalidades para GAP • Opção para modificar valores iniciais • Valores atualizados durante o processo • Utiliza o Algoritmo de Myers e Miller modificado para o alinhamento do consenso ClustalW

Tratamento de GAPs • Parâmetros iniciais dados pelo usuário • Abertura de gap(GOP) e extensão de gap(GEP) • GAPs terminais não tem custo • Escolha dos valores automaticamente durante o processo de alinhamento ClustalW

GAP: valores iniciais • 1) GOP dependente da matriz de pesos utilizada • Variar a penalidade dos gaps de acordo com diferentes matrizes melhora a qualidade. • 2) Dependência no grau de similaridade das seqüências • Uso do percentual de semelhança entre seqüências para aumentar ou diminuir o GOP. ClustalW

GAP: valores iniciais • 3) Dependência no tamanho das seqüências • Crescimento do escore com o tamanho das seqüências GOP = GOP_origem + log(min(N,M)))* (escore médio de resíduos não casados) * (percentual de semelhança) ClustalW

GAP: valores iniciais • 4) Dependência na diferença do tamanho das seqüências • Se uma seqüência é muito menor que a outra, GEP é aumentado para inibir muitos gaps longos na seqüência menor. GEP = GEP_origem * ( 1.0 + |log(N/M)| ) ClustalW

GAP: penalidades localizadas • Antes de cada alinhamento gera uma tabela de gaps para cada posição. • 1) Diminuição da penalidade para gaps existentes • Se já existe um gap na posição o GOP é reduzido em proporção ao número de seqüências com gap, e o GEP é diminuído pela metade. GOP = GOP*0.3*(No_seqüências_sem_gap/No_seqüências) ClustalW

GAP: penalidades localizadas • 2) Aumento da penalidade proximo a gaps existentes • Se uma posição não possui gaps mas está a 8 residuos de um gap, o GOP é modificado para: GOP = GOP*(2 + ((8-distancia_do_gap)*2)/8) • 3) Redução da penalidade em trecho hidrófilos • Uma seqüência de 5 resíduos hidrófilos é considerada um trecho hidrófilo • Se uma posição não há gaps e existe um trecho hidrófilo, o GOP é reduzido por um terço ClustalW

GAP: penalidades localizadas • 4) Penalidades especificas por resíduo • Se não há trechos hidrófilos e não há gaps em uma posição então o GOP é multiplicado pela média números atribuídos a cada aparição do resíduo na posição • Números provenientes da tabela de Pascarella e Argos com fatores de modificação do gap para cada resíduo ClustalW

Matriz de Pesos • Matrizes usadas para cálculo de similaridade entre amino ácidos • Dados auxiliares • Dependendo da semelhança entre as seqüências uma matriz mais “flexível” é escolhida • Pode-se definir uma matriz a ser utilizada ClustalW

Matriz de Pesos • Séries • GONNET(default) • [35-100%]: Gonnet80; [25-35%]: Gonnet120; [0-25%]: Gonnet250 • BLOSUM(Heinkoff) • [80-100%]: Blosum80; [60-80%]: Blosum62; [30-60%]: Blosum45; [0-30%]: Blosum30 • PAM(Dayhoff) • [80-100%]: Pam20; [60-80%]: Pam60; [40-60%]: Pam120; [0-40%]: Pam350 • DNA • IUB (BESTFIT) (padrão) • CLUSTAL ClustalW

Seqüências Divergentes • Atrasar o alinhamento das seqüências mais divergentes para diminuir o erro na fase inicial do alinhamento ClustalW

Exemplos ClustalW

Referências • Programas, documentação e artigos sobre Clustal-W e Clustal-X • http://www-igbmc.u-strasbg.fr/BioInfo/ • Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specific gap penalties and weight matrix choice. Nucleic Acids Research, 22(22):4673-4680. • Eppstein, D.A. (1989) Efficient Algorithms for Sequence Analisys With Concave and Convex Gap Costs • Neighbor-Joining • http://www.biology.usu.edu/biol6750/Lecture_18.htm ClustalW

Clustal-W

Clustal-W

Presentation Transcript

Clustal W and Clustal X version 2.0

7.68 W 7.71 W 7.58 W 8.02 W 382 W

Performance Optimization of Clustal W: Parallel Clustal W, HT Clustal and MULTICLUSTAL

109 W 118 W 127 W 136 W

W + W + production

W W 2

GRZYBY: W LESIE W OGRODZIE W DOMU

Clustal Ω for Protein Multiple Sequence Alignment

W ， x W

Entropia H(w) = -  P(w)*logP(w) w W

W W W Łukasz Stochniał

Emetteur … W HF … W VHF … W UHF

Phylogenetic Analyses of Lymphocystis Disease Virus of Fish using Blast and Clustal X

W W W veloce,vivace,visivo .....

La W orld W ide W eb

Golf Marketing Das W-W-W Prinzip

HANDLING DATA DNA & CLUSTAL X

W w

W W W

W W Nawar: Lipids

Figure S1. Clustal W multiple alignment of SigA, SigB, and SigF sigma factor proteins.

W. W. II

Clustal-W

Clustal-W

Presentation Transcript

Clustal W and Clustal X version 2.0

7.68 W 7.71 W 7.58 W 8.02 W 382 W

Performance Optimization of Clustal W: Parallel Clustal W, HT Clustal and MULTICLUSTAL

109 W 118 W 127 W 136 W

W + W + production

W W 2

GRZYBY: W LESIE W OGRODZIE W DOMU

Clustal Ω for Protein Multiple Sequence Alignment

W ， x W

Entropia H(w) = -  P(w)*logP(w) w W

W W W Łukasz Stochniał

Emetteur … W HF … W VHF … W UHF

Phylogenetic Analyses of Lymphocystis Disease Virus of Fish using Blast and Clustal X

W W W veloce,vivace,visivo .....

La W orld W ide W eb

Golf Marketing Das W-W-W Prinzip

HANDLING DATA DNA &amp; CLUSTAL X

W w

W W W

W W Nawar: Lipids

Figure S1. Clustal W multiple alignment of SigA, SigB, and SigF sigma factor proteins.

W. W. II

HANDLING DATA DNA & CLUSTAL X