1 / 34

CAP3 (Contig Assembly Program)

CAP3 (Contig Assembly Program). George Darmiton da Cunha Cavalcanti ( gdcc@cin.ufpe.br ) UFPE – CIn Junho de 2001. Roteiro. Introdução Arquitetura O Programa CAP3 – Entrada e Saída Pontos Fortes e Fracos do CAP3 Resultados do CAP3 CAP3 versus PHRAP Bibliografia. Introdução.

Download Presentation

CAP3 (Contig Assembly Program)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CAP3(Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

  2. Roteiro • Introdução • Arquitetura • O Programa CAP3 – Entrada e Saída • Pontos Fortes e Fracos do CAP3 • Resultados do CAP3 • CAP3 versus PHRAP • Bibliografia

  3. Introdução • É um programa utilizado para montar cadeias de DNA • Desenvolvido por Xiaoqiu Huang, • Department of Computer Science, Michigan Technological University • Versão 3 foi desenvolvida em 1999 • Atualmente encontra-se na versão 4, sendo esta comercial

  4. Remoção de regiões pobres 1º Fase Calcular sobreposição Remoção de falsas sobreposições Construção de Contigs 2º Fase Construção do Consenso 3º Fase Arquitetura

  5. Primeira Fase • Composta de três etapas • Remoção de regiões pobres • Cálculo da sobreposição • Remoção de falsas sobreposições • Antes dessas etapas é necessário identificar sobreposições entre fragmentos.

  6. Primeira Fase Identificação de sobreposição • Criar a seqüência combinada • Os fragmentos f1, f2, ..., fn são concatenados • Caracter especial separa dois fragmentos • f1 # f2 # ... # fn • Para cada fragmentos fx e o seu complemento reverso rx, encontrar o par (fx, fy) e (rx, fy) • tal que x<y e que os fragmentos tenham uma sobreposição relevante • Para cada par com sobreposição uma faixa diagonal da matriz da programação dinâmica e calculado. (Smith e Waterman 1981) • Essa matriz será usada mais adiante por motivo de eficiência

  7. Remoção de regiões pobres 1º Fase Calcular sobreposição Remoção de falsas sobreposições Construção de Contigs 2º Fase Construção do Consenso 3º Fase Primeira Fase Remoção de Regiões Pobres

  8. Primeira Fase Remoção de Regiões Pobres (cont.) Posição de remoção 5’ Fragmento h Fragmento f Fragmento g Posição de remoção 3’

  9. Primeira Fase Remoção de Regiões Pobres (cont.) • O algoritmo de alinhamento local de Smith e Waterman foi generalizado para usar valores de qualidade de base Sendo p a probabilidade do erro estimado para a base m * min(q1, q2) n * min(q1, q2) -g * min(q1, q2)

  10. Primeira Fase Remoção de Regiões Pobres (cont.) • Os valores que indicam a qualidade da base são usados para permitir que: • Matches em bases que possuem altos valores de qualidade recebem alta pontuação positiva; • Mismatches em bases que possuem altos valores de qualidade recebem alta pontuação negativa; • Matches e mismatches em bases que possuem baixos valores de qualidade recebem pontuações baixas positivas e negativas, respectivamente

  11. Se os valores de qualidade de base foram informados qualpos3 qualpos5 Fragmento f crange crange (-y) Maioria dos valores de qualidade são maiores que qualcut (-c) Primeira Fase Remoção de Regiões Pobres (cont.) • Caso os valores de qualidade da base não sejam informados • qualpos5 = 1 e qualpos3 = tamanho de f • A cobertura mínima é determinada por gdepth (-z)

  12. Remoção de regiões pobres 1º Fase Calcular sobreposição Remoção de falsas sobreposições Construção de Contigs 2º Fase Construção do Consenso 3º Fase Primeira Fase Cálculo das Sobreposições

  13. Primeira Fase Cálculo das Sobreposições (cont.) • O alinhamento global é utilizado para calcular a sobreposição entre fragmentos • Alinhamento global versus Alinhamento local • Utilizando o método global é possível identificar falsas sobreposições. • mostrar que algumas regiões dos fragmentos não são similares, indicando que esta sobreposição é falsa. • O alinhamento local está restrito a regiões similares.

  14. Remoção de regiões pobres 1º Fase Calcular sobreposição Remoção de falsas sobreposições Construção de Contigs 2º Fase Construção do Consenso 3º Fase Primeira Fase Remoção de Sobreposições Falsas

  15. Primeira Fase – Remoção de Sobreposições Falsas (cont.) • Cada sobreposição é avaliada por 5 (cinco) medidas • 1ª Medida • Informa o comprimento mínimo para a sobreposição (-o) • 2ª Medida • Determina que o percentual de identidade não deve ser menor que o valor estabelecido pela opção –p • 3ª Medida • Determina o valor de similaridade da sobreposição (-s) • m * min(q1, q2) • n * min(q1, q2) • -g * min(q1, q2)

  16. Primeira Fase – Remoção de Sobreposições Falsas (cont.) • 4ª Medida • Se a sobreposição contiver um número grande de diferenças entre bases de altos valores de qualidade, essa sobreposição é provavelmente falsa. (-b e -d) • 5ª Medida • Se o número de diferenças em uma sobreposição for maior que o esperado, então é provável que essa sobreposição seja falsa. (-e) • Caso uma dessas medidas falhe, a sobreposição é considerada falsa.

  17. Remoção de regiões pobres 1º Fase Calcular sobreposição Remoção de falsas sobreposições Construção de Contigs 2º Fase Construção do Consenso 3º Fase Segunda FaseConstrução dos Contigs

  18. Segunda FaseConstrução dos Contigs (cont.) • 1ª Etapa • Um layout inicial é gerado • Método guloso • 2ª Etapa • A qualidade do layout corrente é avaliada • O número de restrições satisfeitas e não satisfeitas é calculado para cada sobreposição • Restrições não satisfeitas são particionadas em grupos • cada grupo possui restrições associadas com uma sobreposição não usada ou com um par de contigs

  19. Segunda FaseConstrução dos Contigs (cont.) • 3ª Etapa • O grupo com o maior número de restrições não satisfeitas é selecionado • Caso 1 • grupo associado a uma sobreposição não usada • Caso 2 • grupo associado a um par de contigs • Se nenhuma correção for feita • o processo é repetido com os grupos restantes • Caso contrário • a 2ª etapa é repetida para o novo layout

  20. Terceira FaseConstrução do Consenso Remoção de regiões pobres 1º Fase Calcular sobreposição Remoção de falsas sobreposições Construção de Contigs 2º Fase Construção do Consenso 3º Fase

  21. Terceira FaseConstrução do Consenso (cont.) • A soma ponderada dos valores de qualidade é calculada para cada base • Os valores de qualidade são divididos em dois grupos, um para cada sentido (5’ 3’ - 3’ 5’) • cada grupo é ordenado em ordem decrescente • pesos: w1=1, wi = 0.5, para i>1 • Ex: 20+, 40-, 30+ e 10- • grupo1: 30+ e 20+ grupo2: 40- e 10- • soma ponderada = 30(1) + 40(1) + 20(0.5) + 10(0.5) = 85

  22. Terceira FaseConstrução do Consenso (cont.) • Cálculo da média do valor de qualidade

  23. Terceira FaseConstrução do Consenso (cont.)

  24. Parâmetros de Entrada do CAP3 • CAP3 recebe um arquivo com as seqüências de fragmentos no formato FASTA • Uso: cap3 arquivo_de_fragmentos [opções] • Arquivos opcionais • arquivo contendo os quality values no formato FASTA, usando extensão .qual • arquivo contendo restrições forward-reverse, usando extensão .con. • Pode ser gerado usando o programa FORMCON • Formato: ReadA ReadB MinDistance MaxDistance

  25. Faixa Diagonal Parâmetro descrição -a N N>10 (20) Opções

  26. Resposta do Programa • Consenso no formato ace • arquivo com extensão .ace • Consenso • arquivo com extensão .contigs • Quality values do consenso • arquivo com extensão .contigs.qual • Fragmentos não são usados na montagem • arquivo com extensão .singlets

  27. Resposta do Programa (cont.) • Informações adicionais sobre a montagem • arquivo com extensão .info • Satisfação das restrições • arquivo com extensão .results

  28. Pontos Fortes do CAP3 • Uso de forward-reverse constraints para corrigir erros de montagem • Objetivo: localizar e corrigir erros no layout da seqüência e ligar contigs separados por gaps • Dois fragmentos devem estar em direções opostas na molécula de DNA e a uma determinada distância. • O algoritmo usado no CAP3 é tolerante a restrições erradas

  29. Pontos Fortes do CAP3 (cont.) • Geração do resultado da montagem no formato ace para Consed • Consed – ferramenta gráfica para editar seqüências • CAP3 pode ser usado no GAP4 do pacote Staden. • GAP4(Genome Assembly Program) é uma ferramenta gráfica do pacote de ferramentas Staden

  30. Pontos Fortes do CAP3 (cont.) • Uso de base quality values • Usados no alinhamento de fragmentos e na construção do consenso. • Melhora a qualidade na geração do consenso • Remoção de regiões pobres, 5’ e 3’ • Objetivo • Utilizar apenas regiões ‘boas’ do fragmento na montagem.

  31. Pontos Fracos do CAP3 • A remoção de regiões ditas pobres, pode excluir áreas importantes no processo de alinhamento • Tempo de processamento • A ferramenta não possui interface gráfica (entretanto pode ser usada no pacote GAP4)

  32. Resultados do CAP3 Conjunto de dados BAC (Bacterial Artificial Chromossome)

  33. CAP3 versus PHRAP • Conjunto de dados BAC • PHRAP, normalmente, produz cadeias mais longas de contigs • CAP3 produz menos erros no consenso • Caso os valores de qualidade da base não estejam disponíveis • CAP3 é uma boa escolha já que trata redundância

  34. Bibliografia • Xiaoqiu Huang, Anup Madan. CAP3: A DNA Sequence Assembly Program. Genome Research 9:869-877, 1999. • Xiaoqiu Huang. Na Improved Sequence Assembly Program. Genomics 33, 21-31, 1996. • Site oficial na Internet. http://genome.cs.mtu.edu/cap3/cap3.html • Staden Package WWW site. • http://www.mrc-lmb.cam.ac.uk/pubseq/staden_home.html • http://www.mrc-lmb.cam.ac.uk/pubseq/contig.html

More Related