Predição de regiões codificantes

Curso de Introdução à Bioinformática Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz Predição de regiões codificantes Marcos Catanho Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz

Agenda • Métodos de predição • Frames (GCG) • ORF Finder (NCBI) • Testcode (GCG) • Third position GC bias (GCG) • Glimmer (TIGR) • Outras opções

Métodos de predição: Identificação de sinais - ribosome binding sites - start/stop codons - RNA splice sites - Polyadenylation signals Desvios composicionais - periodic base composition bias - terceira posição do códon Codon bias (codon preference) Utilização de Markov Chains

Frames (GCG) - detecta open reading frames através da identificação de start/stop códons.

ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.

Parêntesis – código genético http://www.ncbi.nlm.nih.gov/Taxonomy/

ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.

Considerações a respeito do método: - difícil discriminação entre regiões codificantes e regiões não-codificantes. - é necessária a identificação de sinais (RBS, início de transcrição/tradução, terminação, limites éxon/íntron), para assinalar a sequência como sendo codificante. - existência de start códons alternativos. - em sequências eucarióticas o método pode perder muito em eficiência (éxons/íntrons).

Testcode (GCG) -periodic base composition bias

Considerações a respeito do método: - um dos primeiros a possuir bases estatísticas. - procura por “assimetrias” ao longo da molécula de DNA: 1o grupo: bases 1, 4, 7, ... 2o grupo: bases 2, 5, 8, ... 3o grupo: bases 3, 6, 9, ... - não define a fase de leitura nem a fita. - não determina de forma precisa a região codificante.

Third position GC bias (GCG)

Considerações a respeito do método: - funciona melhor em organismos com maior desvio composicional em seu genoma (alto/baixo) conteúdo GC. - difícil discriminação de falsos positivos e/ou falsos negativos. - proporciona melhores resultados quando usado em conjunto com outros métodos.

Codon preference (GCG) -comparação com uma tabela de utilização de códons

Parêntesis – tabela de utilização de códons

Parêntesis – desvios na utilização de códons • -É fato que em todos os organismos estudados até o momento a utilização de códons sinônimos não é aleatória. • O desvio na utilização de códons pode resultar de diversos fatores, tais como:

Parêntesis – desvios na utilização de códons • Conteúdo GC; • Eficiência de tradução (seleção traducional) (genes altamente expressos); • Desvios mutacionais (genes de baixa expressão); • Precisão na tradução (aminácidos funcionalmente importantes); • Outros.

Parêntesis – banco de dados de utilização de códons http://www.kazusa.or.jp/codon/

Considerações a respeito do método: - detecta melhor genes com forte preferência por determinados códons (em geral, genes altamente expressos - seleção traducional). - útil para a detecção de erros de seqüenciamento causando frameshifts.

Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER - utiliza um método estatístico baseado em cadeias de Markov para distinguir regiões codificantes de não-codificantes. - traduzindo: para uma seqüência de DNA, uma cadeia de Markov modela a probabilidade de ocorrência de um determinado nucleotídeo, dado um determinado contexto (que é a sequência de bases imediatamente anterior a este nucleotídeo). - ou ainda: qual a probabilidade da ocorrência de um G depois de um A? Ou depois de um AG?

Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER

Considerações sobre o método: • somente para uso local. • - é o método de escolha para a análise de grandes segmentos de DNA. • - processamento automático de grande eficiência - minimiza a interferência humana. • - alta taxa de acertos: prediz corretamente ~ 99% dos genes, com relativamente poucos falsos positivos. • - pode ser utilizado (com modificações) para a predição de seqüências codificantes em genomas eucarióticos.

Outras opções: • GeneMark (http://opal.biology.gatech.edu/GeneMark/) • muito semelhante ao Glimmer (mesmas caraterísticas). • pode ser usado localmente ou via web. • GENSCAN (http://genes.mit.edu/GENSCAN.html) • - pode ser aplicado apenas para alguns eucariotos (vertebrados, Arabidopsis e milho).

Predição de regiões codificantes

Predição de regiões codificantes

Presentation Transcript

Lower Limb

Stammeforeningen i Danmark 40 års jubilæum: 29. oktober 2011

La epicrisis computada como herramienta para un registro prospectivo de la actividad cardiológica de internación Regist

Utdanningsforskning

Pauta da Reuni o de Professor Coordenador Ciclo II e Ensino M dio e Supervis o de Ensino da DE Regi o Sul 3 Data: 13

VISIT

Effectiviteit en haalbaarheid van de inzet van de verpleegkundig specialist op de spoedpost

Ambassadør for den bedste af alle verdener…

Zárókonferencia Szeptember 30. Szeged

AUDIT VEDR. LÆGEMIDDELORDINATION

Regi (30 min)

UMEÅ KOMMUN FASTIGHET

Forsker Mette Ystgaard

Verksamhetslokaler

Montagem e análise de genomas Janaina O. Melo

Regi ón Arica y Parinacota Región de Tarapacá

Érdekes régi fotók a világból

LOS INCA

Prof. Gotfrids Noviks, Rezeknes augstskola

Primärvårdsforum

Společná iniciativa pro novou kulturu stavebního prostředí v evrop ě

Strandveien