Introdução à Bioinformática

Introdução à Bioinformática Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular

Sumário • Introdução • Revisão Histórica • Sequenciamento • Projetos • Definição de Bioinformática • Áreas de Aplicação • Estudos “-omas” • Problemas clássicos em Bioinformática • Desenvolvimento de Sofwares • Principais programas • Análises comuns • Bancos de Dados Biológicos • Principais repositórios • Extração de Conhecimento de Bases de Dados • Centros de Pesquisa • Nacionais e Internacionais / Públicos e Privados • Formação na Área • Cursos (Graduação / Pós-Graduação) • Eventos (Congressos, Simpósios, Cursos de Verão, ...) • Perspectivas profissionais • Referências

introdução

1866 1946 1953 1859 Revisão Histórica ENIAC, o 1° computador eletrônico Experiments in Plant Hybridization Gene Leis da hereditariedade 1900 1944 Caráter Hereditário (DNA) Oswald Avery The Origin of Species Molecular Structure of Nucleic Acids

Revisão Histórica Leroy Hood • Sequenciador • semi-automático 1986 Gilbert & Sanger 1986 AppliedBiosystems 1977 A C G T • Sequenciador • automático • comercial • Métodos para o • sequenciamentode DNA

Revisão Histórica Publicação do rascunho do Genoma Humano 1000 Genomes Project Iniciativa pública Projeto Genoma Humano Cancer Genome Anatomy Project 2008 1990 1996 1999 2001 ... 1995 1988 1997 2000 2003 2005, 2006, 2007 National Centerfor Biotechnology Information Next-Generation Sequencing SAGE microarray Conclusão do Projeto Genoma Humano Organization for Nucleotide Sequencing and Analysis Genoma bactéria Xylella fastidiosa

Projeto Genoma Humano • TheInternationalHumanGenomeSequencing Consortium • 13 anos (1990-2003) • U$3.000.000.000,00 (3 BILHÕES de DÓLARES!!!) • Avançosimediatosproporcionados • Identificação de ~25.000 genes (~20% material genético total); • Possibilitou a descoberta de ~1.800 genes relacionados a doenças, facilitando a identificação de outros genes; • Permitiu o desenvolvimento de mais de 1.000 testes genéticos; • Aomenos 350 produtosbiotecnológicosresultantesdesteconhecimentojáestãoem testes clínicos; • Desenvolvimentos de ferramentasparaanálisegenômica, inclusive de outrasespécies de interessebiomédico e econômico; • Promoveudiscussõeséticas, legais e implicaçõessociaisemtorno do assunto; • Base de conhecimento;

International Nucleotide Sequence Database Colaboration 1982 606 seqüências 2.427 bases 2008 98.868.465 seqüências 99.116.431.942 bases

Nova Geração de Sequenciadores de DNA ABI 3730xl Roche/454 FLX Illumina/SolexaGA ABI SOLiD • Aumento na quantidade de Dados (até ~1/2 Tb por corrida); • Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de • poucas semanas); • Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb); • Redução do custo por base sequenciada;

SequenceReadArchive • SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra • ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/ • DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml “(…) In mid-September 2010, the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)” International Nucleotide Sequence Database Collaboration “We’re growing by about 1 Tb/month.” NCBI’s staff scientist Martin Shumway [Leinonen R et. al., 2011]

Novas promessas • HeliScope • HelicosBioSciences • ION Torrent • AppliedBiosystems • PacBio RS • PacificBiosciences 2008 2010 2010

$100 genome • Seqüenciamentogenomacompleto • 2010 (~U$50.000,00) • 2011 (~U$10.000,00) • Testes genéticos (marcadores) • deCODEme (~U$2.000,00 ~50 doenças/traços) • http://www.decodeme.com/ • 23andme (~U$500,00 ~174 relatóriossaúde) • http://www.23andme.com

1000 Genomes • Catálogo completo e detalhado de Variantes Genômicas Humanas • 2.000 genomas, 4x cobertura • 1.270 genomas seqüenciados • Mais de 6 trilhões de bases • Suporte financeiro • Wellcome Trust Sanger Institute (Inglaterra); • Beijing Genomics Institute (China); • National Human Genome Research Institute (EUA); Craig Venter

Início dos anos 90... Início do Projeto Genoma Humano

Por onde começar?

Bancos de Dados A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning.(R. Elmasri and S. B. Navathe) A database is a repository for a collection of computerized data files. (C.J.Date) • Propriedades: • Representar um aspecto do mundo real; • Conter dados coerentes e com um significado inerente; • Deve ter um propósito;

Abordagem utilizando Sistema de Arquivos • Cadausuário define e implementaosarquivosnecessáriosparaumaaplicaçãoespecífica. • Gera redundâncianadefinição e no armazenamento dos dados; • Possuiestruturaespecífica e dependente de determinadaaplicação; • Nãopermitecompartilhamento e acessoconcorrente; • …

Abordagem utilizando Sistema de Banco de Dados • Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados; • Evita redundância; • Contém em si a definição de sua estrutura (metadados); • Possui restrições implementadas que evitam inconsistências nos dados; • Solução genérica para qualquer aplicação; • Permite o acesso concorrente de múltiplos usuários; • Permite diferentes visões dos dados; • Independência da aplicação; • Permite representar relacionamentos complexos entre os dados; • ...

Em que situações a abordagem com arquivos é indicada? • O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações; • Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga; • Não há necessidade de múltiplos acessos.

Elmasri, R. A. and Navathe Ambiente Simplificado de um Sistema de Banco de Dados

Banco de DadosFlat file • Abordagem utilizando arquivos • Arquivos que contêm registros de dados que não estão estruturalmente relacionados. • Exemplo: Banco de Dados flat file de seqüências de nucleotídeos (nt) • Possui um padrão específico de formatação • GenBank, Fasta, ASN.1 ... • É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática. • Ex.: Módulos da BioPerl

Repositórios de Dados Biológicos • 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb • 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information • 1997 – EMBL – European Molecular Biology Laboratory • 1986 – DDBJ – DNA Data Bank of Japan

E agora ?

Análise dos Dados • Necessidade de sistemas computacionais para análise dos dados e interpretação dos resultados. • Desafios : • Armazenar e organizar • Estabelecer relações • Procurar padrões • Analisar • Filtrar • Desenvolver mecanismo de visualização • Integrar • Etc. EquipeMultidisciplinar

Bioinformática Etimologia Bio = “bios” (vida) + Informática = “informatik” (informação + automática)

Termo “Bioinformática” • “Bioinformática” • Paulien Hogeweg, 1978 • Estudo de sistemas biológicos como sistemas dinâmicos (modelos matemáticos que descrevem o comportamento de um sistema) • Origem disputada, meados 1980 • Análise de seqüências biológicas

Bioinformática “The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information.” Fredj Tekaia ( Institut Pasteur ) “Métodos matemáticos, estatísticos e computacionais para resolver problemas biológicos usando seqüências de DNA e aminoácidos e informações relacionadas”

Biologia Computacional “Computational biology is not a “field”, but an “approach” involving the use of computers to study biological processes and hence it is an area as diverse as biology itself.” Paul J Schulte ( University of Washington ) “Biologia Computacional não é um “campo”, mas uma “abordagem” envolvendo o uso de computadores para estudar processos biológicos e portanto é uma área tão diversa quanto a biologia em si.”

Definições atuais • Bioinformática:Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados. • Computational Biology:O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais. Biomedical Information Science and Technology Initiative Consortium (NIH)

As Bases da Bioinformática

Áreas de aplicação

Science 291:1221. 2001 Projetos “-omas”xPesquisa Clássica em Genética e Bioquímica Genômica Transcritômica Proteômica Epigenômica Metabolômica …

Genômica • Genômica Estrutural • Construção de mapas genéticos, físicos e de transcrição de um organismo. • Genômica Funcional • Caracterização das propriedades funcionais do conjunto gênico e padrão de Expressão Gênica. • Genômica Comparativa • Genômica Clínica

Proteômica • Como regra geral, as proteínas são estudadas isoladamente. • A Proteômica engloba o estudo amplo de todas as propriedades das proteínas, isoladamente e em interação com o organismo.

Bioinformática “Clássica” • Organização da Informação Biológica • Definição de Bases de Dados • Genômica Estrutural • Análise de seqüências de DNA ou RNA • Processamento automatizado dos Dados de Seqüências (pipelines); • Montagem de seqüências genômicas; • Predição Gênica; • Definição das estruturas gênicas; • Mapeamento genômico de estruturas gênicas; • Identificação e de Polimorfismos de DNA; • ...

Montagem do quebra-cabeças Estratégias (Pública x Privada) HUMAN GENOME CONSORTIUM CELERA GENOMICS Craig Venter Francis Collins 100.000 fragmentos (1000 b) - ~ 3 a 4 milhões de bases (Genoma de uma Bactéria)

Base-Calling • Phred : http://www.phrap.com/phred/ • Lê o arquivo do cromatograma da seqüência de DNA e analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita.

Problema clássico Como obter as sequências de nucleotídeos dos cromossomos a partir do sequenciamento de milhares de sequências de fragmentos de DNA? Como montar as peças desse quebra-cabeças?

Problema clássico Sejam duas seqüências de caracteres distintas: É possível quantificar o quanto elas estão relacionadas e quais regiões são correspondentes entre si? ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG Alinhamento de seqüências ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG |||||||||||||||||||||||| GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

Alinhamento de Sequências EmBioinformática, alinhamento de sequências é uma forma de dispor as sequências de DNA, RNA, ouproteínasparaidentificarregiões de similaridadequepodem ser consequência de relacionamentosfuncionais, estruturaisourelaçõesevolutivas entre elas.

Significado Biológico do Alinhamento de Sequências • Definição de 3 termos importantes: • identidade: refere-se à fração de aminoácidosounucleotídeosidênticos entre pares de sequênciasapós um alinhamentodessassequências; • similaridade: refere-se à fração de aminoácidosounucleotídeossimilares (com propriedadesfísico-químicassemelhantes – aminoácidosconservados) entre pares de sequênciasapós um alinhamentodessassequências; • homologia: representa uma relação evolutiva entre as sequências; • Homólogos • Parálogos; • Ortólogos;

Há uma referência? • Resequenciamento • Existem sequências produzidas a partir de um genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência. • Sequenciamentode novo • Não há sequências que podem ser usadas como referências. Este tipo de sequenciamento exigirá uma montagem (assembly) das sequências, utilizando apenas os dados obtidos desse sequenciamento. Alinhamento entre as sequencias geradas, que permitirá a obtenção de um consenso.

Identificação das sequências • Resequenciamento • Alinhamento: Conjunto de Sequências X Sequências Referências (Ex.: Genoma) >seq1 gcagtcagtcacacatgtca... >seq2 cgcgcatgcGcgtactctat... >seq3 tcgagcatcatcagtcgtca... >seq4 tatgctttatagcgagtcat... ..... >chrX atcacacatgtcacatggtcag ggcatcagtcagtcagtcatgc gcgcgcatgcCcgtactctatc tcatgcgtcagtcatgcatgcg agcagtcatgcatgcatcgcac tgcatcatacgtcatgcatgaa ..... • Objetivos: • - Eliminar as sequência sem hit • - Eliminar as sequência com hits múltiplos (ambiguous) • - Identificar as sequência com hit único (unambiguous)

Montagem de sequências • Sequenciamentode novo • Alinhamentos: • Conjunto de Sequências X Conjunto de Sequências (alinhamento pareado) • Alinhamento Múltiplo de Sequências (MSA) Consensus : Seq A Seq B Seq C SeqD Seq E Seq F Seq G ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGG ACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC

Abordagens para alinhar sequências ALGORITMOS PARA ALINHAMENTO DE SEQUÊNCIAS

Problema básico • Transformar uma sequência de caracteres em outra: • Operações: • inserção • deleção • substituição • Custo de operação: • Score de substituição • Penalidade para Gaps (inserção/deleção) • Qual é a quantidade de operações mínima ? • Como achar a séries de operações que vai garantir que usamos a quantidade de operações mínima ? Exemplo: Scores: Match: 2 Mismatch (S): -1 Gap(I): -2 Gap(D): -2 ACGT || G-GT Score (4-2-1): 1 2 matches: 4 1 gap: -2 1 mismatch: -1

Soluções • Matrix de pontos (dotmatrix) • Informação qualitativa; [Goldstein e Gunawardenaa, 2000] DrosophilaDystrobrevinand Mouse ortholog

Soluções • Matrix de pontos (dotmatrix) • Informação qualitativa; • Algoritmos de Programação Dinâmica • Smith-Waterman; Needleman-Wunsch; • SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;

Alinhamentos de Sequências • Alinhamento Global (e.g.Algoritmo de Needleman-Wunsch) • As sequênciasenvolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as sequências possuem aproximadamente o mesmo tamanho. Seq X : C A TT A G C A G C C T | ||||| Seq Y : - A G T A – - A G C - - • Alinhamento Local (e.g. Algoritmo de Smith–Waterman) • Procura-se alinhar apenas as regiões mais similares, independente da localização relativa de cada região. Seq X[4,10]: T A G C A G C | |||| Seq Y[3,7]: T A - - A G C • Alinhamentos (Global/Local) (DNA/Protein) • FASTA (http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml) • EMBOSS Align (http://www.ebi.ac.uk/Tools/emboss/align/)

Matriz de Programação Dinâmica GG A • > Score (-2-1): -3 • 1 gap: -2 • 1 mismatch: -1 • > Score(-1-2): -3 • 1 mismatch: -1 • 1 gap: -2 • > Score(-4-2): -6 • 2 gaps: -4 • 1 gap: -2 GG A GG A traceback D(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch) D(i -1, j) + g (acima -> gap acima) D(i, j -1) + g (esquerda -> gap esquerda) D(i, j) = max Exemplo: Scores: Match: 2 Mismatch (S): -1 Gap(I): -2 Gap(D): -2 ACGT || G-GT Score (4-2-1): 1 2 matches: 4 1 gap: -2 1 mismatch: -1

Introdução à Bioinformática

Introdução à Bioinformática

Presentation Transcript

Cirrosis hepática

Introducción a la ética

Matemática Financeira e Informática de Gestão

Política Industrial y tecnológica

Teoría de Restricciones y Cadena Crítica en la Administración de Proyectos

BIOÉTICA

Estabilidade de medicamentos

CETOACIDOSE DIABÉTICA

GENÉTICA CUANTITATIVA

PSICOPEDAGOGIA INSTITUCIONAL

Renovação Carismática Católica Brasil

FLOCULAÇÃO

LA CONTRIBUCIÓN A LA EFICIENCIA ENERGÉTICA DE LAS NORMAS:

POLÍTICA INTERNACIONAL

HIPERPLASIA PROSTÁTICA BENIGNA

ANEMIA HEMOLÍTICA AUTO-IMUNE

Ética Profesional y Medio Ambiental

Cirurgia pré-protética

BALANZA HEMOSTÁTICA

Toxicocinética y Toxicodinamia

GLÁNDULA HEPÁTICA

Febre Reumática