330 likes | 462 Views
Introdução à Bioinformática. Marcílio C. P. de Souto DIMAp/UFRN. Computação e Biologia Molecular. Bioinformática Casamento entre a ciência da computação e a biologia molecular É uma área nova Há 10 anos atrás o termo nem existia
E N D
Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN
Computação e Biologia Molecular • Bioinformática • Casamento entre a ciência da computação e a biologia molecular • É uma área nova • Há 10 anos atrás o termo nem existia • Podemos dizer que foi um desdobramento da descoberta de Watson e Crick (1953) de que o DNA é estruturado como uma hélice dupla
Contexto Histórico (1/6) • A história começa na década de 1940 com a invenção do moderno computador digital • Ele se chama digital, pois os dados são armazenados com um alfabeto binário • Dígitos binários – 0 e 1 • A operação também é digital, baseada na lógica liga/desliga • Em 1944, Avery e colaboradores descobriram que o DNA era a substância que carregava a informação genética • Usando a descoberta de Avery como referência, vemos que o nascimento do moderno computador digital e da moderna biologia molecular se deram mais ou menos ao mesmo tempo
Contexto Histórico (2/6) • A descoberta da hélice dupla, em 1953, mostrou que a informação genética também é armazenada de forma digital • Mas diferente do alfabeto binário dos computadores, os dados genéticos são armazenados com um alfabeto quaternário • A, C, G e T • Mais tarde se descobriu que a forma dos genes operarem também é digital • Até certo ponto, os genes podem ser “ligados” ou “desligados” • Apenas estas observações já seria suficiente para prever, na década de 1950, que um dia informática e biologia molecular iriam juntas fazer nascer uma nova área de conhecimento
Contexto Histórico (3/6) • O nascimento da área, entretanto, teve de esperar muito tempo para acontecer • Essa é a razão da bioinformática ser uma aparente novidade • Algumas pessoas consideram que a bioinformática passou a ser reconhecida como importante pelo mundo científico por volta de 1995 • Ano que o primeiro genoma de uma bactéria foi publicado • Por que tão longa demora?
Contexto Histórico (4/6) • Do lado da biologia molecular o motivo é simples • Apesar da estrutura do DNA ter sido desvendada em 1953, a informação nela contida não podia ser “lida” • Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o livro da vida”, mas as “palavras” desse livro estavam com letrinhas tão pequenas que não conseguíamos lê-las • Foi preciso esperar até fins da década de 1980 para que aparecesse uma “lente de aumento” suficientemente boa que permitisse a leitura dessas letrinhas em grande quantidade • Uma máquina automática • Em 1995, uma única máquina dessas já conseguia ler milhares de letrinhas por dia
Contexto Histórico (5/6) • Do lado da computação foi também preciso um amadurecimento • Computadores sendo capazes de armazenar cada vez mais informação, de processá-la de modo cada vez mais rápido, a um custo cada vez menor • Se o seqüenciamento automático do DNA tivesse amadurecido mais rapidamente, digamos com 20 anos de antecedência, não haveria computadores com poder suficiente para dar conta dos dados gerados • Na década de 1970 a unidade básica de armazenamento de informação era o kilobyte -- 1000 bytes, aproximadamente 1000 letras • Um computador de grande porte daquela época tinha alguns kbytes de memória • Com tal memória um computador desses não seria capaz de processar nem sequer o genoma de um vírus, que pode chegar a 20 kilobases, ou 20 mil letrinhas; que dirá o genoma humano, com seus 3 bilhões de letrinhas
Contexto Histórico (6/6) • Então, através de uma evolução que parece mais ou menos sincronizada, desembocamos em 1995 • Os computadores já estavam suficientemente poderosos para poder processar os milhões e milhões de letrinhas que passaram a vir à luz. • E assim nasceu a bioinformática, com a missão de ajudar-nos a entender a história que está escrita nesse livro da vida
Poligamina da Computação • Até que ponto essa onda em torno da bioinformática é justificada? • Afinal de de contas, hoje quase toda atividade científica depende do computador • Poderíamos falar em física-informática, astronomia-informática, arqueologia-informática, etc. • Será que há algo de especial na bioinformática?
Abordagens • Há dois tipos de problemas em que atua a bioinformática • O primeiro tipo de problema é chamado de problema biotecnológico • O exemplo clássico é o da montagem de DNA • Uma segunda classe de problemas têm um interesse que vai além de tecnologias específicas, que transcende qualquer tecnologia, e diz respeito à natureza mesmo da biologia molecular • Queremos saber que informação está contida nos genomas
Problema biotecnológico (1/2) • Montagem de DNA • Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou bases • As máquinas seqüenciadoras conseguem ler apenas pedaços de cerca de 1000 bases • Então como é possível ler um livro de 3 ou 4 milhões de letras se só conseguimos ler fragmentos de 1000 letras? • A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição entre si • Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos • Aí, obviamente, é necessário um programa de computador para montar esse quebra cabeça
Problema biotecnológico (2/2) • Esse problema é fruto de uma limitação tecnológica atual • É bem possível que daqui a 5 anos apareça um novo tipo de seqüenciador que consiga ler diretamente as 3 ou 4 milhões de bases • E quando essa tecnologia aparecer, o problema da montagem do DNA deixa de existir. Portanto, o nome de problema biotecnológico • Tal como esse, existem dezenas ou centenas de outros problemas na bioinformática, cada um deles motivado por uma particular tecnologia • Mas problemas desse tipo existem em outras ciências também • Certamente os telescópios modernos geram grandes quantidades de dados de um jeito e formato que exigem programas de computador sofisticados para coleta e intepretação; e quando mudam os telescópios mudam os programas.
Para além da tecnologia • Há uma segunda classe de problemas que têm um interesse que vai além de tecnologias específicas • Diz respeito à natureza mesmo da biologia molecular • São esses problemas que dão um charme todo especial à bioinformática • Que problemas são esses? São basicamente de dois tipos • Primeiro, temos a interpretação do DNA como uma linguagem, a linguagem dos genes • O segundo tipo de problema é o de entender os efeitos da informação genética
Linguagem dos Genes (1/2) • Os genomas contém informação • Sempre vamos querer saber que informação está contida neles • Por exemplo, para diferentes espécies de organismos e para diferentes indivíduos de uma espécie, particularmente a nossa • Essa interpretação requer métodos, técnicas, algoritmos que vêm principalmente da informática, pois afinal ela é a ciência da informação • Sem o uso dessas técnicas as seqüências de DNA produzidas pelas máquinas e montadas pelos programas não passam de uma inútil sopa de letrinhas • Dar sentido a essa sopa é tarefa dos bioinformatas
Linguagem dos Genes (2/2) • Nesta linha é interessante observar que existe um paralelo entre o uso da informática para decifrar a informação genética e uma das primeiras grandes aplicações dos computadores • O deciframento, pelos ingleses, do código secreto usado pelos alemães na II guerra mundial • Um artigo recente que faz uma apanhado geral sobre as técnicas das ciências da informação usadas no deciframento da linguagem genética é D. Searls, The Language of Genes, Nature, 420:211-217, 2002
Efeitos da Informação Genética (2/2) • Temos aqui efeitos de gênese, de criação, ou seja, como a partir de um ovo ou de uma semente se chega a um indivíduo; e também efeitos de manutenção da vida, ou seja, como um indivíduo já formado responde ao ambiente em que vive • O entendimento dos efeitos da informação genética começa com o entendimento de como uma célula funciona • Agora temos a possibilidade de tentar descobrir qual é o efeito que uma perturbação vai ter sem ter que efetivamente realizar essa perturbação • Para isso bastará "ler as instruções", "ler as especificações" e fazer as deduções necessárias. Isto é, ler o genoma e entender a cadeia de dependências entre os genes. • Essas cadeias são assim: um efeito externo faz um gene produzir uma proteína, que ativa outro gene, que produz outra proteína, que ativa outro gene e assim por diante. • Essa é uma tarefa que vai precisar de muita bioinformática
A Computação está para a Biologia da mesma forma que a matemática está para física Harold Morowitz Bioinformática (1/5) • Definições • Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia • Biologia Molecular
Bioinformática (2/5) • Definições • Número de definições Número de bioinformatas • Todo mundo tem sua própria definição de Bioinformática, com detalhes sutis para refletir seu interesse em Ciências Biológicas Uma combinação de Ciência da Computação, Tecnologia da Informação e Genética para determinar e analisar informação genética Bits Journal - Bioinformatics: Information Technology & Systems
Bioinformática (3/5) • Outras definições • Aplicação de ferramentas de computação e análise para captura e interpretação de dados biológicos • Integração de métodos matemáticos, estatísticos e computacionais para analisar dados biológicos, bioquímicos e biofísicos • Ciência e tecnologia sobre aprendizado, gerenciamento e processamento de informação biológica
Bioinformática (4/5) • Outras definições • Coleção de métodos estatísticos para lidar com grande conjuntos de dados biológicos • Estatístico • Casamento da Ciência da Computação com a Biologia Molecular • Chefe de departamento de Ciência da Computação • Aplicação de técnicas de Aprendizado de Máquina para dados biológicos • Pesquisador de Inteligência Artificial
Bioinformática (5/5) • Outras definições • Alinhamento de seqüências • Comentário feito em uma reunião para decidir que projeto apoiar • Linha de comando unix • Profissional de suporte de sistemas em empresa de Biotecnologia • Fluxo de recursos do próximo milênio • Diretor de Instituição
Bioinformática: atualmente (1/2) • Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação • Com os sequenciamentos realizados, um grande volume de dados tem sido gerado • Esses dados precisam agora ser analisados • Análise laboratorial é difícil e cara • Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos
Aprendizado de Máquina Bioinformática: atualmente (2/2) • Para muitas dessas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos • Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões • Erros na coleta de dados • Erros na construção de bases de dados Fornece técnicas para lidar com os problemas acima
Aprendizado de Máquina (AM)(1/2) • Principal preocupação • Como construir programas de computador que automaticamente melhoram seu desempenho com a experiência? • Técnicas orientadas a dados • Aprendem automaticamente a partir de grandes volumes de dados • Geração de hipóteses a partir dos dados
AM (2/2) • Algumas Técnicas • Redes Neurais Artificiais (RNs) • Máquinas de Vetores Suporte (SVMs) • Algoritmos de Agrupamento (AA) • Algoritmos Genéticos (AGs) • Árvores de Decisão (ADs) • Raciocínio Baseado em Casos (RBC) • K-vizinhos mais próximos (kNN) • ...
AM e Biologia (1/2) • Por muitos anos, sub-áreas da Biologia têm inspirado técnicas de AM • Redes Neurais • Algoritmos Genéticos • Programação Genética • Vida Artificial • Agora, diversas pesquisas na Biologia vêm utilizando técnicas de AM
AM e Biologia (2/2) Redes Neurais, Algoritmos Genéticos BIOLOGIA COMPUTAÇÃO Bioinformática
Biologia Molecular e AM (1/2) • Problemas da Biologia Molecular que podem ser tratados por AM • Reconhecimento de genes • Reconstrução de árvores filogenéticas • Análise de dados de expressão gênica • Previsão de estruturas de proteínas • Análise de interação entre genes • Montagem de fragmentos • Alinhamento de seqüências
Problemas Abordados • Alinhamento de seqüências • Identificação de elementos que provavelmente surgiram de um ancestral comum • Reconhecimento de genes • Identificação de genes em seqüências de DNA não caracterizadas • Análise de dados de expressão gênica • Identificar: • Um agrupamento dos genes que seja funcionalmente significativo • Novas sub-classes de doenças • Funções de genes desconhecidos • Predição de estrutura de proteínas • Identificação de estruturas secundárias de proteínas • Reconstrução de árvores filogenéticas • Encontrar estratégias eficientes para a obtenção da melhor árvore ou mesmo de uma árvore sub-ótima
Técnicas de AM Utilizadas • Redes Neurais Artificiais • Máquinas de Vetores Suporte • Árvores de Decisão • Algoritmos Genéticos • Algoritmos de Agrupamento • Agrupamento Hierárquico • k-médias • Mapa Auto-Organizáveis • Cadeias escondidas de Markov (HMMs)
Objetivo O objetivo do curso é propiciar aos estudantes um entendimento das vantagens e limitações das técnicas de AM revisadas, quando aplicadas aos problemas de Biologia Molecular propostos
Referências • Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine Learning Approach. MIT Press. • de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de Carvalho, A. C. P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial – Livro Texto, capítulo Técnicas de Aprendizado de Máquina para Problemas de Biologia Molecular, pp. 103-152. Editora SBC. • Mitchell, T. (1997). Machine Learning. McGraw Hill, New York. • Setúbal, J. C (2003). A origem e o sentido da palavra bioinformática. Com Ciência – Revista Científica da SBPC. http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml