Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica Marcílio C. P. de Souto DIMAp/UFRN

Dados de Expressão Gênica

AM e Dados de Expressão Gênica (1/2) • Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados) • Algoritmos de agrupamento hierárquico • k-médias • Mapas auto-organizáveis • Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes) • Redes neurais artificiais • Mapas de vetores suporte

AM e Dados de Expressão Gênica (2/2) • Desafios para os algoritmos de AM • Centenas de Amostras (exemplos) x Milhares de genes (características) • Overfitting (super-ajustamento aos dados) • Poucas Replicações & Alto Grau de Ruído • Alta variância • Valores faltosos • Exemplos de treinamento rotulados incorretamente • Bases de dados não balaceadas

Agrupamento de Dados de Expressão Gênica • Agrupamento de genes • Identificação de genes co-expressos/co-regulados • Identificação de padrões temporais de expressão • Redução de redundância • Agrupamento de amostras • Identificação de novas classes de amostras biológicas • Novas classes de tumores • Novos tipos de células • Detecção de artefatos nos experimentos

Agrupamento de Genes Agrupamento de genes baseado nas suas expressões Dado: um conjunto de genes de um organismo, em que cada gene é um padrão Faça: Agrupe os genes baseado na similaridade de seus valores de expressão

Genes: Agrupamento Hierárquico (1/2) • Eisen et al. (1998) • Trabalho pioneiro • Dados • 6621 genes da levedura submetidos a quatro situações distintas • Divisão celular e respostas a diferentes estresses ambientais • Quatro séries temporais com 79 instantes de tempo • Para o agrupamento foram usados apenas 2467 genes • Dados coletados por meio de microarrays de cDNA • Técnica utilizada • Agrupamento hierárquico

Genes: Agrupamento Hierárquico (2/2) • Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média • Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson • Consegue detectar relacionamento inversos • Leva em consideração o deslocamento entre as curvas • Técnica antiga, também chamada UPGMA em análise filogenética

A B C D Matriz de Expressão Eisen et al. (1998) experimentos genes

Correlação de Pearson Eisen et al. (1998)

A B genes C D Matriz de Correlação Eisen et al. (1998) genes experimentos genes

experimentos A 0.756 B genes genes C D Encontrar a Correlação Máxima Eisen et al. (1998) genes

experimentos A genes B genes CD Combine e Calcule as Correlações Eisen et al. (1998) genes Como um efeito colateral, o algoritmo produz um dendograma A B C D

Análise Posterior Eisen et al. (1998) • Seleção de aglomerados • Seleção de um ordenamento dos genes para visualização • Determinação dos rótulos do aglomerados • Determinação da significância dos aglomerados

Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma (F) mitochondrial ribosome (G) ATP synthesis (H) chromatin structure (I) ribosome and translation (J) DNA replication Resultados Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95: 14863-14868

A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al. Genes: SOMs (1/2) Tamayo et al. (1999) • Tamayo et al. (1999) • SOMs aplicados a dados sobre a diferenciação de células sanguíneas • Entradas: • Para validar o programa (GENECLUSTER) • Dados sobre o ciclo celular da levedura • Mesmos dados que Cho et al. (1998) • Dados coletados por meio de microarrays de oligonucleotídeos • 828 genes usados após filtro • Padrões normalizados • SOM: uma grade 5 x 6, i.e., 30 aglomerados • Distância euclidiana

Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadas Genes: SOMs (1/2) Tamayo et al. (1999) • Entradas: • Dados sobre a diferenciação de células sanguíneas • 4 linhagens de células hematopoéticas (HL-60, U937, Jurkat, NB4) • Dados coletados por meio de microarrays de oligonucleotídeos • 1036 genes usados após filtro • Padrões normalizados • SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados • Distância euclidiana

Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionados Genes: k-médias Tavazoie et al. (1999) • Tavazoie et al. (1999) • Entradas: • Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos • Dados coletados por meio de microarrays de oligonucleotídeos • Utilzados apenas os 3000 genes que apresentaram maior variância • Foi utilizado o k-médias com a distância euclidiana para encontrar 10, 30 e 60 aglomerados • Para a análise foi escolhido o resultado do k-médias com k=30

Agrupamento de Amostras Descoberta de novas classes de doenças Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões. Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.

Amostras: SOMs (1/2) • Golub et al. (1999) • Trabalho pioneiro • Dados • 38 amostras de medula óssea • 11 - Leucemia Mielóide Aguda (AML) • 27 - Leucemia Aguda Limfoblástica (ALL) • 6817 genes humanos • Dados coletados com arrays de oligonucleotídeos • Técnica utilizada • Mapas Auto-Organizáveis (SOMs)

Amostras: SOMs (2/2) • Golub et al. (1999) • Inicialmente usam um SOM 2x1, i.e., 2 aglomerados • Depois usam um SOM 4x1, i.e., 4 aglomerados • Diferentemente do trabalho de Tamayo et al. (1999),os mapas são uni-dimensionais • Similaridade entre genes é medida usando a distância euclidiana • Os dados são padronizados

Resultados mostram que a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori! Descoberta: Dados AML-ALL com 2 Aglomerados Golub et al. (1999) Classe A1: maioria ALL (24/25 amostras) Classe A2: maioria AML (10/13 amostras) A2 A2

Resultados mostram que não só a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori, como também entre as células ALL dos tipos B e T! Descoberta: Dados AML-ALL com 4 Aglomerados Golub et al. (1999) Classe B1: AML Classe B2: ALL Linhagem-T Classe B3: ALL Linhagem-B Classe B4: ALL Linhagem-B B1 B2 B3 B4

Dois sub-tipos de DLBCL, antes desconhecidos, identificados. Sub-tipos correspondem aos prognósticos: • “GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes • “Activated B-like” -> 16% sobrevivência dos pacientes Amostras: Agrupamento Hierárquico • Alizadeh et al. (2000) • Entrada • Dados de 96 experimentos com 4026 genes humanos • Os 96 experimentos foram realizados com biopsias de pacientes com linfoma difuso de grandes células B (DLBCL) • Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998).

Outros Trabalhos • Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado. • Agrupamento dinâmico • Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene expression data. Journal Immunol. Methods, 250(1/2):93--12. • Self-Organizing Tree Algorithm • Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp. 455--466. • Análise de componentes principais • Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp. 307--316.

Previsão de Classes • Predição de classes de doenças • Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais • Diagnóstico de tecidos cancerosos e normais • Classificação de tipos diferentes de cânceres • Vários tumores diferentes têm a mesma aparência em exames histológicos • Diagnóstico é fundamental para o sucesso do tratamento • Predição da função biológica de um gene

Previsão de Classes de Doenças Predição de classes de doenças existentes Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões. Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.

Previsão de Classes de Funções: Redes Neurais • Khan et al. (2001) • Problema • SRBCTs • Neuroblastoma (NB) • Rhabdomyosarcoma (RMS) • Non Hodgkin lymphoma (NHL) • The Ewing family of tumors (EWS) • Todos têm aparência similar em exames histológico • Diagnóstico acurante é essencial • Abordagem • Redes Neurais Artificiais (RNs)

Previsão de Classes de Funções: Redes Neurais Khan et al. (2001) • Microarray de cDNA com 6567 genes • 63 exemplos de treinamento • Material da biopsia de tumores • Linhagens celulares • Filtro para um número mínimo de expressão • 2308 genes • Redução da dimensionalidade com PCA • 10 componentes dominantes do PCA foram usadas (63% da variância) • Três-fold cross-validation • 3750 redes neurais foram construídas (vote médio)

Visão Esquemática do Processo Khan et al. (2001)

Análise dos Dados Khan et al. (2001) • Arquitetura e parâmetros • Perceptron Linear (PL) • 10 entradas representando componentes do PCA • 4 nodos de saída – um para cada classe de tumor (EWS, BL, NB e RMS) • 44 parâmetros livres, incluindo quatro unidades de threshold • Treinamento realizado com o JETNET • =0.7; momentum=0.3 • Taxa de aprendizado decrementada a cada iteração (0.99) • Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F) • Pesos atualizados a cada 10 épocas • No máximo 100 épocas

Observações Khan et al. (2001) • Técnicas de diagnóstico de tumores são em geral baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas) • Alternativa: • Redes Neurais artificiais com dados de expressão gênica • Um dos primeiros trabalho a testar rigorosamente uma técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias • Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero • Dados • Tumores e linhagem celulares • Linhagens celulares para trinar RNs

Previsão de Classes de Funções Predição da função biológica de um gene Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições. Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.

G1 G2GN-1GN Exp 1 Exp 2 Exp 3 Expi Exp E Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs) Conhecimento a priori sobre a função do gene +

Padrões de Treino Grupo A Grupo A Não Grupo A {gene 1, 1}, {gene 2, 1}, … , {gene N-1, 1}, {gene N, 1} {gene a, -1}, {gene b, -1}, … SVMs (1/2) Conhecimento a priori da função do gene Genes que codificam proteínas ribomosais

ea, eb, … e1, e2, … , eN-1, eN Grupo A Perfil de expressãode um gene desconhecido Não Grupo A ? ex SVMs (2/2) Padrões de Treino {gene 1, 1}, {gene 2, 1}, … , {gene N-1, 1}, {gene N, 1} {gene a, -1}, {gene b, -1}, … Baseado nos dados de expressão SVM treino SVM teste

SVMs: Treinamento Membros Não membros Separável com um hiperplano no espaço de características Não separável c/ um hiperplano no espaço de entradas

6 classes funcionais do MYGD: ciclo TCA, respiração, ribossomos citoplasmáticos, proteasomos, histonas and protéinas hélice-volta-hélice Previsão de Classes de Funções: SVMs Brown et al. (2000) 2467 genes da levedura Dados de Microarray Exemplos de Treino 79 experimentos

Previsão de Classes de Funções: SVMs Brown et al. (2000) Resultados mostraram baixo número de falsos-positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão.

Outros Trabalhos • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868. • Votação ponderada • Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1):68--74. • k vizinhos mais próximos

Análise de Dados de Expressão Gênica:Observação • Algoritmos de agrupamentos diferentes geram resultados diferentes • “Each clustering criterion imposes a certain structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered.” (P. D’haeseleer) • Em geral, não se pode afirmar que há uma técnica melhor do que a outra • Combinar resultados de diferentes técnicas

Análise de Dados de Expressão Gênica: Novas Direções • Combinar resultados de diferentes técnicas • Combinar dados de expressão com outras fontes de informação • Artigos publicados • Banco de dados de DNA & proteína • Perfis filogenéticos • Funções metabólicas • Anotações funcionais de estudos experimentais

Referências • Expressão Gênica: • Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição • Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research • Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição

Referências • Redes Neurais Artificiais: • Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall

Referências • Máquinas de Vetores Suporte: • Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press • Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28 • Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag

Referências • Algoritmos de Agrupamento: • Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall. • Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31):264--323. • Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman. • Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag. • Quackenbush, J. (2001). Computational analysis of cDNA microarray data. Nature Reviews, 6(2):418--428. • Slonim, D. (2002). From patterns to pathways: gene expression data analysis comes of age. Nature Genetics, 32:502--508.

Referências • Descoberta de Padrões: • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868. • Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96:2907--2912. • Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22:281--285. • Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):17--24.

Referências • Descoberta de Padrões: • Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286):531--537. • Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:503--511.

Referências • Descoberta de Classes: • Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7:673--679. • Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp. 262--267.

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Presentation Transcript

PTR – 5802 - Técnicas de Análise de Dados Aplicadas à Engenharia de Transportes

ARTESANATO

Técnicas de compressão de dados

Aula 0. Doces Lembranças de MAE0219

Aprendizado Semi-Supervisionado utilizando Competição e Cooperação entre Partículas em Redes

Aprendizado de Máquina Uma Visão Geral

COMUNICAÇÃO DE DADOS

INF 1771 – Inteligência Artificial

Técnicas de Modelagem de Dados

Aquisição de dados com eletrônica VME e MPD utilizando programação em ROOT

TÉCNICAS DE DIAGNÓSTICO MOLECULAR

Aprendizado Multiagente

Painel: Bases TÃ©cnicas da Agricultura

Técnicas de Biologia Molecular em Microbiologia Clínica

Aprendizado de Máquina

La màquina

REDES NEURAIS ARTIFICIAIS: Do Aprendizado Natural Ao Aprendizado Artificial

Técnicas de Mineração de Dados na Agricultura

LA REVOLUCIÓN INDUSTRIAL: La Máquina Hiladora

REDES DE COMPUTADORES

Engenharia de Software

Introdução à Informática