T cnicas de aprendizado de m quina e dados de express o g nica
Sponsored Links
This presentation is the property of its rightful owner.
1 / 49

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica PowerPoint PPT Presentation


  • 95 Views
  • Uploaded on
  • Presentation posted in: General

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica. Marcílio C. P. de Souto DIMAp/UFRN. Dados de Expressão Gênica. AM e Dados de Expressão Gênica (1/2). Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados)

Download Presentation

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Marcílio C. P. de Souto

DIMAp/UFRN


Dados de Expressão Gênica


AM e Dados de Expressão Gênica (1/2)

  • Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados)

    • Algoritmos de agrupamento hierárquico

    • k-médias

    • Mapas auto-organizáveis

  • Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes)

    • Redes neurais artificiais

    • Mapas de vetores suporte


AM e Dados de Expressão Gênica (2/2)

  • Desafios para os algoritmos de AM

    • Centenas de Amostras (exemplos) x Milhares de genes (características)

      • Overfitting (super-ajustamento aos dados)

    • Poucas Replicações & Alto Grau de Ruído

      • Alta variância

      • Valores faltosos

      • Exemplos de treinamento rotulados incorretamente

    • Bases de dados não balaceadas


Agrupamento de Dados de Expressão Gênica

  • Agrupamento de genes

    • Identificação de genes co-expressos/co-regulados

    • Identificação de padrões temporais de expressão

    • Redução de redundância

  • Agrupamento de amostras

    • Identificação de novas classes de amostras biológicas

      • Novas classes de tumores

      • Novos tipos de células

    • Detecção de artefatos nos experimentos


Agrupamento de Genes

Agrupamento de genes baseado nas suas expressões

Dado: um conjunto de genes de um organismo, em que cada gene é um padrão

Faça: Agrupe os genes baseado na similaridade de seus valores de expressão


Genes: Agrupamento Hierárquico (1/2)

  • Eisen et al. (1998)

    • Trabalho pioneiro

    • Dados

      • 6621 genes da levedura submetidos a quatro situações distintas

        • Divisão celular e respostas a diferentes estresses ambientais

        • Quatro séries temporais com 79 instantes de tempo

        • Para o agrupamento foram usados apenas 2467 genes

      • Dados coletados por meio de microarrays de cDNA

    • Técnica utilizada

      • Agrupamento hierárquico


Genes: Agrupamento Hierárquico (2/2)

  • Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média

  • Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson

    • Consegue detectar relacionamento inversos

    • Leva em consideração o deslocamento entre as curvas

  • Técnica antiga, também chamada UPGMA em análise filogenética


A

B

C

D

Matriz de Expressão

Eisen et al. (1998)

experimentos

genes


Correlação de Pearson

Eisen et al. (1998)


A

B

genes

C

D

Matriz de Correlação

Eisen et al. (1998)

genes

experimentos

genes


experimentos

A

0.756

B

genes

genes

C

D

Encontrar a Correlação Máxima

Eisen et al. (1998)

genes


experimentos

A

genes

B

genes

CD

Combine e Calcule as Correlações

Eisen et al. (1998)

genes

Como um efeito colateral, o algoritmo produz um dendograma

A B C D


Análise Posterior

Eisen et al. (1998)

  • Seleção de aglomerados

  • Seleção de um ordenamento dos genes para visualização

  • Determinação dos rótulos do aglomerados

  • Determinação da significância dos aglomerados


Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma

(F) mitochondrial ribosome

(G) ATP synthesis

(H) chromatin structure

(I) ribosome and translation

(J) DNA replication

Resultados

Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95: 14863-14868


A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura

Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al.

Genes: SOMs (1/2)

Tamayo et al. (1999)

  • Tamayo et al. (1999)

    • SOMs aplicados a dados sobre a diferenciação de células sanguíneas

  • Entradas:

    • Para validar o programa (GENECLUSTER)

    • Dados sobre o ciclo celular da levedura

      • Mesmos dados que Cho et al. (1998)

      • Dados coletados por meio de microarrays de oligonucleotídeos

      • 828 genes usados após filtro

        • Padrões normalizados

  • SOM: uma grade 5 x 6, i.e., 30 aglomerados

    • Distância euclidiana


Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadas

Genes: SOMs (1/2)

Tamayo et al. (1999)

  • Entradas:

    • Dados sobre a diferenciação de células sanguíneas

      • 4 linhagens de células hematopoéticas (HL-60, U937, Jurkat, NB4)

      • Dados coletados por meio de microarrays de oligonucleotídeos

      • 1036 genes usados após filtro

        • Padrões normalizados

  • SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados

    • Distância euclidiana


Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionados

Genes: k-médias

Tavazoie et al. (1999)

  • Tavazoie et al. (1999)

  • Entradas:

    • Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos

    • Dados coletados por meio de microarrays de oligonucleotídeos

    • Utilzados apenas os 3000 genes que apresentaram maior variância

  • Foi utilizado o k-médias com a distância euclidiana para encontrar 10, 30 e 60 aglomerados

    • Para a análise foi escolhido o resultado do k-médias com k=30


Agrupamento de Amostras

Descoberta de novas classes de doenças

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.


Amostras: SOMs (1/2)

  • Golub et al. (1999)

    • Trabalho pioneiro

    • Dados

      • 38 amostras de medula óssea

        • 11 - Leucemia Mielóide Aguda (AML)

        • 27 - Leucemia Aguda Limfoblástica (ALL)

      • 6817 genes humanos

      • Dados coletados com arrays de oligonucleotídeos

    • Técnica utilizada

      • Mapas Auto-Organizáveis (SOMs)


Amostras: SOMs (2/2)

  • Golub et al. (1999)

    • Inicialmente usam um SOM 2x1, i.e., 2 aglomerados

    • Depois usam um SOM 4x1, i.e., 4 aglomerados

    • Diferentemente do trabalho de Tamayo et al. (1999),os mapas são uni-dimensionais

  • Similaridade entre genes é medida usando a distância euclidiana

    • Os dados são padronizados


Resultados mostram que a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori!

Descoberta: Dados AML-ALL com 2 Aglomerados

Golub et al. (1999)

Classe A1: maioria ALL (24/25 amostras)

Classe A2: maioria AML (10/13 amostras)

A2

A2


Resultados mostram que não só a distinção

AML-ALL poderia ter sido descoberta sem um

conhecimento biológico a priori, como também

entre as células ALL dos tipos B e T!

Descoberta: Dados AML-ALL com 4 Aglomerados

Golub et al. (1999)

Classe B1: AML

Classe B2: ALL Linhagem-T

Classe B3: ALL Linhagem-B

Classe B4: ALL Linhagem-B

B1

B2

B3

B4


  • Dois sub-tipos de DLBCL, antes desconhecidos, identificados. Sub-tipos correspondem aos prognósticos:

    • “GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes

    • “Activated B-like” -> 16% sobrevivência dos pacientes

Amostras: Agrupamento Hierárquico

  • Alizadeh et al. (2000)

    • Entrada

      • Dados de 96 experimentos com 4026 genes humanos

    • Os 96 experimentos foram realizados com biopsias de pacientes com linfoma difuso de grandes células B (DLBCL)

    • Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998).


Outros Trabalhos

  • Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado.

    • Agrupamento dinâmico

  • Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene expression data. Journal Immunol. Methods, 250(1/2):93--12.

    • Self-Organizing Tree Algorithm

  • Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp. 455--466.

    • Análise de componentes principais

  • Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp. 307--316.


Previsão de Classes

  • Predição de classes de doenças

    • Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais

    • Diagnóstico de tecidos cancerosos e normais

    • Classificação de tipos diferentes de cânceres

      • Vários tumores diferentes têm a mesma aparência em exames histológicos

      • Diagnóstico é fundamental para o sucesso do tratamento

  • Predição da função biológica de um gene


Previsão de Classes de Doenças

Predição de classes de doenças existentes

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.


Previsão de Classes de Funções: Redes Neurais

  • Khan et al. (2001)

  • Problema

    • SRBCTs

      • Neuroblastoma (NB)

      • Rhabdomyosarcoma (RMS)

      • Non Hodgkin lymphoma (NHL)

      • The Ewing family of tumors (EWS)

      • Todos têm aparência similar em exames histológico

      • Diagnóstico acurante é essencial

  • Abordagem

    • Redes Neurais Artificiais (RNs)


Previsão de Classes de Funções: Redes Neurais

Khan et al. (2001)

  • Microarray de cDNA com 6567 genes

  • 63 exemplos de treinamento

    • Material da biopsia de tumores

    • Linhagens celulares

  • Filtro para um número mínimo de expressão

    • 2308 genes

  • Redução da dimensionalidade com PCA

    • 10 componentes dominantes do PCA foram usadas (63% da variância)

  • Três-fold cross-validation

  • 3750 redes neurais foram construídas (vote médio)


Visão Esquemática do Processo

Khan et al. (2001)


Análise dos Dados

Khan et al. (2001)

  • Arquitetura e parâmetros

    • Perceptron Linear (PL)

      • 10 entradas representando componentes do PCA

      • 4 nodos de saída – um para cada classe de tumor (EWS, BL, NB e RMS)

      • 44 parâmetros livres, incluindo quatro unidades de threshold

    • Treinamento realizado com o JETNET

      • =0.7; momentum=0.3

      • Taxa de aprendizado decrementada a cada iteração (0.99)

      • Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F)

      • Pesos atualizados a cada 10 épocas

      • No máximo 100 épocas


Observações

Khan et al. (2001)

  • Técnicas de diagnóstico de tumores são em geral baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas)

  • Alternativa:

    • Redes Neurais artificiais com dados de expressão gênica

  • Um dos primeiros trabalho a testar rigorosamente uma técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias

  • Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero

  • Dados

    • Tumores e linhagem celulares

    • Linhagens celulares para trinar RNs


Previsão de Classes de Funções

Predição da função biológica de um gene

Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições.

Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.


G1 G2GN-1GN

Exp 1

Exp 2

Exp 3

Expi

Exp E

Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs)

Conhecimento a priori sobre a função do gene

+


Padrões de Treino

Grupo A

Grupo A

Não Grupo A

{gene 1, 1}, {gene 2, 1},

… , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

SVMs (1/2)

Conhecimento a priori da função do gene

Genes que codificam

proteínas ribomosais


ea, eb, …

e1, e2,

… , eN-1, eN

Grupo A

Perfil de expressãode um gene desconhecido

Não Grupo A

?

ex

SVMs (2/2)

Padrões de Treino

{gene 1, 1}, {gene 2, 1},

… , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

Baseado nos dados de expressão

SVM treino

SVM teste


SVMs: Treinamento

Membros

Não membros

Separável com um hiperplano

no espaço de características

Não separável c/ um hiperplano no espaço de entradas


6 classes funcionais do MYGD: ciclo TCA, respiração, ribossomos citoplasmáticos,

proteasomos, histonas and protéinas hélice-volta-hélice

Previsão de Classes de Funções: SVMs

Brown et al. (2000)

2467 genes da levedura

Dados de Microarray

Exemplos de Treino

79 experimentos


Previsão de Classes de Funções: SVMs

Brown et al. (2000)

Resultados mostraram baixo número de falsos-positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão.


Outros Trabalhos

  • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.

    • Votação ponderada

  • Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1):68--74.

    • k vizinhos mais próximos


Análise de Dados de Expressão Gênica:Observação

  • Algoritmos de agrupamentos diferentes geram resultados diferentes

    • “Each clustering criterion imposes a certain structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered.” (P. D’haeseleer)

  • Em geral, não se pode afirmar que há uma técnica melhor do que a outra

    • Combinar resultados de diferentes técnicas


Análise de Dados de Expressão Gênica: Novas Direções

  • Combinar resultados de diferentes técnicas

  • Combinar dados de expressão com outras fontes de informação

    • Artigos publicados

    • Banco de dados de DNA & proteína

    • Perfis filogenéticos

    • Funções metabólicas

    • Anotações funcionais de estudos experimentais


Referências

  • Expressão Gênica:

    • Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição

    • Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research

    • Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição


Referências

  • Redes Neurais Artificiais:

    • Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall


Referências

  • Máquinas de Vetores Suporte:

    • Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press

    • Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28

    • Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag


Referências

  • Algoritmos de Agrupamento:

    • Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall.

    • Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31):264--323.

    • Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman.

    • Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag.

    • Quackenbush, J. (2001). Computational analysis of cDNA microarray data. Nature Reviews, 6(2):418--428.

    • Slonim, D. (2002). From patterns to pathways: gene expression data analysis comes of age. Nature Genetics, 32:502--508.


Referências

  • Descoberta de Padrões:

    • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.

    • Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96:2907--2912.

    • Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22:281--285.

    • Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):17--24.


Referências

  • Descoberta de Padrões:

    • Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286):531--537.

    • Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:503--511.


Referências

  • Descoberta de Classes:

    • Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7:673--679.

    • Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp. 262--267.


  • Login