T cnicas de aprendizado de m quina e dados de express o g nica
This presentation is the property of its rightful owner.
Sponsored Links
1 / 49

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica PowerPoint PPT Presentation


  • 77 Views
  • Uploaded on
  • Presentation posted in: General

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica. Marcílio C. P. de Souto DIMAp/UFRN. Dados de Expressão Gênica. AM e Dados de Expressão Gênica (1/2). Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados)

Download Presentation

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


T cnicas de aprendizado de m quina e dados de express o g nica

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Marcílio C. P. de Souto

DIMAp/UFRN


Dados de express o g nica

Dados de Expressão Gênica


Am e dados de express o g nica 1 2

AM e Dados de Expressão Gênica (1/2)

  • Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados)

    • Algoritmos de agrupamento hierárquico

    • k-médias

    • Mapas auto-organizáveis

  • Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes)

    • Redes neurais artificiais

    • Mapas de vetores suporte


Am e dados de express o g nica 2 2

AM e Dados de Expressão Gênica (2/2)

  • Desafios para os algoritmos de AM

    • Centenas de Amostras (exemplos) x Milhares de genes (características)

      • Overfitting (super-ajustamento aos dados)

    • Poucas Replicações & Alto Grau de Ruído

      • Alta variância

      • Valores faltosos

      • Exemplos de treinamento rotulados incorretamente

    • Bases de dados não balaceadas


Agrupamento de dados de express o g nica

Agrupamento de Dados de Expressão Gênica

  • Agrupamento de genes

    • Identificação de genes co-expressos/co-regulados

    • Identificação de padrões temporais de expressão

    • Redução de redundância

  • Agrupamento de amostras

    • Identificação de novas classes de amostras biológicas

      • Novas classes de tumores

      • Novos tipos de células

    • Detecção de artefatos nos experimentos


Agrupamento de genes

Agrupamento de Genes

Agrupamento de genes baseado nas suas expressões

Dado: um conjunto de genes de um organismo, em que cada gene é um padrão

Faça: Agrupe os genes baseado na similaridade de seus valores de expressão


Genes agrupamento hier rquico 1 2

Genes: Agrupamento Hierárquico (1/2)

  • Eisen et al. (1998)

    • Trabalho pioneiro

    • Dados

      • 6621 genes da levedura submetidos a quatro situações distintas

        • Divisão celular e respostas a diferentes estresses ambientais

        • Quatro séries temporais com 79 instantes de tempo

        • Para o agrupamento foram usados apenas 2467 genes

      • Dados coletados por meio de microarrays de cDNA

    • Técnica utilizada

      • Agrupamento hierárquico


Genes agrupamento hier rquico 2 2

Genes: Agrupamento Hierárquico (2/2)

  • Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média

  • Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson

    • Consegue detectar relacionamento inversos

    • Leva em consideração o deslocamento entre as curvas

  • Técnica antiga, também chamada UPGMA em análise filogenética


Matriz de express o

A

B

C

D

Matriz de Expressão

Eisen et al. (1998)

experimentos

genes


Correla o de pearson

Correlação de Pearson

Eisen et al. (1998)


Matriz de correla o

A

B

genes

C

D

Matriz de Correlação

Eisen et al. (1998)

genes

experimentos

genes


Encontrar a correla o m xima

experimentos

A

0.756

B

genes

genes

C

D

Encontrar a Correlação Máxima

Eisen et al. (1998)

genes


Combine e calcule as correla es

experimentos

A

genes

B

genes

CD

Combine e Calcule as Correlações

Eisen et al. (1998)

genes

Como um efeito colateral, o algoritmo produz um dendograma

A B C D


An lise posterior

Análise Posterior

Eisen et al. (1998)

  • Seleção de aglomerados

  • Seleção de um ordenamento dos genes para visualização

  • Determinação dos rótulos do aglomerados

  • Determinação da significância dos aglomerados


Resultados

Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma

(F) mitochondrial ribosome

(G) ATP synthesis

(H) chromatin structure

(I) ribosome and translation

(J) DNA replication

Resultados

Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95: 14863-14868


Genes soms 1 2

A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura

Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al.

Genes: SOMs (1/2)

Tamayo et al. (1999)

  • Tamayo et al. (1999)

    • SOMs aplicados a dados sobre a diferenciação de células sanguíneas

  • Entradas:

    • Para validar o programa (GENECLUSTER)

    • Dados sobre o ciclo celular da levedura

      • Mesmos dados que Cho et al. (1998)

      • Dados coletados por meio de microarrays de oligonucleotídeos

      • 828 genes usados após filtro

        • Padrões normalizados

  • SOM: uma grade 5 x 6, i.e., 30 aglomerados

    • Distância euclidiana


Genes soms 1 21

Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadas

Genes: SOMs (1/2)

Tamayo et al. (1999)

  • Entradas:

    • Dados sobre a diferenciação de células sanguíneas

      • 4 linhagens de células hematopoéticas (HL-60, U937, Jurkat, NB4)

      • Dados coletados por meio de microarrays de oligonucleotídeos

      • 1036 genes usados após filtro

        • Padrões normalizados

  • SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados

    • Distância euclidiana


Genes k m dias

Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionados

Genes: k-médias

Tavazoie et al. (1999)

  • Tavazoie et al. (1999)

  • Entradas:

    • Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos

    • Dados coletados por meio de microarrays de oligonucleotídeos

    • Utilzados apenas os 3000 genes que apresentaram maior variância

  • Foi utilizado o k-médias com a distância euclidiana para encontrar 10, 30 e 60 aglomerados

    • Para a análise foi escolhido o resultado do k-médias com k=30


Agrupamento de amostras

Agrupamento de Amostras

Descoberta de novas classes de doenças

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.


Amostras soms 1 2

Amostras: SOMs (1/2)

  • Golub et al. (1999)

    • Trabalho pioneiro

    • Dados

      • 38 amostras de medula óssea

        • 11 - Leucemia Mielóide Aguda (AML)

        • 27 - Leucemia Aguda Limfoblástica (ALL)

      • 6817 genes humanos

      • Dados coletados com arrays de oligonucleotídeos

    • Técnica utilizada

      • Mapas Auto-Organizáveis (SOMs)


Amostras soms 2 2

Amostras: SOMs (2/2)

  • Golub et al. (1999)

    • Inicialmente usam um SOM 2x1, i.e., 2 aglomerados

    • Depois usam um SOM 4x1, i.e., 4 aglomerados

    • Diferentemente do trabalho de Tamayo et al. (1999),os mapas são uni-dimensionais

  • Similaridade entre genes é medida usando a distância euclidiana

    • Os dados são padronizados


T cnicas de aprendizado de m quina e dados de express o g nica

Resultados mostram que a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori!

Descoberta: Dados AML-ALL com 2 Aglomerados

Golub et al. (1999)

Classe A1: maioria ALL (24/25 amostras)

Classe A2: maioria AML (10/13 amostras)

A2

A2


T cnicas de aprendizado de m quina e dados de express o g nica

Resultados mostram que não só a distinção

AML-ALL poderia ter sido descoberta sem um

conhecimento biológico a priori, como também

entre as células ALL dos tipos B e T!

Descoberta: Dados AML-ALL com 4 Aglomerados

Golub et al. (1999)

Classe B1: AML

Classe B2: ALL Linhagem-T

Classe B3: ALL Linhagem-B

Classe B4: ALL Linhagem-B

B1

B2

B3

B4


Amostras agrupamento hier rquico

  • Dois sub-tipos de DLBCL, antes desconhecidos, identificados. Sub-tipos correspondem aos prognósticos:

    • “GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes

    • “Activated B-like” -> 16% sobrevivência dos pacientes

Amostras: Agrupamento Hierárquico

  • Alizadeh et al. (2000)

    • Entrada

      • Dados de 96 experimentos com 4026 genes humanos

    • Os 96 experimentos foram realizados com biopsias de pacientes com linfoma difuso de grandes células B (DLBCL)

    • Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998).


Outros trabalhos

Outros Trabalhos

  • Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado.

    • Agrupamento dinâmico

  • Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene expression data. Journal Immunol. Methods, 250(1/2):93--12.

    • Self-Organizing Tree Algorithm

  • Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp. 455--466.

    • Análise de componentes principais

  • Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp. 307--316.


Previs o de classes

Previsão de Classes

  • Predição de classes de doenças

    • Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais

    • Diagnóstico de tecidos cancerosos e normais

    • Classificação de tipos diferentes de cânceres

      • Vários tumores diferentes têm a mesma aparência em exames histológicos

      • Diagnóstico é fundamental para o sucesso do tratamento

  • Predição da função biológica de um gene


Previs o de classes de doen as

Previsão de Classes de Doenças

Predição de classes de doenças existentes

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.


Previs o de classes de fun es redes neurais

Previsão de Classes de Funções: Redes Neurais

  • Khan et al. (2001)

  • Problema

    • SRBCTs

      • Neuroblastoma (NB)

      • Rhabdomyosarcoma (RMS)

      • Non Hodgkin lymphoma (NHL)

      • The Ewing family of tumors (EWS)

      • Todos têm aparência similar em exames histológico

      • Diagnóstico acurante é essencial

  • Abordagem

    • Redes Neurais Artificiais (RNs)


Previs o de classes de fun es redes neurais1

Previsão de Classes de Funções: Redes Neurais

Khan et al. (2001)

  • Microarray de cDNA com 6567 genes

  • 63 exemplos de treinamento

    • Material da biopsia de tumores

    • Linhagens celulares

  • Filtro para um número mínimo de expressão

    • 2308 genes

  • Redução da dimensionalidade com PCA

    • 10 componentes dominantes do PCA foram usadas (63% da variância)

  • Três-fold cross-validation

  • 3750 redes neurais foram construídas (vote médio)


Vis o esquem tica do processo

Visão Esquemática do Processo

Khan et al. (2001)


An lise dos dados

Análise dos Dados

Khan et al. (2001)

  • Arquitetura e parâmetros

    • Perceptron Linear (PL)

      • 10 entradas representando componentes do PCA

      • 4 nodos de saída – um para cada classe de tumor (EWS, BL, NB e RMS)

      • 44 parâmetros livres, incluindo quatro unidades de threshold

    • Treinamento realizado com o JETNET

      • =0.7; momentum=0.3

      • Taxa de aprendizado decrementada a cada iteração (0.99)

      • Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F)

      • Pesos atualizados a cada 10 épocas

      • No máximo 100 épocas


Observa es

Observações

Khan et al. (2001)

  • Técnicas de diagnóstico de tumores são em geral baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas)

  • Alternativa:

    • Redes Neurais artificiais com dados de expressão gênica

  • Um dos primeiros trabalho a testar rigorosamente uma técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias

  • Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero

  • Dados

    • Tumores e linhagem celulares

    • Linhagens celulares para trinar RNs


Previs o de classes de fun es

Previsão de Classes de Funções

Predição da função biológica de um gene

Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições.

Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.


Previs o de classes de fun es m quinas de vetores suporte svms

G1 G2GN-1GN

Exp 1

Exp 2

Exp 3

Expi

Exp E

Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs)

Conhecimento a priori sobre a função do gene

+


Svms 1 2

Padrões de Treino

Grupo A

Grupo A

Não Grupo A

{gene 1, 1}, {gene 2, 1},

… , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

SVMs (1/2)

Conhecimento a priori da função do gene

Genes que codificam

proteínas ribomosais


Svms 2 2

ea, eb, …

e1, e2,

… , eN-1, eN

Grupo A

Perfil de expressãode um gene desconhecido

Não Grupo A

?

ex

SVMs (2/2)

Padrões de Treino

{gene 1, 1}, {gene 2, 1},

… , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

Baseado nos dados de expressão

SVM treino

SVM teste


Svms treinamento

SVMs: Treinamento

Membros

Não membros

Separável com um hiperplano

no espaço de características

Não separável c/ um hiperplano no espaço de entradas


Previs o de classes de fun es svms

6 classes funcionais do MYGD: ciclo TCA, respiração, ribossomos citoplasmáticos,

proteasomos, histonas and protéinas hélice-volta-hélice

Previsão de Classes de Funções: SVMs

Brown et al. (2000)

2467 genes da levedura

Dados de Microarray

Exemplos de Treino

79 experimentos


Previs o de classes de fun es svms1

Previsão de Classes de Funções: SVMs

Brown et al. (2000)

Resultados mostraram baixo número de falsos-positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão.


Outros trabalhos1

Outros Trabalhos

  • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.

    • Votação ponderada

  • Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1):68--74.

    • k vizinhos mais próximos


An lise de dados de express o g nica observa o

Análise de Dados de Expressão Gênica:Observação

  • Algoritmos de agrupamentos diferentes geram resultados diferentes

    • “Each clustering criterion imposes a certain structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered.” (P. D’haeseleer)

  • Em geral, não se pode afirmar que há uma técnica melhor do que a outra

    • Combinar resultados de diferentes técnicas


An lise de dados de express o g nica novas dire es

Análise de Dados de Expressão Gênica: Novas Direções

  • Combinar resultados de diferentes técnicas

  • Combinar dados de expressão com outras fontes de informação

    • Artigos publicados

    • Banco de dados de DNA & proteína

    • Perfis filogenéticos

    • Funções metabólicas

    • Anotações funcionais de estudos experimentais


Refer ncias

Referências

  • Expressão Gênica:

    • Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição

    • Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research

    • Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição


Refer ncias1

Referências

  • Redes Neurais Artificiais:

    • Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall


Refer ncias2

Referências

  • Máquinas de Vetores Suporte:

    • Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press

    • Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28

    • Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag


Refer ncias3

Referências

  • Algoritmos de Agrupamento:

    • Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall.

    • Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31):264--323.

    • Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman.

    • Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag.

    • Quackenbush, J. (2001). Computational analysis of cDNA microarray data. Nature Reviews, 6(2):418--428.

    • Slonim, D. (2002). From patterns to pathways: gene expression data analysis comes of age. Nature Genetics, 32:502--508.


Refer ncias4

Referências

  • Descoberta de Padrões:

    • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.

    • Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96:2907--2912.

    • Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22:281--285.

    • Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):17--24.


Refer ncias5

Referências

  • Descoberta de Padrões:

    • Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286):531--537.

    • Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:503--511.


Refer ncias6

Referências

  • Descoberta de Classes:

    • Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7:673--679.

    • Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp. 262--267.


  • Login