T cnicas de aprendizado de m quina e dados de express o g nica
Download
1 / 49

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica - PowerPoint PPT Presentation


  • 126 Views
  • Uploaded on

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica. Marcílio C. P. de Souto DIMAp/UFRN. Dados de Expressão Gênica. AM e Dados de Expressão Gênica (1/2). Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica' - tomas


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
T cnicas de aprendizado de m quina e dados de express o g nica

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Marcílio C. P. de Souto

DIMAp/UFRN



Am e dados de express o g nica 1 2
AM e Dados de Expressão Gênica (1/2) Gênica

  • Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados)

    • Algoritmos de agrupamento hierárquico

    • k-médias

    • Mapas auto-organizáveis

  • Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes)

    • Redes neurais artificiais

    • Mapas de vetores suporte


Am e dados de express o g nica 2 2
AM e Dados de Expressão Gênica (2/2) Gênica

  • Desafios para os algoritmos de AM

    • Centenas de Amostras (exemplos) x Milhares de genes (características)

      • Overfitting (super-ajustamento aos dados)

    • Poucas Replicações & Alto Grau de Ruído

      • Alta variância

      • Valores faltosos

      • Exemplos de treinamento rotulados incorretamente

    • Bases de dados não balaceadas


Agrupamento de dados de express o g nica
Agrupamento de Dados de Expressão Gênica Gênica

  • Agrupamento de genes

    • Identificação de genes co-expressos/co-regulados

    • Identificação de padrões temporais de expressão

    • Redução de redundância

  • Agrupamento de amostras

    • Identificação de novas classes de amostras biológicas

      • Novas classes de tumores

      • Novos tipos de células

    • Detecção de artefatos nos experimentos


Agrupamento de genes
Agrupamento de Genes Gênica

Agrupamento de genes baseado nas suas expressões

Dado: um conjunto de genes de um organismo, em que cada gene é um padrão

Faça: Agrupe os genes baseado na similaridade de seus valores de expressão


Genes agrupamento hier rquico 1 2
Genes: Agrupamento Hierárquico (1/2) Gênica

  • Eisen et al. (1998)

    • Trabalho pioneiro

    • Dados

      • 6621 genes da levedura submetidos a quatro situações distintas

        • Divisão celular e respostas a diferentes estresses ambientais

        • Quatro séries temporais com 79 instantes de tempo

        • Para o agrupamento foram usados apenas 2467 genes

      • Dados coletados por meio de microarrays de cDNA

    • Técnica utilizada

      • Agrupamento hierárquico


Genes agrupamento hier rquico 2 2
Genes: Agrupamento Hierárquico (2/2) Gênica

  • Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média

  • Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson

    • Consegue detectar relacionamento inversos

    • Leva em consideração o deslocamento entre as curvas

  • Técnica antiga, também chamada UPGMA em análise filogenética


Matriz de express o

A Gênica

B

C

D

Matriz de Expressão

Eisen et al. (1998)

experimentos

genes


Correla o de pearson
Correlação de Pearson Gênica

Eisen et al. (1998)


Matriz de correla o

A Gênica

B

genes

C

D

Matriz de Correlação

Eisen et al. (1998)

genes

experimentos

genes


Encontrar a correla o m xima

experimentos Gênica

A

0.756

B

genes

genes

C

D

Encontrar a Correlação Máxima

Eisen et al. (1998)

genes


Combine e calcule as correla es

experimentos Gênica

A

genes

B

genes

CD

Combine e Calcule as Correlações

Eisen et al. (1998)

genes

Como um efeito colateral, o algoritmo produz um dendograma

A B C D


An lise posterior
Análise Posterior Gênica

Eisen et al. (1998)

  • Seleção de aglomerados

  • Seleção de um ordenamento dos genes para visualização

  • Determinação dos rótulos do aglomerados

  • Determinação da significância dos aglomerados


Resultados

Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma

(F) mitochondrial ribosome

(G) ATP synthesis

(H) chromatin structure

(I) ribosome and translation

(J) DNA replication

Resultados

Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95: 14863-14868


Genes soms 1 2

A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura

Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al.

Genes: SOMs (1/2)

Tamayo et al. (1999)

  • Tamayo et al. (1999)

    • SOMs aplicados a dados sobre a diferenciação de células sanguíneas

  • Entradas:

    • Para validar o programa (GENECLUSTER)

    • Dados sobre o ciclo celular da levedura

      • Mesmos dados que Cho et al. (1998)

      • Dados coletados por meio de microarrays de oligonucleotídeos

      • 828 genes usados após filtro

        • Padrões normalizados

  • SOM: uma grade 5 x 6, i.e., 30 aglomerados

    • Distância euclidiana


Genes soms 1 21

Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadas

Genes: SOMs (1/2)

Tamayo et al. (1999)

  • Entradas:

    • Dados sobre a diferenciação de células sanguíneas

      • 4 linhagens de células hematopoéticas (HL-60, U937, Jurkat, NB4)

      • Dados coletados por meio de microarrays de oligonucleotídeos

      • 1036 genes usados após filtro

        • Padrões normalizados

  • SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados

    • Distância euclidiana


Genes k m dias

Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionados

Genes: k-médias

Tavazoie et al. (1999)

  • Tavazoie et al. (1999)

  • Entradas:

    • Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos

    • Dados coletados por meio de microarrays de oligonucleotídeos

    • Utilzados apenas os 3000 genes que apresentaram maior variância

  • Foi utilizado o k-médias com a distância euclidiana para encontrar 10, 30 e 60 aglomerados

    • Para a análise foi escolhido o resultado do k-médias com k=30


Agrupamento de amostras
Agrupamento de Amostras formados por genes funcionalmente relacionados

Descoberta de novas classes de doenças

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.


Amostras soms 1 2
Amostras: SOMs (1/2) formados por genes funcionalmente relacionados

  • Golub et al. (1999)

    • Trabalho pioneiro

    • Dados

      • 38 amostras de medula óssea

        • 11 - Leucemia Mielóide Aguda (AML)

        • 27 - Leucemia Aguda Limfoblástica (ALL)

      • 6817 genes humanos

      • Dados coletados com arrays de oligonucleotídeos

    • Técnica utilizada

      • Mapas Auto-Organizáveis (SOMs)


Amostras soms 2 2
Amostras: SOMs (2/2) formados por genes funcionalmente relacionados

  • Golub et al. (1999)

    • Inicialmente usam um SOM 2x1, i.e., 2 aglomerados

    • Depois usam um SOM 4x1, i.e., 4 aglomerados

    • Diferentemente do trabalho de Tamayo et al. (1999),os mapas são uni-dimensionais

  • Similaridade entre genes é medida usando a distância euclidiana

    • Os dados são padronizados


Resultados mostram que a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori!

Descoberta: Dados AML-ALL com 2 Aglomerados

Golub et al. (1999)

Classe A1: maioria ALL (24/25 amostras)

Classe A2: maioria AML (10/13 amostras)

A2

A2


Resultados mostram que não só a distinção sido descoberta sem um conhecimento biológico

AML-ALL poderia ter sido descoberta sem um

conhecimento biológico a priori, como também

entre as células ALL dos tipos B e T!

Descoberta: Dados AML-ALL com 4 Aglomerados

Golub et al. (1999)

Classe B1: AML

Classe B2: ALL Linhagem-T

Classe B3: ALL Linhagem-B

Classe B4: ALL Linhagem-B

B1

B2

B3

B4


Amostras agrupamento hier rquico

  • Dois sub-tipos de DLBCL, antes desconhecidos, identificados. Sub-tipos correspondem aos prognósticos:

    • “GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes

    • “Activated B-like” -> 16% sobrevivência dos pacientes

Amostras: Agrupamento Hierárquico

  • Alizadeh et al. (2000)

    • Entrada

      • Dados de 96 experimentos com 4026 genes humanos

    • Os 96 experimentos foram realizados com biopsias de pacientes com linfoma difuso de grandes células B (DLBCL)

    • Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998).


Outros trabalhos
Outros Trabalhos identificados. Sub-tipos correspondem aos prognósticos:

  • Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado.

    • Agrupamento dinâmico

  • Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene expression data. Journal Immunol. Methods, 250(1/2):93--12.

    • Self-Organizing Tree Algorithm

  • Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp. 455--466.

    • Análise de componentes principais

  • Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp. 307--316.


Previs o de classes
Previsão de Classes identificados. Sub-tipos correspondem aos prognósticos:

  • Predição de classes de doenças

    • Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais

    • Diagnóstico de tecidos cancerosos e normais

    • Classificação de tipos diferentes de cânceres

      • Vários tumores diferentes têm a mesma aparência em exames histológicos

      • Diagnóstico é fundamental para o sucesso do tratamento

  • Predição da função biológica de um gene


Previs o de classes de doen as
Previsão de Classes de Doenças identificados. Sub-tipos correspondem aos prognósticos:

Predição de classes de doenças existentes

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.


Previs o de classes de fun es redes neurais
Previsão de Classes de Funções: Redes Neurais identificados. Sub-tipos correspondem aos prognósticos:

  • Khan et al. (2001)

  • Problema

    • SRBCTs

      • Neuroblastoma (NB)

      • Rhabdomyosarcoma (RMS)

      • Non Hodgkin lymphoma (NHL)

      • The Ewing family of tumors (EWS)

      • Todos têm aparência similar em exames histológico

      • Diagnóstico acurante é essencial

  • Abordagem

    • Redes Neurais Artificiais (RNs)


Previs o de classes de fun es redes neurais1
Previsão de Classes de Funções: Redes Neurais identificados. Sub-tipos correspondem aos prognósticos:

Khan et al. (2001)

  • Microarray de cDNA com 6567 genes

  • 63 exemplos de treinamento

    • Material da biopsia de tumores

    • Linhagens celulares

  • Filtro para um número mínimo de expressão

    • 2308 genes

  • Redução da dimensionalidade com PCA

    • 10 componentes dominantes do PCA foram usadas (63% da variância)

  • Três-fold cross-validation

  • 3750 redes neurais foram construídas (vote médio)


Vis o esquem tica do processo
Visão Esquem identificados. Sub-tipos correspondem aos prognósticos: ática do Processo

Khan et al. (2001)


An lise dos dados
An identificados. Sub-tipos correspondem aos prognósticos: álise dos Dados

Khan et al. (2001)

  • Arquitetura e parâmetros

    • Perceptron Linear (PL)

      • 10 entradas representando componentes do PCA

      • 4 nodos de saída – um para cada classe de tumor (EWS, BL, NB e RMS)

      • 44 parâmetros livres, incluindo quatro unidades de threshold

    • Treinamento realizado com o JETNET

      • =0.7; momentum=0.3

      • Taxa de aprendizado decrementada a cada iteração (0.99)

      • Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F)

      • Pesos atualizados a cada 10 épocas

      • No máximo 100 épocas


Observa es
Observa identificados. Sub-tipos correspondem aos prognósticos: ções

Khan et al. (2001)

  • Técnicas de diagnóstico de tumores são em geral baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas)

  • Alternativa:

    • Redes Neurais artificiais com dados de expressão gênica

  • Um dos primeiros trabalho a testar rigorosamente uma técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias

  • Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero

  • Dados

    • Tumores e linhagem celulares

    • Linhagens celulares para trinar RNs


Previs o de classes de fun es
Previsão de Classes de Funções identificados. Sub-tipos correspondem aos prognósticos:

Predição da função biológica de um gene

Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições.

Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.


Previs o de classes de fun es m quinas de vetores suporte svms

G identificados. Sub-tipos correspondem aos prognósticos: 1 G2GN-1GN

Exp 1

Exp 2

Exp 3

Expi

Exp E

Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs)

Conhecimento a priori sobre a função do gene

+


Svms 1 2

Padrões de Treino identificados. Sub-tipos correspondem aos prognósticos:

Grupo A

Grupo A

Não Grupo A

{gene 1, 1}, {gene 2, 1},

… , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

SVMs (1/2)

Conhecimento a priori da função do gene

Genes que codificam

proteínas ribomosais


Svms 2 2

e identificados. Sub-tipos correspondem aos prognósticos: a, eb, …

e1, e2,

… , eN-1, eN

Grupo A

Perfil de expressãode um gene desconhecido

Não Grupo A

?

ex

SVMs (2/2)

Padrões de Treino

{gene 1, 1}, {gene 2, 1},

… , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

Baseado nos dados de expressão

SVM treino

SVM teste


Svms treinamento
SVMs: Treinamento identificados. Sub-tipos correspondem aos prognósticos:

Membros

Não membros

Separável com um hiperplano

no espaço de características

Não separável c/ um hiperplano no espaço de entradas


Previs o de classes de fun es svms

6 classes funcionais do MYGD: identificados. Sub-tipos correspondem aos prognósticos: ciclo TCA, respiração, ribossomos citoplasmáticos,

proteasomos, histonas and protéinas hélice-volta-hélice

Previsão de Classes de Funções: SVMs

Brown et al. (2000)

2467 genes da levedura

Dados de Microarray

Exemplos de Treino

79 experimentos


Previs o de classes de fun es svms1
Previsão de Classes de Funções: identificados. Sub-tipos correspondem aos prognósticos: SVMs

Brown et al. (2000)

Resultados mostraram baixo número de falsos-positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão.


Outros trabalhos1
Outros Trabalhos identificados. Sub-tipos correspondem aos prognósticos:

  • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.

    • Votação ponderada

  • Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1):68--74.

    • k vizinhos mais próximos


An lise de dados de express o g nica observa o
Análise de Dados de Expressão Gênica:Observação identificados. Sub-tipos correspondem aos prognósticos:

  • Algoritmos de agrupamentos diferentes geram resultados diferentes

    • “Each clustering criterion imposes a certain structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered.” (P. D’haeseleer)

  • Em geral, não se pode afirmar que há uma técnica melhor do que a outra

    • Combinar resultados de diferentes técnicas


An lise de dados de express o g nica novas dire es
Análise de Dados de Expressão Gênica: Novas Direções identificados. Sub-tipos correspondem aos prognósticos:

  • Combinar resultados de diferentes técnicas

  • Combinar dados de expressão com outras fontes de informação

    • Artigos publicados

    • Banco de dados de DNA & proteína

    • Perfis filogenéticos

    • Funções metabólicas

    • Anotações funcionais de estudos experimentais


Refer ncias
Referências identificados. Sub-tipos correspondem aos prognósticos:

  • Expressão Gênica:

    • Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição

    • Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research

    • Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição


Refer ncias1
Referências identificados. Sub-tipos correspondem aos prognósticos:

  • Redes Neurais Artificiais:

    • Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall


Refer ncias2
Referências identificados. Sub-tipos correspondem aos prognósticos:

  • Máquinas de Vetores Suporte:

    • Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press

    • Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28

    • Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag


Refer ncias3
Referências identificados. Sub-tipos correspondem aos prognósticos:

  • Algoritmos de Agrupamento:

    • Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall.

    • Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31):264--323.

    • Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman.

    • Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag.

    • Quackenbush, J. (2001). Computational analysis of cDNA microarray data. Nature Reviews, 6(2):418--428.

    • Slonim, D. (2002). From patterns to pathways: gene expression data analysis comes of age. Nature Genetics, 32:502--508.


Refer ncias4
Referências identificados. Sub-tipos correspondem aos prognósticos:

  • Descoberta de Padrões:

    • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.

    • Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96:2907--2912.

    • Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22:281--285.

    • Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):17--24.


Refer ncias5
Referências identificados. Sub-tipos correspondem aos prognósticos:

  • Descoberta de Padrões:

    • Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286):531--537.

    • Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:503--511.


Refer ncias6
Referências identificados. Sub-tipos correspondem aos prognósticos:

  • Descoberta de Classes:

    • Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7:673--679.

    • Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp. 262--267.


ad