t cnicas de aprendizado de m quina e dados de express o g nica
Download
Skip this Video
Download Presentation
Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Loading in 2 Seconds...

play fullscreen
1 / 49

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica - PowerPoint PPT Presentation


  • 128 Views
  • Uploaded on

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica. Marcílio C. P. de Souto DIMAp/UFRN. Dados de Expressão Gênica. AM e Dados de Expressão Gênica (1/2). Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica' - tomas


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
t cnicas de aprendizado de m quina e dados de express o g nica

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Marcílio C. P. de Souto

DIMAp/UFRN

am e dados de express o g nica 1 2
AM e Dados de Expressão Gênica (1/2)
  • Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados)
    • Algoritmos de agrupamento hierárquico
    • k-médias
    • Mapas auto-organizáveis
  • Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes)
    • Redes neurais artificiais
    • Mapas de vetores suporte
am e dados de express o g nica 2 2
AM e Dados de Expressão Gênica (2/2)
  • Desafios para os algoritmos de AM
    • Centenas de Amostras (exemplos) x Milhares de genes (características)
      • Overfitting (super-ajustamento aos dados)
    • Poucas Replicações & Alto Grau de Ruído
      • Alta variância
      • Valores faltosos
      • Exemplos de treinamento rotulados incorretamente
    • Bases de dados não balaceadas
agrupamento de dados de express o g nica
Agrupamento de Dados de Expressão Gênica
  • Agrupamento de genes
    • Identificação de genes co-expressos/co-regulados
    • Identificação de padrões temporais de expressão
    • Redução de redundância
  • Agrupamento de amostras
    • Identificação de novas classes de amostras biológicas
      • Novas classes de tumores
      • Novos tipos de células
    • Detecção de artefatos nos experimentos
agrupamento de genes
Agrupamento de Genes

Agrupamento de genes baseado nas suas expressões

Dado: um conjunto de genes de um organismo, em que cada gene é um padrão

Faça: Agrupe os genes baseado na similaridade de seus valores de expressão

genes agrupamento hier rquico 1 2
Genes: Agrupamento Hierárquico (1/2)
  • Eisen et al. (1998)
    • Trabalho pioneiro
    • Dados
      • 6621 genes da levedura submetidos a quatro situações distintas
        • Divisão celular e respostas a diferentes estresses ambientais
        • Quatro séries temporais com 79 instantes de tempo
        • Para o agrupamento foram usados apenas 2467 genes
      • Dados coletados por meio de microarrays de cDNA
    • Técnica utilizada
      • Agrupamento hierárquico
genes agrupamento hier rquico 2 2
Genes: Agrupamento Hierárquico (2/2)
  • Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média
  • Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson
    • Consegue detectar relacionamento inversos
    • Leva em consideração o deslocamento entre as curvas
  • Técnica antiga, também chamada UPGMA em análise filogenética
matriz de express o
A

B

C

D

Matriz de Expressão

Eisen et al. (1998)

experimentos

genes

correla o de pearson
Correlação de Pearson

Eisen et al. (1998)

matriz de correla o
A

B

genes

C

D

Matriz de Correlação

Eisen et al. (1998)

genes

experimentos

genes

encontrar a correla o m xima
experimentos

A

0.756

B

genes

genes

C

D

Encontrar a Correlação Máxima

Eisen et al. (1998)

genes

combine e calcule as correla es
experimentos

A

genes

B

genes

CD

Combine e Calcule as Correlações

Eisen et al. (1998)

genes

Como um efeito colateral, o algoritmo produz um dendograma

A B C D

an lise posterior
Análise Posterior

Eisen et al. (1998)

  • Seleção de aglomerados
  • Seleção de um ordenamento dos genes para visualização
  • Determinação dos rótulos do aglomerados
  • Determinação da significância dos aglomerados
resultados
Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma

(F) mitochondrial ribosome

(G) ATP synthesis

(H) chromatin structure

(I) ribosome and translation

(J) DNA replication

Resultados

Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95: 14863-14868

genes soms 1 2
A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura

Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al.

Genes: SOMs (1/2)

Tamayo et al. (1999)

  • Tamayo et al. (1999)
    • SOMs aplicados a dados sobre a diferenciação de células sanguíneas
  • Entradas:
    • Para validar o programa (GENECLUSTER)
    • Dados sobre o ciclo celular da levedura
      • Mesmos dados que Cho et al. (1998)
      • Dados coletados por meio de microarrays de oligonucleotídeos
      • 828 genes usados após filtro
        • Padrões normalizados
  • SOM: uma grade 5 x 6, i.e., 30 aglomerados
    • Distância euclidiana
genes soms 1 21
Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadasGenes: SOMs (1/2)

Tamayo et al. (1999)

  • Entradas:
    • Dados sobre a diferenciação de células sanguíneas
      • 4 linhagens de células hematopoéticas (HL-60, U937, Jurkat, NB4)
      • Dados coletados por meio de microarrays de oligonucleotídeos
      • 1036 genes usados após filtro
        • Padrões normalizados
  • SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados
    • Distância euclidiana
genes k m dias
Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionadosGenes: k-médias

Tavazoie et al. (1999)

  • Tavazoie et al. (1999)
  • Entradas:
    • Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos
    • Dados coletados por meio de microarrays de oligonucleotídeos
    • Utilzados apenas os 3000 genes que apresentaram maior variância
  • Foi utilizado o k-médias com a distância euclidiana para encontrar 10, 30 e 60 aglomerados
    • Para a análise foi escolhido o resultado do k-médias com k=30
agrupamento de amostras
Agrupamento de Amostras

Descoberta de novas classes de doenças

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.

amostras soms 1 2
Amostras: SOMs (1/2)
  • Golub et al. (1999)
    • Trabalho pioneiro
    • Dados
      • 38 amostras de medula óssea
        • 11 - Leucemia Mielóide Aguda (AML)
        • 27 - Leucemia Aguda Limfoblástica (ALL)
      • 6817 genes humanos
      • Dados coletados com arrays de oligonucleotídeos
    • Técnica utilizada
      • Mapas Auto-Organizáveis (SOMs)
amostras soms 2 2
Amostras: SOMs (2/2)
  • Golub et al. (1999)
    • Inicialmente usam um SOM 2x1, i.e., 2 aglomerados
    • Depois usam um SOM 4x1, i.e., 4 aglomerados
    • Diferentemente do trabalho de Tamayo et al. (1999),os mapas são uni-dimensionais
  • Similaridade entre genes é medida usando a distância euclidiana
    • Os dados são padronizados
slide22
Resultados mostram que a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori!

Descoberta: Dados AML-ALL com 2 Aglomerados

Golub et al. (1999)

Classe A1: maioria ALL (24/25 amostras)

Classe A2: maioria AML (10/13 amostras)

A2

A2

slide23
Resultados mostram que não só a distinção

AML-ALL poderia ter sido descoberta sem um

conhecimento biológico a priori, como também

entre as células ALL dos tipos B e T!

Descoberta: Dados AML-ALL com 4 Aglomerados

Golub et al. (1999)

Classe B1: AML

Classe B2: ALL Linhagem-T

Classe B3: ALL Linhagem-B

Classe B4: ALL Linhagem-B

B1

B2

B3

B4

amostras agrupamento hier rquico
Dois sub-tipos de DLBCL, antes desconhecidos, identificados. Sub-tipos correspondem aos prognósticos:
    • “GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes
    • “Activated B-like” -> 16% sobrevivência dos pacientes
Amostras: Agrupamento Hierárquico
  • Alizadeh et al. (2000)
    • Entrada
      • Dados de 96 experimentos com 4026 genes humanos
    • Os 96 experimentos foram realizados com biopsias de pacientes com linfoma difuso de grandes células B (DLBCL)
    • Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998).
outros trabalhos
Outros Trabalhos
  • Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado.
    • Agrupamento dinâmico
  • Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene expression data. Journal Immunol. Methods, 250(1/2):93--12.
    • Self-Organizing Tree Algorithm
  • Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp. 455--466.
    • Análise de componentes principais
  • Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp. 307--316.
previs o de classes
Previsão de Classes
  • Predição de classes de doenças
    • Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais
    • Diagnóstico de tecidos cancerosos e normais
    • Classificação de tipos diferentes de cânceres
      • Vários tumores diferentes têm a mesma aparência em exames histológicos
      • Diagnóstico é fundamental para o sucesso do tratamento
  • Predição da função biológica de um gene
previs o de classes de doen as
Previsão de Classes de Doenças

Predição de classes de doenças existentes

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.

previs o de classes de fun es redes neurais
Previsão de Classes de Funções: Redes Neurais
  • Khan et al. (2001)
  • Problema
    • SRBCTs
      • Neuroblastoma (NB)
      • Rhabdomyosarcoma (RMS)
      • Non Hodgkin lymphoma (NHL)
      • The Ewing family of tumors (EWS)
      • Todos têm aparência similar em exames histológico
      • Diagnóstico acurante é essencial
  • Abordagem
    • Redes Neurais Artificiais (RNs)
previs o de classes de fun es redes neurais1
Previsão de Classes de Funções: Redes Neurais

Khan et al. (2001)

  • Microarray de cDNA com 6567 genes
  • 63 exemplos de treinamento
    • Material da biopsia de tumores
    • Linhagens celulares
  • Filtro para um número mínimo de expressão
    • 2308 genes
  • Redução da dimensionalidade com PCA
    • 10 componentes dominantes do PCA foram usadas (63% da variância)
  • Três-fold cross-validation
  • 3750 redes neurais foram construídas (vote médio)
an lise dos dados
Análise dos Dados

Khan et al. (2001)

  • Arquitetura e parâmetros
    • Perceptron Linear (PL)
      • 10 entradas representando componentes do PCA
      • 4 nodos de saída – um para cada classe de tumor (EWS, BL, NB e RMS)
      • 44 parâmetros livres, incluindo quatro unidades de threshold
    • Treinamento realizado com o JETNET
      • =0.7; momentum=0.3
      • Taxa de aprendizado decrementada a cada iteração (0.99)
      • Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F)
      • Pesos atualizados a cada 10 épocas
      • No máximo 100 épocas
observa es
Observações

Khan et al. (2001)

  • Técnicas de diagnóstico de tumores são em geral baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas)
  • Alternativa:
    • Redes Neurais artificiais com dados de expressão gênica
  • Um dos primeiros trabalho a testar rigorosamente uma técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias
  • Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero
  • Dados
    • Tumores e linhagem celulares
    • Linhagens celulares para trinar RNs
previs o de classes de fun es
Previsão de Classes de Funções

Predição da função biológica de um gene

Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições.

Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.

previs o de classes de fun es m quinas de vetores suporte svms
G1 G2GN-1GN

Exp 1

Exp 2

Exp 3

Expi

Exp E

Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs)

Conhecimento a priori sobre a função do gene

+

svms 1 2
Padrões de Treino

Grupo A

Grupo A

Não Grupo A

{gene 1, 1}, {gene 2, 1},

… , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

SVMs (1/2)

Conhecimento a priori da função do gene

Genes que codificam

proteínas ribomosais

svms 2 2
ea, eb, …

e1, e2,

… , eN-1, eN

Grupo A

Perfil de expressãode um gene desconhecido

Não Grupo A

?

ex

SVMs (2/2)

Padrões de Treino

{gene 1, 1}, {gene 2, 1},

… , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

Baseado nos dados de expressão

SVM treino

SVM teste

svms treinamento
SVMs: Treinamento

Membros

Não membros

Separável com um hiperplano

no espaço de características

Não separável c/ um hiperplano no espaço de entradas

previs o de classes de fun es svms
6 classes funcionais do MYGD: ciclo TCA, respiração, ribossomos citoplasmáticos,

proteasomos, histonas and protéinas hélice-volta-hélice

Previsão de Classes de Funções: SVMs

Brown et al. (2000)

2467 genes da levedura

Dados de Microarray

Exemplos de Treino

79 experimentos

previs o de classes de fun es svms1
Previsão de Classes de Funções: SVMs

Brown et al. (2000)

Resultados mostraram baixo número de falsos-positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão.

outros trabalhos1
Outros Trabalhos
  • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.
    • Votação ponderada
  • Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1):68--74.
    • k vizinhos mais próximos
an lise de dados de express o g nica observa o
Análise de Dados de Expressão Gênica:Observação
  • Algoritmos de agrupamentos diferentes geram resultados diferentes
    • “Each clustering criterion imposes a certain structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered.” (P. D’haeseleer)
  • Em geral, não se pode afirmar que há uma técnica melhor do que a outra
    • Combinar resultados de diferentes técnicas
an lise de dados de express o g nica novas dire es
Análise de Dados de Expressão Gênica: Novas Direções
  • Combinar resultados de diferentes técnicas
  • Combinar dados de expressão com outras fontes de informação
    • Artigos publicados
    • Banco de dados de DNA & proteína
    • Perfis filogenéticos
    • Funções metabólicas
    • Anotações funcionais de estudos experimentais
refer ncias
Referências
  • Expressão Gênica:
    • Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição
    • Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research
    • Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição
refer ncias1
Referências
  • Redes Neurais Artificiais:
    • Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall
refer ncias2
Referências
  • Máquinas de Vetores Suporte:
    • Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press
    • Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28
    • Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag
refer ncias3
Referências
  • Algoritmos de Agrupamento:
    • Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall.
    • Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31):264--323.
    • Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman.
    • Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag.
    • Quackenbush, J. (2001). Computational analysis of cDNA microarray data. Nature Reviews, 6(2):418--428.
    • Slonim, D. (2002). From patterns to pathways: gene expression data analysis comes of age. Nature Genetics, 32:502--508.
refer ncias4
Referências
  • Descoberta de Padrões:
    • Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.
    • Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96:2907--2912.
    • Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22:281--285.
    • Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):17--24.
refer ncias5
Referências
  • Descoberta de Padrões:
    • Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286):531--537.
    • Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:503--511.
refer ncias6
Referências
  • Descoberta de Classes:
    • Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7:673--679.
    • Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp. 262--267.
ad