1 / 21

Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays

Centro de Estatística e Aplicações da Universidade de Lisboa. Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays. Sílvia Pedro Rebouças smdpedro@gmail.com. 20/02/2010. Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL)

vevina
Download Presentation

Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Centro de Estatística e Aplicações da Universidade de Lisboa Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Sílvia Pedro Rebouças smdpedro@gmail.com 20/02/2010 Orientadora:Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL)

  2. Sumário CEAUL Sílvia Pedro Rebouças 1. Introdução 2. Objectivos 3. Estado da arte 4. Aplicação 5. Referências bibliográficas

  3. 1. Introdução Biologia • Necessidade de tratar conjuntos de dados complexos, com um número muito elevado de variáveis (p) para um número geralmente reduzido de observações (n). Aprendizagem Automática Estatística CEAUL Sílvia Pedro Rebouças Monitorização do nível de expressão de milhares de genes em simultâneo, através de microarrays.

  4. Classificação Supervisionada Não supervisionada CEAUL Sílvia Pedro Rebouças • Os estudos desenvolvidos na área da análise de dados de microarrays tentam dar resposta a 3 questões fundamentais (Stekel, 2003): • Quais os genes com expressão diferencial num conjunto de dados relativamente a outro? • Quais as relações presentes entre os genes ou entre os indivíduos em estudo? • Como classificar indivíduos tendo por base as suas medidas de expressão genética?

  5. CEAUL Sílvia Pedro Rebouças • Classificação Supervisionada: • X é uma matriz contendo a informação referente à quantificação da expressão de p genes para n indivíduos. • xij representa o nível de expressão do j-ésimo gene (variável) para o i-ésimo indivíduo (observação). • yi identifica o grupo a que pertence o indivíduo. • Para cada indivíduo têm-se xi = (xi1, ..., xip) e yi. • Pretende-se treinar classificadores numa amostra de modelação (learning set) L = {(x1, y1), …, (xnL, ynL)} e utilizá-los para classificar novas amostras, denominadas amostras de validação ou teste (test set) T = {x1, …, xnT}

  6. 2. Objectivos CEAUL Sílvia Pedro Rebouças • Objectivo geral: Implementar, testar e comparar técnicas de classificação supervisionada aplicadas à análise de dados de microarrays. • Objectivos específicos: • Implementar, testar e comparar técnicas de: • Pré-processamento • Normalização • Imputação de valores omissos • Redução de dimensionalidade • Classificação supervisionada • 2 grupos ou mais • Séries temporais • Avaliação da qualidade do ajustamento e da capacidade preditiva

  7. CEAUL Sílvia Pedro Rebouças • Desenvolver aplicações em R: A Language and Environment for Statistical Computing (http://www.R-project.org) capazes de implementar os métodos propostos; • Contribuir para a definição de linhas orientadoras no que diz respeito à escolha da(s) técnica(s) mais adequada(s) de classificação supervisionada de dados de microarrays; • Aplicar as várias técnicas de Data Mining a conjuntos de dados reais de microarrays, na área da saúde, contribuindo para o avanço da investigação nesta área.

  8. 3. Estado da arte CEAUL Sílvia Pedro Rebouças • Métodos de classificação supervisionada aplicados a dados de microarrays: • Análise discriminante linear de Fisher, linear diagonalizada e quadrática (Lee et al., 2005); • Regressão logística penalizada (Liao & Chin, 2007); • Árvores de classificação (Boulesteix & Tutz, 2006); • Modelos Bayesianos (Roth & Lange, 2004); • Vizinhos mais próximos (Boulesteix & Tutz, 2006); • Médias difusas (Asyali et al., 2005); • Modelos factoriais de misturas (Martella, 2006); • Redes neuronais artificiais (O’Neill & Song, 2003); • Máquinas de suporte vectorial (Pirooznia & Deng, 2006).

  9. CEAUL Sílvia Pedro Rebouças • Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005) • Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007) • Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix & Tutz (2006) e Kim et al. (2006) • A elevada dimensionalidade dos dados de microarrays tornam a aplicação dos métodos de classificação morosa e por vezes inviável, requerendo uma redução prévia de dimensionalidade. • Métodos de selecção de genes: • Selecção de genes com expressão diferencial • teste t, teste de Mann-Whitney, Análise de Variância ou teste de Kruskall-Wallis; • False Discovery Rate (Benjamini & Hochberg, 1995); • Métodos bayesianos (Antunes & Sousa, 2008). • Algoritmos moleculares (Ooi & Tan, 2003) • Métodos de redução de dimensionalidade: • Análise de componentes principais; • Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004); • Padrões de interacção (Boulesteix & Tutz, 2006).

  10. CEAUL Sílvia Pedro Rebouças • A aplicação de metodologias de classificação supervisionada a dados temporais de microarrays é uma área emergente na genómica funcional, que constitui uma importante fonte de informação para o conhecimento dos processos biológicos e para o desenvolvimento de fármacos e terapêuticas eficientes. • Classificação supervisionada aplicada a dados temporais de microarrays: Laegreid et al. (2003), Liang and Kelemen (2004), Liang and Kelemen (2005) e Tucker et al. (2005) • Pré-processamento de dados temporais de microarrays: Liang et al. (2005) • Esta é umaáreapoucoestudada e um desafio do ponto de vista estatístico!

  11. 4. Aplicação CEAUL Sílvia Pedro Rebouças • Aplicação realizada no Curso de Formação Avançada: • Bases de dados: • Leucemia (Golub et al., 1999) • Cancro do cólon (Alon et al., 1999) • Métodos de classificação aplicados (biblioteca do R): • Regressão logística penalizada (GeneLogit) • Àrvores de classificação (tree) • Redes neuronais (nnet) • Classificador dos vizinhos mais próximos (class) • Pré-processamento: • Método 1: thresholding, filtragem e transformação logarítmica de base 10 (Dudoit et al., 2002) • Método 2: Selecção dos genes com expressão diferencial (teste t)

  12. CEAUL Sílvia Pedro Rebouças • Resultados: • Leucemia (modelação: 38 ind., validação: 34 ind. )

  13. CEAUL Sílvia Pedro Rebouças • Cancro do cólon (modelação: 31 ind., validação: 31 ind. )

  14. CEAUL Sílvia Pedro Rebouças • Cancro do cólon (modelação: 40 ind., validação: 22 ind. )

  15. CEAUL Sílvia Pedro Rebouças • Conclusões: • A regressão logística penalizada é suportada por uma teoria matemática sólida e apresenta bom desempenho, contudo, o algoritmo proposto por Liao & Chin (2007) e implementado na biblioteca GeneLogit revelou-se computacionalmente muito intenso e moroso. • As árvores de classificação apresentam boas capacidades de ajustamento recorrendo a poucas variáveis. Têm como principal atractivo a facilidade de interpretação. • As redes neuronais são um método emergente e com bom desempenho, contudo, o uso de camadas escondidas conduziu geralmente a problemas de sobreaprendizagem. O número de pesos a estimar nos dados de microarrays ultrapassam as capacidades computacionais da biblioteca nnet.

  16. CEAUL Sílvia Pedro Rebouças • O classificador dos vizinhos mais próximos, apesar de muito simples, revelou-se um método com excelente desempenho. • Alguns dos genes com maior poder explicativo não apresentam expressão diferencial. A selecção de genes com expressão diferencial pode não ser a melhor forma de lidar com a elevada dimensionalidade dos dados. • Como continuação deste trabalho, está planeado ensaiar e avaliar a aplicação de técnicas multivariadas de redução de dimensionalidade, entre as quais, a análise de componentes principais robusta. • Os resultados diferem consoante a divisão efectuada nas bases de dados em amostra de modelação e amostra de validação, pelo que, pretende-se aplicar em trabalhos futuros o método da validação cruzada para evitar este problema.

  17. CEAUL Sílvia Pedro Rebouças • Principais linhas de investigação futura • Metodologias de redução de dimensionalidade • Análise de Componentes Principais Robustas (Branco & Pires, 2009) • Análise comparativa de métodos de classificação supervisionada • Classificação supervisionada de dados temporais de microarrays

  18. 5. Referências bibliográficas CEAUL Sílvia Pedro Rebouças Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine, A. (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proc. Natl. Acad. Sci. USA, 96, 6745-6750. Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian label estimation via EM algorithm to identify differentially expressed genes: a comparative study, Biometrical Journal, 50 (5), 824-836. Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using fuzzy c-means and normal mixture modelling based classification Methods, Bioinformatics, 21, 644-649. Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, SeriesB, 57, 289 -300. Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating microarray-based classifiers: An overview, Cancer Informatics, 6, 77-97.

  19. CEAUL Sílvia Pedro Rebouças Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns and classification with applications to microarray data, Computational Statistics & Data Analysis, 50, 783-802. Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for high-dimensional data. Trabalho submetido. Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination methods for the classification of tumours using gene expression data, Journal of the American Statistical Association, 97 (457), 77-87. Dupuy, A. & Simon, R. (2007) Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting, Journal of National Cancer Institute, 99, 147-157. Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E. (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286, 531-537. Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression for classification of multiple cancer types using gene expression data, Computational Statistics & Data Analysis, 51, 1643-1655.

  20. CEAUL Sílvia Pedro Rebouças Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene ontology biological process from temporal gene expression patterns, Genome Research, 13, 965-979. Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of recent classification tools applied to microarray data, Computational Statistics & Data Analysis, 48, 869-885. Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression, Bioinformatics, 20, 15, 2429-2437. Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network for gene expression temporal patterns, Statistical Applications in Genetics and Molecular Biology, 3 (1), article 20. Liang, Y. and Kelemen, A. (2005) Temporal gene expression classification with regularised neural networks, International Journal of Bioinformatics Research and Applications, 1 (4), 399-413. Liao, J. & Chin, K.-V. (2007) Logistic regression for disease classification using microarray data: model selection in a large p and small n, Bioinformatics, 23, 1945-1951. Martella, F. (2006) Classification of microarray data with factor mixture models, Bioinformatics, 22, 2, 202-208.

  21. CEAUL Sílvia Pedro Rebouças Nguyen, D. & Rocke, D. (2004) On partial least squares dimension reduction for microarray-based classification: a simulation study, Computational Statistics & Data Analysis, 46, 407-425. O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics, 4: 13. Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class prediction for the analysis of gene expression data, Bioinformatics, 19 (1), 37-44. Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java interface for support vector machine classification of microarray data, BMC Bioinformatics, 7, Suppl 4, S25. Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray datasets, IEEE Transactions on Biomedical Engineering, 51, 5, 707-718. Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press. Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network Classifiers for Time-Series Microarray Data, Inteligent Data Analysis, Lecture Notes in Computer Science, 3646, 475-485.

More Related