1 / 8

Supervised Gene Selection in DNA Microarrays: Bioinformatics Study

This project explores supervised gene selection methods for DNA microarrays, focusing on the challenges of high dimensionality and variable class labels. Various classification techniques, including SVM, Discriminant Analysis, K-NN, Naive Bayes, and Decision Trees, are utilized. The goal is to develop interpretable models and computationally efficient algorithms for gene selection. Related areas of research include attribute weighting, gene expression analysis, and causal network inference. Relevant references and resources are provided.

amos
Download Presentation

Supervised Gene Selection in DNA Microarrays: Bioinformatics Study

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Trabajo del grupo ISG UPV-EHU en clasificación supervisada para DNA microarrays (mayo’00-junio’02) Proyecto Elvira II Albacete, Junio 2002

  2. DNA microarray Filas  genes; Columnas  casos, muestras, biopsias, ejemplos, ‘cell-lines’...

  3. ¿Selección de genes en DNA microarray ‘supervisados’? • Area ‘pequeña’ dentro de la Bioinformática. • Dimensionalidad altísima (> 1,000). • Problemas supervisados: existe la variables clase. • Literatura: Brazma & Vilo’00, CAMDA’00-01, Golub’99, Beibel’00... • En CAMDA  se cita la ‘selección de variables’ (Feature Subset Selection = FSS) como un ‘topic’. • Coincidencias: pocos genes... ¿soprendente? No tanto... Y buen porcentaje de bien clasificados. • Técnicas de clasificación supervisada utilizadas: SVM, Discriminant Analysis,..., K-NN, Naive-Bayes, Arboles de decision, Reglas de decisión (IF-THEN). • Explicatividad & comprensibilidad: árboles, reglas.

  4. Varios ejemplos de DNA microarrays

  5. Nuestras líneas de trabajo • Algoritmo de búsqueda: búsqueda secuencial, algoritmos EDAs. • Función de evaluación: wrapper más que filter  son posibles los tiempos de cómputo  búsqueda en el ‘areas’ de pocos genes. • Algoritmos de clasificación: K-NN, Naive-Bayes, árboles de clasificación, reglas IF-THEN... • Software: propio y MLC++ (Stanford – SGI). • Nuestro ‘Talón de Aquiles’: • Interpretación ‘biológica’ de los resultados (modelos clasificatorios, genes escogidos, porcentajes de error...). • ‘Formación’ & ‘creación’ de las matrices de datos desde SMD.

  6. Trabajos desarrollados • R. Blanco, P. Larrañaga, I. Inza, B. Sierra (2001). “Selection of highly accurate genes for cancer classification by estimation of distribution algorithms”. Workshop of Bayesian Models in Medicine (AIME). • I. Inza, B. Sierra, R. Blanco, P. Larrañaga (2002). “Gene selection by sequential search wrapper approaches in microarray cancer class prediction”. Journal of Intelligent and Fuzzy Systems.

  7. Otras líneas aparte de la selección de genes • Algoritmo K-NN: pesado de atributos, búsqueda de los pesos óptimos. • 3 estados de relevancia en genes: underexpressed, baseline, overexpressed. • Redes Genéticas: • Dimensionalidades ingentes  ¿Red Bayesiana? • Red Bayesiana “con simplificaciones”: número máximo de padres... Aproximaciones por bootstrap. • CAUSALIDAD  en vez de “atacarlo” directamente, se plantea estudiar las propiedades de las relaciones: • Relaciones de padre hijo o “esposos” “fuertes”. • Gen que “media” la relación directa entre otros dos: CI(X,Y|Z) • Activar / Inhibir: influencia directa de uno de los padres al mantener los valores de los demás “fijos”. • Detección de “subredes funcionales”.

  8. Referencias de interés • Congresos: • CAMDA: Critical Assesment of Microarray Data Analysis • ISMB: International Symposium on Molecular Biology • Revista: “Bioinformatics” • Lugares web: • Stanford Genomic Resources  Stanford Microarray Database • http://www.gene-chips.com/ • Hebrew University (N. Friedman, D. Pe’er, I. Nachman...) • Tel Aviv University (R. Shamir) • Human Genome Working Draft: http://genome.ucsc.edu

More Related