1 / 34

Algoritmo Robusto de Aprendizaje para el Modelo Mezcla de Expertos

Algoritmo Robusto de Aprendizaje para el Modelo Mezcla de Expertos. Expositor: Romina Torres Comisión: Dr. Héctor Allende (Guía) Dr. Horst von Brand (Correferente) Dr. Max Chacón (Externo). Agenda. Introducción Modelo Mezcla de Expertos Algoritmos de Aprendizaje

Download Presentation

Algoritmo Robusto de Aprendizaje para el Modelo Mezcla de Expertos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Algoritmo Robusto de Aprendizaje para el Modelo Mezcla de Expertos Expositor: Romina Torres Comisión: Dr.Héctor Allende (Guía) Dr. Horst von Brand (Correferente) Dr. Max Chacón (Externo)

  2. Agenda • Introducción • Modelo Mezcla de Expertos • Algoritmos de Aprendizaje • MLE basado en el gradiente • MLE basado en el algoritmo EM • Algoritmo Robusto de Aprendizaje • Especificación Algoritmo EM • Teoría de Estimación robusta de parámetros • M-estimadores • Algoritmos Robustos de Aprendizaje • RMLE • REM • Experimentos y Resultados • Conclusiones y Extensiones Romina Torres

  3. Introducción(1/3) • Modelos matemáticos con raíces en el entendimiento del cerebro. • Función con parámetros ajustables • Aprender de ejemplos • Aplicadas cuando no existe una solución determinística • Algoritmos de Aprendizaje: • Cambiar los pesos en la dirección en que la diferencia entre la salida calculada y deseada es mínima Romina Torres

  4. Introducción(2/3) • Interferencia • SI BP es usado para entrenar una única red multicapa para realizar diferentes subtareas en diferentes ocasiones • Pobre generalización, lento aprendizaje • Conocimiento a priori • Conjunto de entrenamiento naturalmente dividido en subconjuntos que corresponden a distintas subtareas • El cerebro es una colección de módulos neuronales especializados funcionalmente: • Existe una correspondencia entre las propiedades estructurales de un módulo y las funciones capaz de realizar. • Diferentes regiones del cerebro compiten por la habilidad de realizar un conjunto de tareas (competencia sesgada). Romina Torres

  5. Introducción (3/3) • Los expertos son locales debido a que: • sus pesos están desacoplados • Asignados a regiones locales del espacio de entrada • Red de agregación decide estocásticamente acerca de cuál o cuáles expertos son seleccionados c/v • Modelo de Mezclas Finitas • Modelo Mezcla de expertos (ME) (Jacobs 1990): • Red agregación aprende a asignar casos a uno o varios expertos • Si la salida es incorrecta los cambios a los pesos son locales sólo a esos expertos y la red de agregación  Reducción de interferencia Romina Torres

  6. … … Modelo Mezcla de Expertos Romina Torres

  7. … … Redes Expertas y Red de Agregación • Redes expertas: • Compiten por aprender el modelo subyacente de los patrones de entrada • Especialización versus Pérdida de generalidad • Red de Agregación • Media la competencia • Determina que mezcla de expertos presenta la topología más adecuada según la naturaleza del patrón y el rendimiento relativo de los expertos Romina Torres

  8. Algoritmos de Aprendizaje • Aprendizaje Modelo ME • Problema de estimación de parámetros del modelo estadístico subyacente • Estimadores de Máxima Verosimilitud • Función complicada no lineal en los parámetros • Problema de encontrar los parámetros que maximizan la verosimilitud • Técnicas de optimización numérica • Algoritmos de Aprendizaje para Modelo ME • ML basado en el gradiente • ML basado en Máxima Expectación Romina Torres

  9. Máxima Verosimilitud • Conjunto de Entrenamiento i.i.d. • Probabilidad Total para conjunto de vectores de entrada es dado por la función de verosimilitud Romina Torres

  10. Gradiente Descendente • Red de agregación • Red Experta • Modelo de Probabilidad Romina Torres

  11. Algoritmo de Máxima Expectación (EM) • Dempster, Laird, Rubin [DLR] [1976] • EM es un enfoque iterativo para estimar la máxima verosimilitud • EM basado en la idea de resolver una sucesión de problemas simplificados que son obtenidos por aumentar las variables observadas originalmente con un conjunto de variables adicionales escondidas o perdidas • La incompletitud de los datos puede ser no natural o evidente • Cada iteración está compuesta de dos pasos • Paso M que maximiza la función de verosimilitud que es redefinida en cada iteración del paso E Romina Torres

  12. Especificación Algoritmo EM (1/2) • Datos incompletos • Modelo de Probabilidad que enlaza ambos conjuntos • El logaritmo de la densidad define la verosimilitud de los datos completos • Variable aleatoria • La verosimilitud original es referida como verosimilitud de los datos incompletos • Distribución Marginal es la verosimilitud original • Función de las v.a. perdidas no se puede trabajar directamente * Romina Torres

  13. Especificación Algoritmo EM (2/2) • Algoritmo iterativo de dos pasos • Paso E • Paso M • Una iteración del EM aumenta monóticamente • Algoritmo EM Generalizado • Paso M no siempre puede ser obtenido analíticamente • Satisface la condición de convergencia (si existe el límite superior) Romina Torres

  14. Satisface * Un Algoritmo EM para el modelo ME(1/2) • Estructura modular de la arquitectura • Distribución del conjunto de datos completos • Paso E • Paso M Romina Torres

  15. Un Algoritmo EM para el modelo ME(2/2) • Actualización Matrices de covarianzas • Actualización Pesos redes expertas Resuelto explícitamente si las redes expertas son lineales • Actualización Pesos red de agregación Romina Torres

  16. Estimación Robusta de Parámetros • Teoría de Estimación robusta [Huber,1964] • Modelo ME sensible a datos atípicos • Pequeñas desviaciones no deberían afectar fuertemente los métodos de estimación • La robustez ayuda a evaluar y mejorar la estabilidad de las técnicas de estimación cuando los datos se desvían del supuesto distribucional. • Hampel argumenta que la ocurrencia de datos atípicos son la regla no la excepción • Provocados por una fuente de desviación del modelo subyacente que actúa ocasionalmente pero que tiene gran influencia • Se desea evitar el riesgo de rechazar datos necesarios, pero limitando a la vez la influencia de los datos atípicos en la obtención de los estimadores ML. Romina Torres

  17. M-estimadores [Huber 1964] • M-estimadores son una generalización del MLE • Un M-Estimador es el estadístico que minimiza la función de costo • Función real derivable en • O la solución de la ecuación de estimación de primer orden Romina Torres

  18. M-estimador Romina Torres

  19. Actualización de Parámetros Algoritmo Robusto basado en el Gradiente • Nueva función de Verosimilitud Romina Torres

  20. Algoritmo Robusto de Máxima Expectación(1/2) • Paso de Expectación • Paso de Maximización Romina Torres

  21. Algoritmo Robusto de Máxima Expectación(2/2) • Actualización de los parámetros Romina Torres

  22. Diseño de Experimentos

  23. Hipótesis • Modelo ME • (M1) Cuando una única red intenta modelar tareas de distinta naturaleza se produce el efecto interferencia destructiva. • Algoritmo de Aprendizaje • Algoritmo EM toma ventaja de la modularidad del sistema. • Robustez • (R1) Algoritmos Robustos de Aprendizaje mejoran significativamente el rendimiento sobre el conjunto de prueba. • (R2) Expertos que no modelan la tendencia subyacente de los datos son “podados”. Romina Torres

  24. Conjuntos de Datos • Boston Original (Boston Housing Data) • N= 506 muestras, 13 entradas, 1 salida. • Valor promedio de una casa en miles de dólares en un vecindario de Boston • Presencia de valores anómalos y datos alejados de la mayoría del conjunto • Ordenamiento por vecindario • Building2 (PROBEN1) • Problema de predicción del consumo de energía en un edificio • N= 4208 datos, 6 atributos reales son codificados en 13 entradas para el modelo • 3 Salidas: Energía eléctrica, agua caliente y agua fría. Romina Torres

  25. Boston, Número de Expertos(1/2) Romina Torres

  26. Romina Torres

  27. Building2, Número de Expertos (2/2) Romina Torres

  28. LM GDM GD GDM Elección Número de Neuronas escondidas Romina Torres

  29. Resultados(1/2) Romina Torres

  30. Resultados(2/2) Romina Torres

  31. Conclusiones • Modelo ME con algoritmo EM y REM: • Razón de convergencia • Toma ventaja de la modularidad del problema • Modelo ME con Algoritmos Robustos: • Presenta mejores resultados que modelos de un único modelo • Presenta mayor capacidad de generalización • Reducción del número de expertos de la mezcla • Mejoras sustanciales en el rendimiento frente a conjuntos de datos contaminados • Mejoras significativas según test de Prechelt Romina Torres

  32. Trabajos Futuros • Extensión del Algoritmo REM y RMLE • Estudio de Convergencia • Estudio de eficiencia y eficacia • Mejora en Diseño de Experimentos y Metodología de Comparación • Extensión del Algoritmo REM • Modelos de Mezcla • Mezcla de expertos Jerárquicos (HME) • Modelo Jerárquico adaptivo. • Diferentes Arquitecturas para la red de agregación • SOM Romina Torres

  33. Consultas

  34. Análisis de Algoritmos • MLE: NT(K+1)(m+1) • RMLE: NT(K+1)(m+1) + NT + m • EM: 2NTK + 2NTm + Km • REM: 3NTK + 2NTm + Km + K+ NT + m Romina Torres

More Related