Backpropagation
This presentation is the property of its rightful owner.
Sponsored Links
1 / 43

Backpropagation PowerPoint PPT Presentation


  • 53 Views
  • Uploaded on
  • Presentation posted in: General

Backpropagation. Backpropagation (MLP). 1.- Las redes de 1 sólo nivel  Número muy limitado de representaciones. 2.- No ha existido un algoritmo multinivel de aprendizaje. 1969 1 + 2  “Perceptrons” (Minsky & Papert). 1970  1982, Eclipse / invierno de las NN 1974 Werbos 1982 Parker

Download Presentation

Backpropagation

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Backpropagation

Backpropagation


Backpropagation mlp

Backpropagation (MLP)

1.- Las redes de 1 sólo nivel  Número muy limitado de representaciones.

2.- No ha existido un algoritmo multinivel de aprendizaje.

1969 1 + 2  “Perceptrons” (Minsky & Papert).

1970  1982, Eclipse / invierno de las NN

1974 Werbos

1982 Parker

1986 Rumelhart, Hilton, Williams


Elemento neuronal

Elemento neuronal

vector de entrada

vector de pesos

-1

x1

w1

.

.

.

wj

net

y=fa(net)

xj

fa

.

.

.

wn

xn


Funci n de a ctivaci n umbral escal n

Función de activación umbral / escalón

y

1

net


Funci n de activaci n lineal

Función de activación lineal

y

net


Funci n de a ctivaci n umbral bipolar

Función de activación umbral bipolar

y

1

net

-1


Funci n de a ctivaci n sigmoidea

Función de activación sigmoidea

Si Función umbral

y

=50

1

=5

0.5

net


Funci n de activaci n sigmoidea

Función de activación sigmoidea

  • Introduce la no-linealidad.

  • Derivable y de derivada simple.

  • Control automático de la ganancia:

1

Ganancia alta

0.5

Ganancia estable

Ganancia estable

net

0


Funci n de activaci n sigmoidea bipolar

Función de activación sigmoidea bipolar

f(x)

1

x

-1


Funci n de activaci n tangente hiperb lica

Función de activación tangente hiperbólica

f(x)

1

x

-1


Funci n de activaci n gausiana

Función de activación gausiana

f(x)

x


Caracter sticas bpn

Características BPN

  • Arquitectura:

    • Multilayer perceptron.

    • Full conected. Feedforward

  • Aprendizaje supervisado.

  • Función de activación


Arquitectura bp

Arquitectura BP

Vector de entrada

0

l

m

1

m -1

1

1

i

h

g

j

nm-1

n1

nm

nl

n0

Capa de puntos de entrada

Capa de Salida

Vector de salida

Salida Deseada

Capas Ocultas


Regla delta generalizada

Regla Delta generalizada

m-2

m-1

m

1

h

i

j

dj

donde


Regla delta generalizada1

Regla Delta generalizada

El error para cada patrón será:

El error total:

Derivando respecto a ij según la regla de la cadena

donde

es el término de error

por tanto los pesos de la capa de salida se actualizan


Regla delta generalizada2

Regla Delta generalizada

donde

es el término de error

Los pesos se actualizan como:

Para las capas ocultas


Algoritmo de aprendizaje

Algoritmo de aprendizaje

1.- Se inicializan con valores aleatorios y pequeños (< 1)

2.- Se entra un patrón

3.- Se calcula la entrada neta para la primera capa oculta.

4.- Se calcula la salida de la primera capa oculta.


Algoritmo de aprendizaje1

Algoritmo de aprendizaje

5.- Repetir 3 y 4 para todas las capas ocultas y para todas la neuronas

6.- Se calcula la entrada neta a la capa de salida.

7.- Se calcula la salida de la red.

8.- Se calcula el término de error para las unidades de salida.


Algoritmo de aprendizaje2

Algoritmo de aprendizaje

9.- Se calcula el término de error para las unidades ocultas.

10.- Se actualizan los pesos de la capa de salida.

11.- Se actualizan las capas ocultas.


Notas

Notas

1.- Los términos de error de una capa se calculan antes de actualizar los pesos de la capa anterior.

2.- El orden de actualización de los pesos dentro de una capa no importa.

3.- Se considera que la red ha aprendido cuando Ees suficientemente pequeño p.

4.- No suele ser necesario probar todos los vectores de entrenamiento.

5.- Se pueden usar vectores con ruido para entrenar la red. A veces va bien aunque tengamos patrones correctos.

6.- La red permite la generalización.

7.- Los patrones NO se deben entrar clase a clase sino de forma doblemente o aleatoria de clases y patrones. En caso contrario la red podría “olvidar”.


Inicializaci n nguyen widrow

Inicialización Nguyen-Widrow

n = Unidades de entrada

p = Unidades ocultas

= Factor de escala

Más velocidad

N-W

Mejor convergencia


Inicializaci n nguyen widrow1

Inicialización Nguyen-Widrow

Función de Activación =

E < 0.05


Funci n te rica de aprendizaje

Función teórica de aprendizaje


Inicializaci n de los pesos

Inicialización de los pesos

  • Aleatoriamente [-0.5 , 0.5].

  • Método Nguyen-Widrow.

  • La inicialización de los pesos afecta a:

    • Si se llega a un mínimo (local o global).

    • La velocidad de convergencia.


Fin del entrenamiento

Fin del entrenamiento

  • Si el error (E) o la variación del error (E) es suficientemente pequeña.

  • Realizar un número mínimo de iteraciones (NF).

  • Validación por cruces: Disponer de dos conjuntos de patrones, uno de entrenamiento y otro de test. (A veces son tres conjuntos: Entrenamiento, Validación y Test con una relación 1:1:1 )


Validaci n por cruces

Validación por cruces


N mero de parejas de entrenamiento

Número de parejas de entrenamiento

  • = Número de pesos.

  •  = Porcentaje de patrones mal clasificados.


Representaci n de los datos

Representación de los datos

  • Binarios o Bipolares. Con entradas bipolares, todas tienen efecto sobre el cálculo de la net.

  • Continuos. Más fáciles de actualizar.


N mero de capas ocultas

Número de capas ocultas

  • Una capa oculta suele ser suficiente para solucionar la mayoria de problemas.

  • Dos niveles de capas ocultas hacen que la red aprenda más rápido.


Valor de

Valor de 

  • Fijo.

  • - Para evitar que oscile mucho  (0.05 <  < 0.25)

  • Variable.

  • - Ha de disminuir a medida que disminuye el error.


N mero de nodos

Número de nodos

  • En las capas de entrada / salida, determinados por el problema.

  • En las capas ocultas poner el mínimo número de nodos posible.

    • Si la red no aprende  Añadir nodos en las capas ocultas.

    • Si la red converge y rápido  probar con menos nodos en las capas ocultas.

    • Si ciertos pesos no se modifican  se pueden eliminar nodos.


Heur sticas para mejorar el algoritmo bp

Heurísticas para mejorar el algoritmo BP

  • 1.- Secuencial versus “BATCH”

  • “BATCH” suaviza mas eficiente computacionalmente sobre todo si los datos son muchos y redundantes

  • 2.- Maximizar la información

  • Entrando aleatoriamente los datos entre una Epoch y otra

  • “Emphasizing Scheme”  + Patrones “Dificiles”

  • Peligro de patrones mal clasificados


Heur sticas para mejorar el algoritmo bp1

Heurísticas para mejorar el algoritmo BP

3.- Función de Activación Antisimétrica


Heur sticas para mejorar el algoritmo bp2

Heurísticas para mejorar el algoritmo BP

  • 4.- Salidas deseadas

  • Para valores grandes de net el sistema se satura. Se toma un valor  para evitar una lentitud del aprendizaje. Si

  • para +a tomamos d = a - 

  • para –a tomamos d = -a + 

  • si a = 1.7159   = 0.7159 y d = 1

  • 5.- Normalización de entradas

  • Preprocesamiento de las entradas

    • Hacer la media de los datos igual a cero

    • Decorrelacionar las entradas  PCA

    • Ecualización de la covarianza


Preparaci n de los datos

Preparación de los datos


Problemas

Problemas

1.- Aprendizaje muy lento. Si el problema es complejo puede tardar

días / semanas.

Problema paralelo  Implementación secuencial

2.- Parálisis de la red. Se produce cuando no se trabaja en la zona central de la función sigmoidea; el aprendizaje se detiene y la red no aprende. Se evita con   Tiempo de aprendizaje


Problemas1

Problemas

  • 3.- Mínimos locales. La función de error tiene colinas y valles. BPN utiliza la dirección del gradiente para llegar a un mínimo; puede que la red quede atrapada en un mínimo local.

    •  métodos estadísticos que resuelven este problema  Lentos.

    • Si las variaciones son infinitesimales  tiempo de aprendizaje.

    • Si el paso es grande  Paralisis e Inestabilidad.

    •  soluciones en algún tipo de redes.


Momento

Momento

es el momento

Para mejorar el tiempo de aprendizaje se introduce un término (momentum) proporcional al cambio de pesos en el paso anterior.

La red evoluciona en función del gradiente actual y del anterior

  • Con esta mejora la red converge más rápidamente y evita mínimos locales.

  • La relación entre  y  suele ser recíproca. Si  (0,9) ,  (0,1) y al contrario.

  • Unos valores aceptables,  = 0,1 y  = 0,5


Momento1

Momento


Aplicaciones

Aplicaciones

  • 1.- Reconocimiento de caracteres.

    • NEC, sistema de reconocimiento de códigos postales con 99%

    • de efectividad. Utilizan algoritmos convencionales y una red

    • BPN.

    • Sesnowski y Rosenberg (1987)  NETTALK, sistema de

    • traducción del inglés escrito al hablado.

    • Burr (1987)  Sistema de reconocimiento de palabras

    • manuscritas con 99.7% de efectividad, utilizando diccionario.

  • 2.- Compresión de información (imágenes).

    • Cottrell, Munro i Zipser (1987), muy buenos resultados.

    • Las redes tienen en cuenta la información de percepción (JPEG

    • y otros no).

  • 3.- Pronunciación de palabras.


Reconocimiento de car cteres

Reconocimiento de carácteres


Interpretaci n probabil stica de una nn

Interpretación Probabilística de una NN

Puede ser estimado a partir de las proporciones de ejemplos de entrenamiento para cada clase

Se puede hacer una suposición de una función densidad Gausiana

1.- Las Redes neurales reconocen patrones complejos en un mundo real, ruidoso e incierto

2.- La incertidumbre es estudiada en un marco probabilístico.

- Si suponemos un problema de clasificación en K clases de salida

T. Bayes

La probabilidad de mala clasificación se minimiza cuando asignamos


Interpretaci n probabil stica de una nn1

Interpretación Probabilística de una NN

Lippmann (1991) demuestra que las Redes Neurales calculan directamente

Los pesos se calculan a partir de la minimización del error

(mínimos cuadrados)


  • Login