Ajuste de dados atrav s do uso de modelos lineares
Download
1 / 44

Ajuste de Dados atrav s do Uso de Modelos Lineares - PowerPoint PPT Presentation


  • 80 Views
  • Uploaded on

Ajuste de Dados através do Uso de Modelos Lineares. Prof. Júlio Cesar Nievola PPGIA - PUCPR. Construção de Modelo Experimental. Ajuste de dados é uma das ciências experimentais mais antigas Vantagens de um modelo matemático:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Ajuste de Dados atrav s do Uso de Modelos Lineares' - tacey


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Ajuste de dados atrav s do uso de modelos lineares

Ajuste de Dados através do Uso de Modelos Lineares

Prof. Júlio Cesar Nievola

PPGIA - PUCPR


Constru o de modelo experimental
Construção de Modelo Experimental

  • Ajuste de dados é uma das ciências experimentais mais antigas

  • Vantagens de um modelo matemático:

    • Habilidade de compreender, explicar, prever e controlar a saída do sistema

  • Principal vantagem: capacidade de prever o comportamento futuro e controlá-lo através da aplicação de entradas apropriadas

Prof. Júlio Cesar Nievola


Sistemas naturais e modelos formais

Mundo Natural

Decodificar

Sistema

Natural

Observável

Modelo

Formal

Prever

Medidas

Mundo

Matemático

Sistemas Naturais eModelos Formais

Prof. Júlio Cesar Nievola


Coleta de dados
Coleta de Dados

  • Deve ser cuidadosamente planejada

  • Principais pontos a serem observados:

    • Os dados devem ser suficientes

    • Os dados devem capturar as características principais do problema a ser tratado

    • Os dados devem ser tão “limpos” quanto possível

Prof. Júlio Cesar Nievola


Adaline regress o linear

xi

w

yi

S

+1

b

PE

Adaline - Regressão Linear

  • Adaline - Adaptive Linear Element, ou elemento de processamento (PE)

  • Composto por dois multiplicadores e um somador

Exemplo 01

Prof. Júlio Cesar Nievola


M nimos quadrados
Mínimos Quadrados

  • Uma reta ajusta perfeitamente duas observações

  • Qual a melhor escolha de (w, b) tal que uma reta passe mais próxima de vários pontos?

  • Mínimos Quadrados: reta em que a soma do quadrado dos desvios (resíduos) na direção d é minimizada

  • Mínimos Quadrados: regressão linear

Prof. Júlio Cesar Nievola


Determina o dos par metros 1
Determinação dos Parâmetros (1)

  • A média da soma dos erros ao quadrado, denominado J (também chamado de MSE), que é um dos critérios mais usados, é dado por:

    onde N é o número de observações

Exemplo 02

Prof. Júlio Cesar Nievola


Determina o dos par metros 2
Determinação dos Parâmetros (2)

  • Para minimizar J, usando Gauss, igualam-se as derivadas parciais a zero e resolve-se as equações, ou seja:

  • Obtém-se então:

    e

Exemplo 03

Prof. Júlio Cesar Nievola


Coeficiente de correla o
Coeficiente de Correlação

  • Por definição, o coeficiente de correlação entre duas variáveis aleatórias x e d é

  • O numerador é a covariância das duas variáveis e o denominador é o produto dos correspondentes desvio padrão

Prof. Júlio Cesar Nievola


M todo dos m nimos quadrados
Método dos Mínimos Quadrados

  • Interpretação da solução estimada dos mínimos quadrados: o erro é ortogonal à entrada

  • Mínimos quadados: bastante potente

  • Pode ser generalizado para curvas polinomiais de ordem superior, tal como quadráticas, cúbicas etc., dando origem aos mínimos quadrados generalizados

Prof. Júlio Cesar Nievola


M nimos quadrados como busca de par metros de um sistema

.

y=wx+b

y

.

di

di

xi

.

yi

(b,w)

+

.

.

-

d1

.

ei

b

d2

Alterar

parâmetros

x

x1

x2

xi

Mínimos Quadrados como Busca de Parâmetros de um Sistema

  • Objetivo: encontrar os parâmetros (b,w) que minimizam a diferença entre a saída yi do sistema e a resposta desejada di.

Prof. Júlio Cesar Nievola


Proejto de um sistema supervisionado adaptativo
Proejto de um Sistema Supervisionado Adaptativo

  • Elementos

    • Sistema (linear) com parâmetros adaptativos

    • Resposta desejada ou objetivo d

    • Critério de otimalidade (MSE) a ser minimizado

    • Método para calcular os parâmetros ótimos

  • O objetivo é encontrar uma forma alternativa de calcular os parâmetros usando um procedimento de busca

Prof. Júlio Cesar Nievola


An lise do erro no espa o de par metros

Superfície de desempenho

Jmin

w

w*

Análise do Erro no Espaço de Parâmetros

  • J(w) é chamada de superfície de desempenho. Para b=0:

J

Exemplo 04

Prof. Júlio Cesar Nievola


Gradiente da superf cie de desempenho

Superfície de desempenho

w0+Dw

Jmin

w0-Dw

w

w0

Gradiente da Superfície de Desempenho

  • O gradiente de J é um vetor que sempre aponta na direção da máxima alteração de J com magnitude igual à inclinação da tangente à superfície de desempenho

  • No ponto inferior (vértice), o gradiente é zero

Magnitude do gradiente

w*

Prof. Júlio Cesar Nievola


Superf cie de performance notas
Superfície de Performance - Notas

  • O valor mínimo do erro (Jmin) depende tanto da sinal de entrada (xi) quanto do sinal desejado (di)

  • A posição no espaço de coeficientes onde o mínimo w* ocorre também depende tanto de xi quanto de di

  • O formato da superfície de desempenho depende somente do sinal de entrada xi

Exemplo 05

Prof. Júlio Cesar Nievola


Busca usando descida mais inclinada
Busca usando Descida mais inclinada

  • Busca eficiente do mínimo usando vários métodos baseados na informação do gradiente

  • Vantagens da busca:

    • Computação local

    • O gradiente sempre indica a direção de máxima alteração

  • Para o cálculo dos pesos em uma nova posição:

  • onde  é uma pequena constante e J(k) indica o gradiente da superfície de desempenho na iteração k

Prof. Júlio Cesar Nievola


Busca usando a informa o do gradiente

Superfície de desempenho

Vetor Gradiente

Jmin

w

w(0)...

w*

...w(1)

Busca usando a informação do gradiente

Prof. Júlio Cesar Nievola


Estimativa do gradiente algoritmo lms
Estimativa do Gradiente:Algoritmo LMS

  • Um sistema adaptativo pode usar a informação do gradiente para otimizar os parâmetros

  • Em 1960 Widrow propôs o uso do valor instantâneo como estimativa do valor do gradiente:

Prof. Júlio Cesar Nievola


Algoritmo lms
Algoritmo LMS

  • Usando a idéia de Widrow tem-se o algoritmo LMS, no qual o gradiente é estimado usando uma multiplicação por peso

  • A equação da descida (ou LMS) torna-se

    onde a constante  é chamada de tamanho do passo ou constante de aprendizagem

Exemplo 06

Prof. Júlio Cesar Nievola


Aprendizagem on line e batch
Aprendizagem On-line e Batch

  • Aprendizagem on-line ou exemplo por exemplo: atualização dos pesos após o cálculo para cada entrada

  • Aprendizagem batch: armazenam-se as atualizações dos pesos durante uma época e no final da mesma atualizam-se os mesmos

  • O algoritmo batch é ligeiramente mais eficiente em termos do número de cálculos

Exemplo 07

Prof. Júlio Cesar Nievola


Robustez e avalia o do treinamento
Robustez e avaliação do treinamento

  • O algoritmo LMS é robusto: sempre converge para o mesmo valor, independentemente dos pesos iniciais

  • Após o treinamento, os pesos são fixados para uso

  • Precisa-se do coeficiente de correlação r e do MSE para testar os resultados:

    • r informa é um indicador do resultado da modelagem, dizendo o quanto da variância de d foi capturado pela regressão linear, mas não indica a média

    • o MSE indica a ordem de grandeza

Exemplo 08

Exemplo 09

Prof. Júlio Cesar Nievola


Adapta o est vel
Adaptação Estável

  • O algoritmo LMS tem um parâmetro livre, , que deve ser selecionado pelo usuário

  • O gráfico do MSE ao longo das iterações é chamado de curva de aprendizagem e é uma boa forma de monitorar a convergência do processo

  • A taxa de decréscimo do erro depende do valor do tamanho do passo 

  • Busca-se uma forma de encontrar o maior tamanho de passo possível que garanta convergência

Exemplo 10

Prof. Júlio Cesar Nievola


Curva de aprendizagem e gr fico dos pesos ao longo das itera es
Curva de Aprendizagem e Gráfico dos Pesos ao longo das iterações

Exemplo 11

Prof. Júlio Cesar Nievola


Tamanho m ximo do passo para converg ncia
Tamanho máximo do passo para convergência iterações

  • Convergência rápida, mas sem sistema instável:

  • Na atualização batch, usa-se o passo normalizado:

  • No algoritmo LMS é comum incluir um fator de segurança 10 no máximo  ( máx) ou usar o treinamento em batch, o qual reduz o ruído na estimativa do gradiente

Prof. Júlio Cesar Nievola


Constantes de tempo
Constantes de tempo iterações

  • A envoltória da progressão geométrica dos valores dos pesos pode ser aproximado por uma exponencial com decréscimo dado pela constante de tempo de adaptação dos pesos :

  • Em termos práticos, o processo iterativo converge após 4 constantes de tempo

  • A constante de tempo da adaptação mse é:

Exemplo 12

Prof. Júlio Cesar Nievola


Estabilidade
Estabilidade iterações

  • Na busca em pontos próximos ao mínimo:

    • o gradiente é pequeno mas não zero

    • o processo continua a se movimentar na vizinhança do mínimo, sem estabilizar

  • Rattling: é proporcional ao tamanho do passo 

  • Nos mecanismos de busca com descida do gradiente há um compromisso entre a precisão da solução final e a velocidade de convergência

Prof. Júlio Cesar Nievola


Rattling no procedimento iterativo
“Rattling” no procedimento iterativo iterações

Exemplo 13

Prof. Júlio Cesar Nievola


Escalonamento do tamanho dos passos
Escalonamento do tamanho dos passos iterações

  • Forma simples de diminuir o “rattling”:

    • constante de aprendizagem grande no começo do processo para rápida convergência

    • pequena constante de aprendizagem no final do processo para obter boa exatidão

  • Escalonamento da taxa de aprendizagem:

  • O valor de  precisa ser determinado experimentalmente

Exemplo 14

Prof. Júlio Cesar Nievola


Regress o para v rias vari veis
Regressão para várias variáveis iterações

  • Considere-se que d é uma função de várias entradas x1, x2, ..., xD (variáveis independentes) e o objetivo é encontrar a melhor regressão linear de d em relação a todas as entradas

  • Assume-se que as medidas xsão livres de ruído e d é contaminado por um vetor de ruídos  com as propriedades:

    • distribuição Gaussiana com componentes com média zero

    • variâncias 2 igual

    • não correlacionada com as entradas

Prof. Júlio Cesar Nievola


V rias vari veis
Várias variáveis iterações

x1i

.

w1

x2i

.

.

w2

di

yi

ei

wD

S

+

xDi

b

+1

Sistema de Regressão

Prof. Júlio Cesar Nievola


Regress o para v rias vari veis 1
Regressão para várias variáveis (1) iterações

  • A equação para regressão com várias variáveis é

  • Neste caso o MSE é

  • A solução para esta equação (ponto de mínimo) é obtida igualando a zero as derivadas de J com relação às variáveis desconhecidas wk

  • Com isto, tem-se um conjunto de D+1 equações com D+1 variáveis, chamado equações normais (conforme a seguir)

Prof. Júlio Cesar Nievola


Regress o para v rias vari veis 2
Regressão para várias variáveis (2) iterações

  • Estas equações podem ser escritas em notação matricial. Para tanto, define-se

    Rkj é a auto-correlação das amostras de entrada para os índices k e j, a qual mede a similaridade entre exemplos do conjunto de treinamento

  • Tem-se então a matriz de auto-correlação

Prof. Júlio Cesar Nievola


Regress o para v rias vari veis 3
Regressão para várias variáveis (3) iterações

  • Considere-se

    como sendo a correlação cruzada da entrada x para índice j e a resposta desejada d. A partir da mesma cria-se o vetor p de dimensão D+1. Portanto,

  • O coeficiente de correlação múltipla mede a quantidade de variação explicada pela regressão linear, normalizada pela variância de d

Exemplo 15

Prof. Júlio Cesar Nievola



Vis o do procedimento de busca
Visão do Procedimento de Busca contorno

  • A superfície de desempenho em várias dimensões de J torna-o um parabolóide apontando para cima em D+1 dimensões:

  • Os coeficientes que minimizam a solução são

  • A auto-correlação das entradas R especifica de forma completa a superfície de desempenho

  • A localização da superfície de desempenho no espaço de pesos e o seu valor mínimo dependem a auto-correlação das entradas e da resposta desejada

Exemplo 16

Prof. Júlio Cesar Nievola


Gr fico de contornos da superf cie de desempenho com dois pesos

Gráficos de contorno de contornoJ

w2

Direção do maior

autovetor de R

Direção do menor

autovetor de R

w2*

Inverso da diferença

é o menor autovalor de R

Inverso da diferença

é o maior autovalor de R

w1

Gráfico de contornos da superfície de desempenho com dois pesos

w1*

Prof. Júlio Cesar Nievola


Descida mais inclinada no caso de v rios pesos
Descida mais inclinada no caso de vários pesos contorno

  • Neste caso o gradiente é um vetor com D+1 componentes

  • Portanto,

  • Ou seja,

  • Os pesos convergem com diferentes constantes de tempo, cada uma ligada a um autovalor de R

Prof. Júlio Cesar Nievola


Controle do tamanho do passo
Controle do tamanho do passo contorno

  • O conjunto de valores assumidos pelos pesos é chamado trilha dos pesos e se movem em direção oposta ao gradiente em cada ponto

  • O pior caso para garantir a convergência ao ótimo w* em todas as direções é

  • O tamanho do passo  deve ser menor que o inverso do maior autovalor da matriz de auto-correlação, a fim de que não haja divergência

Prof. Júlio Cesar Nievola


Trilha dos pesos em dire o ao m nimo

Gradientes contorno

w2

w(0)

w1(0)

w(1)

w2(1)

w2*

w1

w1(0)

w1(1)

w1*

w2

Gradientes

w1(0)

w(0)

w2(1)

w(1)

w2*

w1

w1(0)

w1(1)

w1*

Trilha dos pesos em direção ao mínimo

Autovalores iguais:

Autovalores diferentes:

Prof. Júlio Cesar Nievola


Constante de tempo da adapta o
Constante de tempo da adaptação contorno

  • A constante de tempo da adaptação é dada por

  • Se a razão entre o maior e o menor autovalor for grande, a convergência será lenta

  • A curva de aprendizagem se aproxima de Jmin em uma progressão geométrica

  • Há várias constantes de tempo da adaptação (caso os autovalores sejam diferentes), sendo uma para cada direção

Exemplo 17

Prof. Júlio Cesar Nievola


Algoritmo lms com v rios pesos
Algoritmo LMS com vários pesos contorno

  • O algoritmo LMS com vários pesos torna-se

  • Para a abordagem com bias:

    • amplia-se a matriz de entrada com uma coluna extra com 1s; ou

    • modificam-se as entradas e saídas para que tenham variáveis com valor médio igual a zero

  • Selecionar  para produzir 10% de erro significa uma duração de treinamento em iterações igual a 10 vezes o número de entradas

Exemplo 18

Exemplo 19

Prof. Júlio Cesar Nievola


M todo de newton 1
Método de Newton (1) contorno

  • A equação adaptativa dos pesos usando o método de Newton

  • Método de Newton corrige a direção de busca de tal forma que ela sempre aponta para o mínimo

  • O método de Newton é mais rápido que LMS quando a matriz de correlação dos dados de entrada tem uma grande faixa de autovalores

  • O cálculo da inversa da matriz de auto-correlação, é mais demorado que LMS e necessita de informação global

  • Se a superfície não for quadrática o método diverge

Prof. Júlio Cesar Nievola


M todo de newton 2

Método de Newton contorno

w2

Descida do gradiente

.

w2*

w1

w1*

Método de Newton (2)

Exemplo 20

Prof. Júlio Cesar Nievola


Solu o anal tica x iterativa
Solução Analítica contornox Iterativa

  • Analítica

    • Se R é mal-condicionada, a inversa não é precisa

    • Tempo para cálculo da inversa é O(D2)

  • Iterativa

    • não há garantia da proximidade de w*

    • grande faixa de autovalores causa lenta convergência

  • Vantagens da abordagem iterativa

    • há algoritmos muito eficientes para estimar o gradiente

    • ordem de complexidade O(D)

    • o método pode ser estendido para sistemas não-lineares

Prof. Júlio Cesar Nievola


ad