T picos especiais em aprendizagem
Download
1 / 79

Tópicos Especiais em Aprendizagem - PowerPoint PPT Presentation


  • 78 Views
  • Uploaded on

Tópicos Especiais em Aprendizagem. Prof. Reinaldo Bianchi Centro Universitário da FEI 2007. Introdução. Meu 1/3 da disciplina de TEA. Objetivo: Apresentar aos alunos a disciplina de Aprendizado por Reforço (AR ou RL). 3 aulas divididas em: Introdução ao AR. Métodos avançados de AR.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Tópicos Especiais em Aprendizagem' - graceland


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
T picos especiais em aprendizagem

Tópicos Especiais em Aprendizagem

Prof. Reinaldo Bianchi

Centro Universitário da FEI

2007


Introdu o
Introdução

  • Meu 1/3 da disciplina de TEA.

  • Objetivo:

    • Apresentar aos alunos a disciplina de Aprendizado por Reforço (AR ou RL).

  • 3 aulas divididas em:

    • Introdução ao AR.

    • Métodos avançados de AR.

    • Combinação de AR e outras áreas.



Refer ncias b sicas
Referências Básicas

  • “Reinforcement Learning: An introduction”, de Sutton & Barto:

    • http://envy.cs.umass.edu/~rich/book/the-book.html

  • “Reinforcement Learning: A Survey”, de Kaelbling & Littman:

    • http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a-html/rl-survey.html

  • Capítulo 13 do livro Machine Learning, do Tom Mitchell.

  • Capítulo 20 do livro Artificial Intelligence, Russell & Norvig.



O livro reinforcement learning an introduction1
O Livro: Reinforcement Learning: an introduction.

  • Part I: The Problem

    • Introduction

    • Evaluative Feedback

    • The Reinforcement Learning Problem

  • Part II: Elementary Solution Methods

    • Dynamic Programming

    • Monte Carlo Methods

    • Temporal Difference Learning


O livro rl an introduction
O Livro:RL: an introduction

  • Part III: A Unified View

    • Eligibility Traces

    • Generalization and Function Approximation

    • Planning and Learning

    • Dimensions of Reinforcement Learning

    • Case Studies


Objetivo desta aula
Objetivo desta Aula

  • Introdução ao Aprendizado por Reforço:

    • Introdução.

    • Avaliação e seleção das ações.

    • O problema do AR.

    • Programação Dinâmica.

  • Aula de hoje: capítulos 1 a 4 do Sutton & Barto.


Introdu o1

Introdução

Capítulo 1 do Sutton e Barto.


Motiva o
Motivação

  • Desenvolver agentes capazes de aprender a escolher ações apenas interagindo com o ambiente

    • Em alguns problemas, é impraticável o uso de aprendizagem supervisionada

      • Como obter exemplos do comportamento correto e representativo para qualquer situação?

      • E se o agente for atuar em um ambiente desconhecido?

    • Exemplos:

      • Criança adquirindo coordenação motora

      • Robô interagindo com um ambiente para atingir objetivo(s)


Reas do ar
Áreas do AR

Inteligência Artificial

Controle e

Pesquisa Operacional

Psicologia

Aprendizado

por Reforço

Neurociências

Redes Neurais Artificiais


O que o aprendizado por refor o
O que é o Aprendizado por Reforço?

  • Aprendizado por interação.

  • Aprendizado orientado a objetivos.

  • Aprendizado sobre, do e enquanto interagindo com um ambiente externo.

  • Aprender o que fazer:

    • Como mapear situações em ações.

    • Maximizando um sinal de recompensa numérico.


Por que usar o ar
Por que usar o AR?

  • Para problemas de otimização e controle, quando não se conhece o modelo do problema.


Aprendizado supervisionado
Aprendizado Supervisionado

Training Info = desired (target) outputs

Supervised Learning

System

Inputs

Outputs

Erro = (target output – actual output)


Aprendizado n o supervisionado
Aprendizado Não Supervisionado

Unsupervised Learning

System

Inputs

Outputs

Objetivo: agrupar objetos semelhantes


Aprendizado por refor o
Aprendizado por Reforço

Training Info = evaluations (“rewards” / “penalties”)

RL

System

Inputs

Outputs (“actions”)

Objetivo: conseguir o máximo de reforço possível


Pontos chaves do ar
Pontos chaves do AR

  • Ao aprendiz não é definido que ações tomar:

    • Aprendizado por busca, tentativa e erro.

  • Possibilidade de reforços arrasados;

    • Sacrifica-se ganhos imediatos e valoriza-se ganhos a longo prazo.

  • A necessidade de explorar e explotar.

  • Considera o problema de um agente com um objetivo como um todo, interagindo em um ambiente.

  • Ambiente estocástico e incerto.


Agente no ar
Agente no AR

  • Situado no tempo.

  • Aprendizado e planejamento continuo.

  • Objetivo é modificar o ambiente.

Ambiente

Ação

Estado

Recompensa

Agente


Elementos do ar
Elementos do AR

  • Política (Policy): o que fazer.

  • Recompensa (Reward): o que é bom.

  • Valor (Value): o que é bom porque prevê uma recompensa.

  • Modelo (Model): o que causa o que.

Policy

Reward

Value

Model of

environment


Exemplo jogo da velha
Exemplo: Jogo da velha.

X

X

X

X

X

O

X

X

X

O

X

X

X

O

X

X

O

X

O

O

O

X

O

O

X

O

O

O

} x’s move

...

x

x

x

} o’s move

...

...

...

x

o

o

o

x

x

} x’s move

x

...

...

...

...

...

} o’s move

Assuma um oponente imperfeito: as vezes, ele comete erro.

} x’s move

x

o

x

x

o


Uma abordagem ar para velha
Uma abordagem AR para Velha

  • 1. Crie uma tabela com uma entrada por estado:

Estado V(s) – probabilidade estimada de ganhar

.5 ?

.5 ?

x

. . .

. . .

1 win

x

x

x

o

o

. . .

. . .

0 loss

x

o

o

x

o

. . .

. . .

o

o

x

0 draw

x

x

o

x

o

o


Uma abordagem ar para velha1

Estado atual

Todos os possíveis próximos estados

*

Uma abordagem AR para Velha

  • 2. Agora, jogue muitas vezes:

    • Para escolher a ação, olhe para o que acontece um passo adiante:

  • Escolha:

    • 90% das vezes um movimento de explotação(greedy move): a ação que leva ao estado com a maior probabilidade estimada de vencer V(s).

    • 10% das vezes um movimento de exploração (exploratory move): escolha uma ação aleatória.


Uma abordagem ar para velha2
Uma abordagem AR para Velha

  • 3. Atualizando a tabela:

    • Enquanto se joga, modifica-se os valores dos estados pelos quais se passa durante o jogo.

    • Tentativa de torna-los estimativas mais precisas da probabilidade de vencer.

    • Para tanto, se copia (“back-up”) os valores de estado após uma movimentação de explotação (greedy) para o estado anterior ao movimento.

  • Mais precisamente, ajusta-se o valor do estado anterior para ficar mais próximo do estado seguinte.


Uma abordagem ar para velha3
Uma abordagem AR para Velha

  • 3. Atualizando a tabela:

    • Sabendo que:

      • s = o estado antes da escolha da ação a executar.

      • s´ = o estado após a execução da ação escolhida.

    • Incrementa-se V(s) na direção de V(s´):

    • Onde:

      • 0 <  < 1 é á taxa de aprendizado.


Uma abordagem ar para velha4
Uma abordagem AR para Velha

Jogada exploratória:

Não atualiza V(s).


Uma abordagem ar para velha5
Uma abordagem AR para Velha

  • Este método de atualização dos valores de V(s) é um tipo de aprendizado usando diferenças temporais (temporal-difference learning method).

    • A modificação em V(s) é baseada na diferença V(s´) - V(s),estimados em dois instantes de tempos diferentes.

    • Um backup.

    • Será visto mais a fundo (capítulo 6).


Como melhorar este jogador
Como melhorar este jogador?

  • Tirar vantagens de simetrias:

    • Representação/generalização?

    • É vantajoso? E se o oponente não usar?

  • Os movimentos de exploração aleatórios são realmente necessários?

  • Pode-se aprender durante os movimentos aleatórios?

  • Pode-se aprender de maneira offline?

    • Pré-treinamentos?

    • Usando modelos do oponente?


Exemplo generaliza o
Exemplo: generalização.

Table Generalizing Function Approximator

State V

State V

s

s

s

.

.

.

s

1

2

3

Train

here

N


Exemplo generaliza o1
Exemplo: generalização.

Table Generalizing Function Approximator

State V

State V

s

s

s

.

.

.

s

1

2

3

Train

here

N


Jogo da velha muito f cil
Jogo da velha é muito fácil?

  • Sim...

    • Jogo finito e curto.

    • Pequeno número de estados.

    • Olhar um passo a frente é sempre possível.

    • Estado completamente observável...


Alguns exemplos not veis de ar
Alguns exemplos notáveis de AR

  • TD-Gammon: Tesauro

    • O melhor jogador de Gamão do mundo.

  • Controle de Elevadores: Crites & Barto

    • Controladores de alto desempenho.

  • Gerenciamento de inventario: Van Roy, Bertsekas, Lee&Tsitsiklis

    • Melhoria de 10–15% sobre os modelos usados.

  • Dynamic Channel Assignment: Singh & Bertsekas, Nie & Haykin

    • Alocação de canais em telefonia celular.


Td gammon
TD-Gammon

Tesauro, 1992–1995

  • Inicie com uma rede neural aleatória.

  • Jogue muitas vezes contra si mesmo.

  • Aprenda destes jogos.

  • Produziu o melhor jogador de gamão no mundo (incluindo campeões humanos).

  • Action selection

    by 2–3 ply search

    Value

    TD error


    Td gammon1
    TD-Gammon

    TD-Gammon

    self-play

    • Especialistas são escassos e caros

    • Experiência é barata, e ensina a solução real.

    70%

    Tesauro, 1992

    performance

    against

    gammontool

    Neurogammon

    same network, but

    trained from 15,000

    expert-labeled examples

    50%

    10

    20

    40

    80

    0

    # hidden units


    Controle de ele v adores
    Controle de Elevadores

    Crites and Barto, 1996

    10 andares, 4 cabines

    STATES: button states; positions, directions, and motion states of cars; passengers in cars & in halls

    ACTIONS: stop at, or go by, next floor

    REWARDS: roughly, –1 per time step for each person waiting

    22

    Conservatively about 10 states



    O problema do carro na montanha

    STATES: car's position and velocity

    ACTIONS: three thrusts: forward, reverse, none

    REWARDS: always –1 until car reaches the goal

    No Discounting

    O problema do Carro na Montanha

    Moore, 1990

    Goal

    Gravity wins

    Minimum-Time-to-Goal Problem


    Algumas aplica es
    Algumas aplicações

    • Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)

      • Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço

      • RL em situações específicas

        • 2 atacantes contra 2 defensores

        • habilidades básicas

    • Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...


    Patrulha multi agente
    Patrulha multi-agente

    • Dado um mapa, um grupo de agentes deve visitar continuamente locais específicos deste mapa de maneira a minimizar o tempo que os nós ficam sem serem visitados

    • Recompensa: ociosidade dos nós visitados


    Jogos
    Jogos

    • Aprendizagem por reforço para:

      • IA do jogador.

      • Adaptação ao usuário.



    Aprendizagem por refor o
    Aprendizagem por reforço

    • Tarefa de aprendizagem por reforço:

      • Aprender uma política de ações * ótima, que maximiza a função V (V*) ou a função Q (Q*)

        • * = argmax[V(s)]

    • Em outras palavras, de que maneira o agente deve agir para maximizar as suas recompensas futuras


    Exemplo labirinto
    Exemplo: Labirinto

    Função recompensa

    Função V*

    Função Q*

    Política de ações ótima


    Aprendendo uma pol tica tima
    Aprendendo uma política ótima

    • Se o ambiente é conhecido, ou seja, T(s,a) = s’ e r(s,a) são conhecidos:

      • V*(s) =maxa[ r(s,a) + V*((s,a) ) ]

      • *(s) = argmaxa[r(s,a) + V*((s,a) )]

      • Equações de Bellman:

        • Programação dinâmica computa uma política ótima em tempo polinomial

    • E se não temos conhecimento prévio do ambiente, ou se for difícil estimar estas funções?


    Q learning
    Q Learning

    • Algoritmo de aprendizagem para computar a função Q ótima (valor das ações)

      • *(s) = argmaxa[Q(s,a)]

        • não é função de Tnem de r

    • Q*(st,at) = r(st,at) +  maxa’ [Q(st+1,a’)]

      • Como atualizar Q sem precisar de r(st,at) nem de T ?


    Q learning1
    Q-Learning

    • Atualiza-se Q(st) após observar o estado st+1 e recompensa recebida

    • Q(s1,aright) = r + maxa’Q(s2,a’) = 0 + 0.9 max{63,81,100} = 90


    Algoritmo q learning para mundos determin sticos
    Algoritmo Q-Learning para mundos determinísticos

    • Para todo estado s e ação a, inicialize a tabela Q[s][a] = 0;

    • Para sempre, faça:

      • Observe o estado atual s;

      • Escolha uma ação a e execute;

      • Observe o próximo estado s’ e recompensa r

      • Atualize a tabela Q:

        • Q[s][a] = r +  maxa’ (Q[s’][a’])

    Usufruir valores conhecidos ou explorar valores não computados?


    Avalia o e sele o das a es evaluative feedback

    Avaliação e seleção das ações.(Evaluative Feedback)

    Capítulo 2 do Sutton e Barto.


    Avaliando a es
    Avaliando ações

    • Avaliando ações versus instrução através de exemplos de ações corretas:

      • Reforço puramente avaliativo depende totalmente na ação executada.

      • Reforço puramente instrutivo independe completamente da ação executada.

    • Aprendizado supervisionado é instrutivo

    • Otimização é avaliativo (evaluative).


    Avaliando a es1
    Avaliando ações

    • Associativo versus Não-associativo:

      • Associativo: entradas mapeiam saídas; aprende a melhor saída para cada entrada.

      • Não-associativo: “aprende” (encontra) uma saída ótima.

    • O problema do bandido de n-braços (n-armed bandit) é:

      • Não-associativo.

      • Avaliativo.


    The 1 armed bandit problem
    The 1-Armed Bandit Problem


    The 1 armed bandit problem1
    The 1-Armed Bandit Problem


    The n armed bandit problem
    The n-Armed Bandit Problem

    • Escolha repetidamente uma entre n ações;

      • Cada escolha é uma jogada.

    • O objetivo é maximizar as recompensas recebidas a longo prazo.

    • Para solucionar o problema do bandido de n-braços deve-se:

      • Explorar uma variedade de ações, e

      • Exploitar as melhores ações.


    The n armed bandit problem1
    The n-Armed Bandit Problem

    • Após cada jogada at,recebe uma recompensart, onde:

    • Estes são os valores-ação (action-values), desconhecidos:

      • Distribuição de rt,depende somente de at.


    O dilema explora o exploita o
    O dilema exploração/exploitação

    • Suponha que você estime os valores-ação:

    • A ação exploitatória (ou gulosa ou greedy) é:

    • Casos possíveis:

      • Não se pode explorar o tempo todo; não se pode exploitar o tempo todo...

      • Não se deve parar a exploração, mas deve ser reduzida com o tempo...


    M todos valores a o

    Métodos Valores-Ação

    Métodos mais simples o possível


    M todos valores a o1
    Métodos Valores-Ação

    • São métodos que adaptam as estimativas dos valores-ação.

    • Exemplo: suponha que na n-ésima jogada a ação a foi escolhida ka vezes, resultando em recompensas

    • Então a média amostrada é:

    • e


    Sele o de a es greedy
    Seleção de ações -Greedy

    • A seleção de ações gulosa (greedy) é:

    • Uma modificação gera a -Greedy:

    • A maneira mais simples de balancear exploração e exploitação...

    {


    Exemplo 10 armed b andit
    Exemplo:10-Armed Bandit

    • n = 10 possíveis ações.

    • Cada Q*(a) é escolhido de maneira aleatória a partir de uma distribuição normal (0,1).

    • Cada reforço rt também é normal:

    • 1000 jogadas.

    • Média de 2000 repetições (trials).


    M tod o s e greedy no problema 10 armed b andit
    Métodos e-Greedy no problema 10-Armed Bandit


    Sele o de a es greedy1
    Seleção de ações -Greedy

    • Método de escolha de ações efetivo e popular...

    • A maneira mais simples de balancear exploração e exploitação...

    • Mas possui um problema:

      • Escolhe de maneira igual entre todas as ações a explorar.

      • Em tarefas onde a pior ação é muito ruim, pode se tornar um problema.


    Sele o de a es softmax
    Seleção de ações Softmax

    • Métodos de escolha de ação “Softmax” ponderam probabilidades e valores estimados.

    • O mais comum utiliza uma distribuição de Gibbs ou Boltzmann:

      • Escolha a ação a em uma jogada t com a probabilidade:

      • onde t é a “temperatura”.


    Implementa o incremental
    Implementação Incremental

    • O método de estimativa da média por amostragem computa a média dos primeiros kreforços utilizando:

    • Problema:

      • A cada reforço, mais memória para guardar a lista é necessária e mais esforço para calcular Q é preciso.

      • Requisitos computacionais e de memória crescem com o tempo, não sendo limitados.


    Implementa o incremental1
    Implementação Incremental

    • Como computar Q passo a passo, sem guardar todos os reforços?



    Implementa o incremental2
    Implementação Incremental

    • Ou seja, pode se calcular Q passo a passo usando:

    • Esta implementação requer memória para armazenar apenas Qk e pouca computação.


    Implementa o incremental3
    Implementação Incremental

    • Esta é uma forma muito comum para as regras de atualização dos valores:

    • Onde:

      • StepSizedetermina quão rápido se atualiza os valores.

      • Para casos não estacionários...

    NewEstimate=OldEstimate+StepSize[Target–OldEstimate]


    O problema n o estacion rio
    O problema não estacionário

    • Escolhendo Qk como uma média amostrada é apropriado para o problema onde Q*(a) é não muda com o tempo (é estacionário).

    • No caso não estacionário deve-se usar uma média exponencial ponderada:


    Valores iniciais
    Valores iniciais

    • O método iterativo visto depende do valor inicial de Qk=0 (a).

    • Suponha uma inicialização otimista:

      • No caso do n-armed bandit: Q0 (a)=5, a.



    Avalia o versus instru o1
    Avaliação versus Instrução

    • The n-armed bandit problem we considered above is a case in which the feedback is purely evaluative.

      • The reward received after each action gives some information about how good the action was, but it says nothing at all about whether the action was correct or incorrect, that is, whether it was a best action or not.

      • Here, correctness is a relative property of actions that can be determined only by trying them all and comparing their rewards.


    Avalia o versus instru o2
    Avaliação versus Instrução

    • You have to perform some form of the generate-and-test method whereby you try actions, observe the outcomes, and selectively retain those that are the most effective.

    • This is learning by selection, in contrast to learning by instruction, and all reinforcement learning methods have to use it in one form or another.


    Avalia o versus instru o3
    Avaliação versus Instrução

    • RL contrasts sharply with supervised learning, where the feedback from the environment directly indicates what the correct action should have been.

    • In this case there is no need to search:

      • whatever action you try, you will be told what the right one would have been.

      • There is no need to try a variety of actions; the instructive "feedback" is typically independent of the action selected (so is not really feedback at all).


    Avalia o versus instru o4
    Avaliação versus Instrução

    • The main problem facing a supervised learning system is to construct a mapping from situations to actions that mimics the correct actions specified by the environment and that generalizes correctly to new situations.

    • A supervised learning system cannot be said to learn to control its environment because it follows, rather than influences, the instructive information it receives.

    • Instead of trying to make its environment behave in a certain way, it tries to make itself behave as instructed by its environment.


    Binary bandit tasks

    Suppose you have just two actions:

    and just two rewards:

    Binary Bandit Tasks

    Then you might infer a target or desired action:

    {

    and then always play the action that was most often the target

    Call this the supervised algorithm

    It works fine on deterministic tasks…


    Contingency space
    Contingency Space

    The space of all possible binary bandit tasks:


    Linear learning automata
    Linear Learning Automata

    For two actions, a stochastic, incremental version of the supervised algorithm



    Conc l us o parcial
    Conclusão parcial

    • Tudo mostrado até aqui é muito simples:

      • Mas complicados os suficiente...

      • Métodos melhores serão construídos a partir destes.

    • Como melhorar estes métodos?

      • Estimar incertezas.

      • Utilizar aproximadores de funções.

      • Introduzir Bayes...

    • Após o intervalo, formalização do problema do Aprendizado por Reforço...



    ad