1 / 55

Métodos estatísticos em aprendizagem

Métodos estatísticos em aprendizagem. Mestrado FEI Paulo Santos. Aprendizagem: raciocínio com incerteza a partir de observações. aprender teorias probabilísticas sobre o mundo a partir da experiência; soluções gerais para os problemas de ruído, memorização e previsão ótima.

cynara
Download Presentation

Métodos estatísticos em aprendizagem

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Métodos estatísticos em aprendizagem Mestrado FEI Paulo Santos

  2. Aprendizagem: raciocínio com incerteza a partir de observações • aprender teorias probabilísticas sobre o mundo a partir da experiência; • soluções gerais para os problemas de ruído, memorização e previsão ótima

  3. Aprendizagem estatística • Conceitos fundamentais: • Dados: evidências, i.e. instanciações de algumas ou de todas as variáveis aleatórias que descrevem o domínio; • Hipóteses: teorias probabilísticas de como o domínio funciona • incluindo teorias lógicas como casos particulares.

  4. Exemplo: doce surpresa • Doces de cereja e lima em embalagens idênticas. Cinco tipos de sacos de doces: • h1: 100% cereja • h2: 75% cereja + 25% lima • h3: 50% cereja + 50% lima • h4: 25% cereja + 75% lima • h5: 100% lima Observamos doces de uma sacola: Qual é o tipo da sacola? Qual será o próximo doce ?

  5. Exemplo: doce surpresa • Dado um novo saco de doce, a variável aleatória H (hipótese) denota o tipo do saco (h1, ..., h5) • H não é diretamente observável; • A medida que os doces são abertos e inspecionados, são revelados os dados - D1, D2, ... Dn, onde cada Di é uma variável aleatória com valores possíveis cereja e lima. Observamos doces de uma sacola: Qual é o tipo da sacola? Qual será o próximo doce ?

  6. Aprendizagem Bayesiana • Calcula a probabilidade de cada hipótese, considerando-se os dados, e faz previsões de acordo com ela; • as previsões são feitas com o uso de todas as hipóteses, ponderadas com suas probabilidades • A aprendizagem é reduzida à inferência probabilística

  7. Aprendizagem Bayesiana • Seja D a repres. de todos os dados, com valor observado d; então a probabilidade de cada hipótese é obtida pela regra de Bayes: P(hi|d) = cP(d| hi)P(hi) • A previsão de uma quantidade desconhecida X: Onde cada hipótese determina uma distribuição sobre X

  8. Aprendizagem Bayesiana • A previsão de uma quantidade desconhecida X: • Onde cada hipótese determina uma distribuição sobre X • I.e., as previsões são médias ponderadas sobre as previsões das hipóteses individuais • as hipóteses são intermediários entre os dados brutos e as previsões.

  9. de volta aos doces • Suponha que a distribuição a priori sobre h1,..., h5 seja dada por <0.1, 0.2, 0.4, 0.2, 0.1> • A probabilidade dos dados é calculada sob a suposição de que as observações são independentementes e identicamente distribuídas: P(d|hi) = ∏j P(dj|hi) • i.e, uma observação não depende das anteriores, dado as hipóteses

  10. de volta aos doces • Suponha que a sacola seja realmente uma sacola só com doces de lima (h5) e que os primeiros 10 doces sejam todos de lima; então • P(d|h3) = ∏j P(dj|h3) = 0.510 • (metade dos doces em h3 é de lima) • Como as probabilidades mudam com novas observações ?

  11. Probabilidade Posterior de Hipóteses Prob a priori

  12. Probabilidades prevista de que o próximo doce seja de lima

  13. Probabilidades prevista de que o próximo doce seja de lima

  14. Aprendizagem Bayesiana • Dada a distribuição a priori de todas as hipóteses • A hipótese verdadeira eventualmente domina a previsão Bayesiana • A previsão é ótima quer o conjunto de dados seja pequeno ou grande • para problemas reais de aprendizagem o espaço de hipóteses é em geral muito grande ou infinito

  15. Aprendizagem Bayesiana aproximada : MAP • Fazer previsões com uma única hipótese: a mais provável: • hi que maximize P(hi|d) • hipótese de máximo a posteriori: MAP • previsões aproximadamente Bayesianas: P(X|d) ≈ P(X|hMAP) • após 3 doces de lima seguidos hMAP= h5 • o 4o doce será previsto de lima com 100% de certeza

  16. MAP • maximizar P(hi|d) P(hi|d) = cP(d| hi)P(hi) • logo hMAP para maximizar P(d| hi)P(hi) é equivalente a minimizar: - log2 P(d|hi) - log2 P(hi)

  17. MAP • Outra possibilidade é tomar o logaritmo de: P(hi|d) = cP(d| hi)P(hi) • logo hMAP para maximizar P(d| hi)P(hi) e equivalente a minimizar: - log2 P(d|hi) - log2 P(hi) número de bits necessários para especificar hi número adicional de bits para especificar os dados

  18. MAP - log2 P(d|hi) - log2 P(hi) número de bits em hi para especificar (explicar) os dados número adicional de bits para especificar os dados (considere que nenhum bit é necessário se a hipótese prevê os dados exatamente: log 1 = 0

  19. MAP - log2 P(d|hi) - log2 P(hi) • Minimizar isso significa, portanto, encontrar a hipótese que encontre a compactação máxima dos dados

  20. MAP • encontrar a hipótese que encontre a compactação máxima dos dados Principal idéia por traz dá aprendizagem por comprimento mínimo de descrição (CMD) [minimum description length (MDL) learning]: minimizar o tamanho da hipótese e das codificações dos dados

  21. Aprendizagem de parâmetros com dados completos • Aprendizagem de parâmetros com dados completos: • descoberta dos parâmetros numéricos para um modelo de probabilidade cuja estrutura é fixa • Dados são completos quando cada ponto de dados contém valores para toda variável no modelo de probabilidade que está sendo aprendido. • simplificam o processo de aprendizagem

  22. Exemplo • saco de doces de um novo fabricante cujas proporções de cereja e lima são completamente desconhecidas (entre 0 e 1) • quantidade contínua de hipóteses • O parâmetro (θ) é a proporção de doces de cereja (1 - θ é a prop de lima) • A hipótese é hθ

  23. Exemplo • supondo que todas as proporções são igualmente prováveis a priori: • máxima probabilidade é razoável • Modelando como uma rede Bayesiana:

  24. Aprendizagem de parâmetros em redes Bayesianas • Desembrulhando N doces (“c” de cereja e “N - c” lima) • A hipótese de máxima probabilidade é dada pelo valor de θ que maximiza essa expressão, também obtido maximizando-se:

  25. Aprendizagem de parâmetros em redes Bayesianas • O valor de máxima probabilidade de θ é obtido por:

  26. Aprendizagem de parâmetros de máxima probabilidade • Escrever uma expressão para a probabilidade dos dados como uma função dos parâmetros • Escrever a derivada da probabilidade logarítmica com relação a cada parâmetro • Encontrar os valores de parâmetros tais que as derivadas sejam iguais a zero

  27. Aprendizagem de parâmetros de máxima probabilidade • Principal problema (small sample size problem): • para conjuntos de dados pequenos, alguns eventos recebem probabilidade zero • divisão não definida

  28. Outro exemplo: • Embalagens de doces coloridas de vermelho e verde • a embalagem de cada doce é selecionada probabilisticamente, segundo alguma distribuição condicional desconhecida, dependendo do sabor

  29. Múltiplos parâmetros • três parâmetros θ, θ1, θ2. • A probabilidade de ver um doce de cereja em uma embalagem verde (segundo a semântica de redes Bayesianas) é:

  30. Multiplos parâmetros • Desembrulhamos N doces: c (cer.) e l (lima) • rc de cereja tem embalagens vermelhas • gc de cereja tem embalagens verdes • rl e gl analogamente

  31. Múltiplos parâmetros • A probabilidade dos dados é, portanto:

  32. Múltiplos parâmetros

  33. Múltiplos parâmetros • esses resultados podem ser estendidos a qqr rede Bayesiana cujas probabilidades condicionais são dadas como tabelas • com dados completos, o problema de aprendizagem de parâmetros por máxima probabilidade se decompõe em problemas de aprendizagem separados: um para cada parâmetro. • os valores de parâmetros para uma variável, dados seus pais, são as frequências observadas dos valores de variáveis para cada configuração dos valores dos pais

  34. Aprendizagem de parâmetros de máxima probabilidade: modelo Gaussiano Linear • modelos de probabilidade contínuos • os princípios são idênticos aos do caso discreto • Ex. aprendizagem de parâmetros de uma função de densidade gaussiana sob uma única variável:

  35. parâmetros desse modelo: • μ: média e σ: desvio padrão • Sejam os valores observados x1, ..., xN. Então a probabilidade logarítmica é:

  36. Definindo as derivadas como zero: i.e. o valor de máxima probabilidade da média é a média das amostras e o valor de máxima probabilidade do desvio-padrão é a raiz quadrada da variância das amostras

  37. Considere um modelo gaussiano linear com um pai contínuo X e um filho contínuo Y. • Para aprender a distribuição condicional P(Y|X) podemos maximizar a probabilidade condicional: • para os parâmetros: θ1, θ2 e σ

  38. (yj - (θ1xj + θ2 ))2 é o erro para (xj,yj) • ‘E’ é a soma de erros quadráticos • quantidade minimizada por regressão linear

  39. a minimização da soma dos erros quadráticos fornece o modelo de linha reta de máxima probabilidade, desde que os dados sejam gerados com ruído gaussiano de variância fixa.

  40. Aprendizagem de estruturas de redes Bayesianas • Até agora supomos que a estrutura da rede bayesiana é dada: • somente aprende-se os parâmetros • Em alguns casos o modelo causal está indisponível ou em disputa

  41. Aprendizagem de estruturas • Abordagem óbvia: • buscar um modelo: • iniciar com um modelo que não contenha nenhum vínculo e começar a adicionar pais correspondentes a cada nó, ajustando os parâmetros e medindo a exatidão do modelo resultante. • começar com um palpite inicial sobre a estrutura e utilizar busca por subida de encosta para fazer modificações, retornando os parâmetros após cada mudança de estrutura. • modificações: inversão, adição ou eliminação de arcos. • busca sobre ordenações possíveis

  42. Aprendizagem de estruturas • Uma boa estrutura foi encontrada? • testar se as asserções de independência condicional implícitas na estrutura são realmente satisfeitas nos dados. P(Sex/Sab, Bar|VaiEsperar) = P(Sex/Sab|VaiEsperar)P(Bar|VaiEsperar) • Verificar nos dados se esta equação é válida. • ainda que a estrutura descreva a verdadeira natureza causal do domínio, flutuações estatísticas no conjunto de dados significam que a equação nunca será satisfeita exatamente, e então precisamos utilizar um teste estatístico apropriado para verificar se existe evidência estatística suficiente de que a hipótese de independência foi violada • quanto mais rígido for este teste, mais vínculos serão adicionados e maior o risco de superadaptação.

  43. Aprendizagem de variáveis ocultas • Variáveis ocultas (ou latentes) • ex. registros médicos contêm sintomas observáveis e o tratamento, mas raramente uma observação da doença! • Por que não construir um modelo sem esta variável?

  44. Aprendizagem de variáveis ocultas

  45. Aprendizagem de variáveis ocultas • Variáveis latentes podem reduzir drasticamente o número de parâmetros exigidos para especificar uma rede Bayesiana.

  46. Aprendizagem de variáveis ocultas:o algoritmo EM • EM: Expectation Maximization (Esperança Maximização) • Formação de agrupamentos não supervisionados • Distinguir várias categorias em uma coleção de objetos • não supervisionado: os rótulos não são dados

  47. Aprendizagem de variáveis ocultas:o algoritmo EM • Formação de agrupamentos não supervisionados • Começamos dos dados • ajustar alguma distribuição de probabilidades que pudesse ter gerado os dados • Pressupõe que os dados são gerados a partir de uma distribuição de mistura P • uma distribuição tem k componentes, cada um dos quais é uma distribuição: P(x) = ∑ki=1P(C = i) P(x|C = i)

  48. Aprendizagem de variáveis ocultas:o algoritmo EM • Formação de agrupamentos não supervisionados • No caso de dados contínuos: • gaussiana multivariada: fornece uma família de distribuições chamada mistura de distribuições gaussianas • wi = P(C=i) --- peso de cada componente • μi ---- media de cada componente • Σi --- co-variância de cada componente

  49. Aprendizagem de variáveis ocultas:o algoritmo EM

  50. o algoritmo EM • O problema de formação de agrupamentos não-supervisionados consiste em recuperar um modelo de mistura como o da Fig. 20.8(b) a partir de dados brutos como os da Fig. 20.8 (a). • Idéia básica: • fingir que conhecemos os parâmetros do modelo e depois deduzir a probabilidade de cada ponto de dados pertencer a cada componente • depois disso, readaptamos os componentes aos dados, onde cada componente é ajustado ao conjunto de dados inteiro, cada ponto ponderado com a possibilidade de pertencer a esse componente

More Related