avalia o do conhecimento descoberto n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Avaliação do Conhecimento Descoberto PowerPoint Presentation
Download Presentation
Avaliação do Conhecimento Descoberto

Loading in 2 Seconds...

play fullscreen
1 / 73

Avaliação do Conhecimento Descoberto - PowerPoint PPT Presentation


  • 85 Views
  • Uploaded on

Avaliação do Conhecimento Descoberto. Fábio Moura orientado por Francisco Carvalho. Motivação Treinamento e teste Estimando performance Cross-validation Leave-one-out cross-validation Bootstrap Comparando esquemas de aprendizado Predizendo probabilidades

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Avaliação do Conhecimento Descoberto' - iliana


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
avalia o do conhecimento descoberto

Avaliação do Conhecimento Descoberto

Fábio Moura

orientado por

Francisco Carvalho

avalia o do conhecimento descoberto1
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
motiva o
Motivação
  • Avaliação: a chave para o sucesso em data mining
  • Qual o grau de confiabilidade do modelo aprendido?
  • Performance no conjunto de treinamento não é um bom indicador de performance em dados futuros
  • Solução simples
    • Utilize um amplo conjunto de dados para treinamento e teste
  • Quando dados não são facilmente disponíveis
    • Utilização de técnicas mais sofisticadas
    • Ex.: dados sobre consumo de energia dos últimos 15 anos
t picos em avalia o do conhecimento descoberto
Tópicos em Avaliação do Conhecimento Descoberto
  • Testes estatísticos para determinar a performance de diferentes esquemas de aprendizado de máquina
  • Escolha da medida de performance
    • Número de classificações corretas
    • Precisão da previsão de probabilidade em classes
    • Erros em previsões numéricas
  • Custos associados a diferentes tipos de erros
    • Muitas aplicações práticas envolvem custos
avalia o do conhecimento descoberto2
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
treinamento e teste
Treinamento e Teste
  • Medida natural para classificação de problemas: taxa de erro
    • Acerto: instância da classe é prevista corretamente
    • Erro: instância da classe é prevista incorretamente
    • Taxa de erro: proporção dos erros sobre todo o conjunto de instâncias
  • Erro de resubstituição: taxa de erro obtida do conjunto de treinamento
  • Erro de resubstituição é (esperançosamente) otimista !
treinamento e teste1
Treinamento e Teste
  • Conjunto de teste: conjunto de instâncias independentes que não são utilizadas na formação do classificador
    • Suposição: tanto o conjunto de dados para treinamento como o conjunto de dados para teste são exemplos representativos do problema em questão
  • Dados de teste e treinamento podem ser naturalmente diferentes
    • Exemplo: classificadores construidos utilizando-se dados de duas cidades diferentes A e B
      • Estimar a performance de um classificador da cidade A e testá-lo utilizando-se dados da cidade B
observa es sobre ajuste de par metros
Observações sobre Ajuste de Parâmetros
  • É importante que os dados de teste não sejam utilizados para criação do classificador
  • Alguns esquemas de aprendizado operam em dois estágios
    • Estágio 1: construção da estrutura básica
    • Estágio 2: otimização dos parâmetros
  • Os dados de teste não podem ser utilizados para ajuste dos parâmetros
  • Procedimentos apropriados utilizam três conjuntos: dados de treinamento, validação e teste
    • Dados de validação são utilizados para otimização dos parâmetros
aproveitando melhor os dados
Aproveitando Melhor os Dados
  • Uma vez que a avaliação está completa, todos os dados podem ser utilizados na construção do classificador final
  • Geralmente, quanto maior o conjunto de dados para treinamento, melhor o classificador
  • Quanto maior o conjunto de dados para teste, mais precisa a estimativa de erro
  • Procedimento Holdout: método para divisão dos dados originais nos conjuntos de treinamento e teste
    • Dilema: idealmente queremos os dois, um grande conjunto de dados para treinamento e para teste
avalia o do conhecimento descoberto3
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
estimando performance
Estimando Performance
  • Assuma uma taxa de erro estimada de 25%. O quão perto esta taxa está da taxa de erro real?
    • Depende do volume de dados para teste
  • Previsão é como jogar uma moeda viciada
    • “Cara” é um “acerto”, “coroa” é um “erro”
  • Em estatística, uma sucessão de eventos independentes como este é chamado de um processo Bernoulli
    • A teoria estatística nos provê com intervalos de confidência que mostra a proporção em que a verdade se fundamenta
intervalos de confid ncia
Intervalos de Confidência
  • Nós podemos dizer: p possui um certo intervalo especificado com uma certa confidência especificada
  • Exemplo: S=750 acertos em N=1000 tentativas
    • Taxa de acerto estimada: 75%
    • O quão próximo esta taxa está da verdadeira taxa de acerto p?
      • Resposta: com 95% de confidência p [73.3, 76.8]
  • Outro exemplo: S=75 e N=100
    • Taxa de acerto estimada: 75%
    • Com 95% de confidência p [70.0, 81.0]
m dia e vari ncia
Média e Variância
  • Média e variância para um teste Bernoulli: p, p(1-p)
  • Taxa de acerto esperada f =S/N
  • Média e variância para f: p, p(1-p)/N
  • Para um N suficientemente grande, f segue uma distribuição normal
  • c% intervalo de confidência [-z  X  z] para uma variável aleatória com média 0 é dada por: Pr[-z  X  z] = c
  • Dando uma distribuição simétrica: Pr[-z  X  z] = 1 - (2*Pr[X  z])
limites de confid ncia
Limites de Confidência
  • Limites de confidência para uma distribuição normal com média 0 e variância 1:
  • Assim: Pr[-1,65  X  1,65] = 90%
  • Para utilizar isto, temos que reduzir nossa variável aleatória f para que tenha média 0 e variância unitária
transformando f
Transformando f
  • Valor transformado para f: (i.e. subtração da média e divisão pelo desvio padrão)
  • Equação resultante:
  • Resolvida para p:
exemplos
Exemplos
  • f=75%, N=1000, c=80% (então z=1.28): p[0.732, 0.767]
  • f=75%, N=100, c=80% (então z=1.28): p[0.691, 0.801]
  • Note que a suposição de distribuição normal somente é válida para um N “grande” (i.e. N > 100)
  • f=75%, N=10, c=80% (então z=1.28): p[0.549, 0.881]
estimativa holdout
Estimativa Holdout
  • O que devemos fazer se a quantidade de dados é limitada?
  • O método holdout reserva uma certa quantidade de dados para teste e utiliza o restante para treinamento
    • Normalmente: um terço para teste, o restante para treinamento
  • Problema: os exemplos podem não ser representativos
    • Exemplo: classe faltando nos dados de teste
  • A versão avançada utiliza estratificação
    • Garante que cada classe esteja representada com aproximadamente a mesma proporção em ambos conjuntos
m todo holdout repetitivo
Método Holdout Repetitivo
  • A estimativa holdout pode se tornar mais confiável se repetirmos o processo com diferentes subexemplos
    • Em cada iteração, uma certa proporção é aleatoriamente selecionada para treinamento (possivelmente com estratificação)
    • Um média das taxas de erro nas diferentes iterações é calculada para produção de uma taxa de erro geral
  • Continua não sendo ótimo: diferentes conjuntos de teste se sobrepõem
    • Podemos prevenir sobreposição?
cross validation
Cross-validation
  • Cross-validation evita sobreposição de conjuntos de teste
    • Primeiro passo: os dados são divididos em k subconjuntos de tamanho igual
    • Segundo passo: cada subconjunto, em fila, é utilizado para teste e o restante para treinamento
  • Este processo é chamado k-fold cross-validation
  • Geralmente os subconjuntos são estratificados antes que a validação cruzada seja realizada
  • Calcula-se a média dos erros estimados a fim de se produzir uma estimativa de erro geral
cross validation1
Cross-validation
  • Método padrão de avaliação: ten-fold cross-validation estratificado
  • Por que dez? Experimentos extensivos mostraram que esta é a melhor escolha a fim de se conseguir uma estimativa precisa
    • Também existem algumas evidências teóricas
  • Estratificação reduz a variação da estimativa
  • Ainda melhor: cross-validation estratificado repetitivo
    • Ten-fold cross-validation é repetido dez vezes e a média dos resultados é calculada
leave one out cross validation
Leave-one-out Cross-validation
  • É uma forma particular de cross-validation:
    • O número de “folds” é fixado com o número de instâncias para treinamento
    • Um classificador tem que ser construído n vezes, onde n é o número de instâncias para treinamento
  • Faz uso máximo dos dados
  • Não envolve o uso de subexemplos aleatórios
  • Computacionalmente muito caro
loo cv e estratifica o
LOO-CV e Estratificação
  • Outra desvantagem do LOO-CV: não é possível estratificação
    • Há apenas uma instância no conjunto de teste
  • Exemplo extremo: conjunto de dados completamente aleatório com duas classes em igual proporção
    • Melhor indutor que prevê a classe majoritária (resulta em 50%)
    • A estimativa LOO-CV para este indutor seria de uma taxa de erro de 100%
bootstrap
Bootstrap
  • CV utiliza exemplos sem substituição
    • A mesma instância, uma vez selecionada, não pode ser selecionada novamente para um conjunto de treinamento/teste em particular
  • O bootstrap é um método de estimativa que utiliza exemplos com substituição para formar o conjunto de treinamento
    • Um conjunto de dados com n instâncias é utilizado n vezes a fim de formar um novo conjunto de dados com n instâncias
    • Estes dados são utilizados como conjunto de treinamento
    • As instâncias do conjunto de dados original que não ocorrem no novo conjunto de treinamento são utilizadas para teste
0 632 bootstrap
0.632 Bootstrap
  • Este método também é conhecido como 0.632 bootstrap
    • Uma particular instância tem a probabilidade de 1-1/n de não ser utilizada
    • Assim, sua probabilidade de terminar nos dados de teste é:
    • Isto significa que o conjunto de dados para treinamento irá conter aproximadamente 63.2% das instâncias
estimando erro com o bootstrap
Estimando Erro Com o Bootstrap
  • O erro estimado nos dados de teste será muito pessimista
    • Ele contém apenas ~63% das instâncias
  • Assim, ele é combinado com o erro de resubstituição:
  • O erro de resubstituição tem menor peso que o erro nos dados de teste
  • O processo é repetido várias vezes, com diferentes exemplos gerados, toma-se a média dos resultados
observa es sobre bootstrap
Observações sobre Bootstrap
  • É provavelmente a melhor maneira para estimativa de performance em conjuntos de dados muito pequenos
  • Entretanto, possui alguns problemas
    • Considerando o conjunto de dados aleatório anterior
    • Um perfeito memorizador alcançará 0% de erro de resubstituição e ~50% de erro nos dados de teste
    • Bootstrap estimará para este classificador: err = 0.632 x 50% + 0.368 x 0% = 31.6%
    • Verdadeira taxa de erro esperada: 50%
avalia o do conhecimento descoberto4
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
comparando esquemas de aprendizado
Comparando Esquemas de Aprendizado
  • Situação freqüente: queremos saber entre dois esquemas de aprendizado qual o de melhor performance
  • Nota: isto é dependente do domínio
  • Caminho óbvio: compare estimativas 10-fold CV
  • Problema: variação na estimativa
  • A variação pode ser reduzida utilizando-se CV repetitivo
  • Entretanto, ainda não sabemos se os resultados são confiáveis
testes de signific ncia
Testes de Significância
  • Testes de significância nos diz o quão confidentes podemos ser que realmente existe uma diferença
  • Hipótese nula: não há diferença “real”
  • Hipótese alternativa: há uma diferença
  • Um teste de significância mede quanta evidência existe em favor de rejeitar-se a hipótese nula
  • Se estivermos utilizando 10-fold CV 10 vezes
  • Então nós queremos saber se as duas médias das estimativas do 10 CV são significantemente diferentes
paired t test
Paired t-test
  • Student´s t-test nos diz se a média de dois exemplos são significantemente diferentes
  • Os exemplos individuais são tomados do conjunto de todos as estimativas cross-validation possíveis
  • Nós utilizamos o paired t-test porque os exemplos individuais são casados
    • O mesmo CV é aplicado duas vezes, uma para cada esquema
  • Fazendo x1, x2, ..., xk e y1, y2, ..., yk serem os 2k exemplos para um k ten-fold CV
distribui o das m dias
Distribuição das Médias
  • Sendo mx e my as médias dos respectivos exemplos
  • Se existirem exemplos suficientes, a média de um conjunto independente de exemplos é normalmente distribuída
  • As variâncias estimadas das médias são x2/k e y2/k
  • Se x e y são as verdadeiras médias entãosão aproximações normalmente distribuídas com média 0 e variância unitária
distribui o student
Distribuição Student
  • Com exemplos pequenos (k < 100) a média segue a distribuição student com k -1 graus de liberdade
  • Limites de confidência para 9 graus de liberdade (esquerda), comparado a limites para uma distribuição normal (direita):
distribui o das diferen as
Distribuição das Diferenças
  • Seja md = mx - my
  • A diferença das médias (md) também tem uma distribuição student com k-1 graus de liberdade
  • Seja d2/k a variância da diferença
  • A versão padronizada de md é chamada t-statistic:
  • Nós utilizamos t para realizar o t-teste
realizando o teste
Realizando o Teste
  • Fixe um nível de significância 
    • Se a diferença está significantemente no nível % há uma chance de (100 - )% de que realmente exista uma diferença
  • Divida o nível de significância por dois já que o teste é “two-tailed”
    • A verdadeira diferença pode ser positiva ou negativa
  • Verifique o valor de z que corresponde a /2
  • Se t  -z ou t  z então a diferença é significante
    • A hipótese nula pode ser rejeitada
observa es
Observações
  • Se as CV estimadas forem de diferentes sorteios, não há mais “casamento”
  • Talvez nós ainda usemos k-fold CV para um esquema e j-fold CV para outro
  • Então devemos utilizar o t-teste unpaired com min(k,j)-1 graus de liberdade
  • A t-statistic se torna:
notas sobre a interpreta o do resultado
Notas sobre a Interpretação do Resultado
  • Toda estimativa cross-validation é baseada no mesmo conjunto de dados
  • Portanto, o teste apenas nos diz quando um completo k-fold CV para este conjunto de dados irá mostrar uma diferença
    • Um k-fold CV completo irá gerar todas as possíveis partições dos dados em k conjuntos e calcular a média dos resultados
  • Idealmente, nós queremos conjuntos de dados de exemplo diferentes para cada estimativa k-fold CV usando o teste para julgar a performance através de diferentes conjuntos de treinamento
avalia o do conhecimento descoberto5
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
predizendo probabilidades
Predizendo Probabilidades
  • Medida de performance: taxa de acerto
  • Também chamada função de perda 0-1:
  • Muitos classificadores produzem classes de probabilidades
  • Dependendo da aplicação, nós podemos querer checar a precisão das estimativas de probabilidade
  • Perda 0-1 não é o modelo correto a ser utilizado nestes casos
fun o de perda quadr tica
Função de Perda Quadrática
  • p1, ..., pk são probabilidades estimadas para uma instância
  • Seja c o índice da classe atual da instância
  • a1, ..., ak = 0, exceto para ac, que é 1
  • A “perda quadrática” é:
  • Justificativa:
fun o de perda informacional
Função de Perda Informacional
  • A “informational loss function” é –log(pc), onde c é o índice da classe atual da instância
  • Número de bits necessários para comunicar a classe atual
    • Ex.: “cara ou coroa” - log2 1/2 = 1
  • Sejam p1*, ..., pk* as probabilidades verdadeiras das classes
  • Então o valor esperado para a “função de perda” é:
  • Justificativa: minimizado para pj = pj*
  • Dificuldade: problema da freqüência zero
    • Se a probabilidade é zero, o valor da função é -
observa es1
Observações
  • Qual “função de perda” deveríamos escolher?
    • A “quadratic loss function” leva em conta todas as probabilidades de classes estimadas para uma instância
    • A “informational loss” foca somente na probabilidade estimada para a classe atual
    • A “quadratic loss” é restringida por
      • Nunca poderá exceder a 2
    • A “informational loss” poderã ser infinita
  • A “informational loss” está relacionada ao princípio MDL
avalia o do conhecimento descoberto6
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
contabilizando os custos
Contabilizando os Custos
  • Na prática, diferentes tipos de erros de classificação geralmente incorrem em diferentes custos
  • Exemplos:
    • Decisões de empréstimo
    • Detecção de vazamento de óleo
    • Diagnóstico de falha
    • Cartas promocionais
      • enviar carta p/ família q ñ responderá x ñ enviar carta p/ família q responderá
mantendo custos em conta
Mantendo Custos em Conta
  • A matriz “confusão”:
  • Há muitos outros tipos de custos
    • Custos de coleta de dados para treinamento
lift charts
Lift Charts
  • Na prática, custos raramente são desconhecidos
  • Decisões são tomadas geralmente pela comparação de cenários possíveis
  • Exemplo: cartas promocionais
    • Situação 1: classificador prevê que 0,1% de todos as famílias irão responder = 1.000 respostas
    • Situação 2: classificador prevê que 0,4% das 10.000 famílias mais promissoras irão responder = 400 respostas
    • Situação 3: classificador prevê que 0,2% de 400.000 famílias irão responder = 800 respostas
  • Um lift chart permite uma comparação visual
gerando um lift chart
Gerando um Lift Chart
  • Instâncias são classificadas de acordo com suas probabilidades previstas de serem um “true positive”:
  • Em um lift chart, o eixo x é o tamanho do exemplo e o eixo y é o número de “true positives”
roc curves
ROC Curves
  • Curvas ROC são similares a lifit charts
    • “ROC” vem de “receiver operating characteristic”
    • Utiliza um sinal de detecção para mostrar o tradeoff entre a taxa de acerto (hit rate) e a taxa de alarme falso (false alarm rate) acima do canal de ruído (noisy channel)
  • Diferenças do lift chart:
    • O eixo y mostra o percentual de true positives em um exemplo (em vez do valor absoluto)
    • O eixo x mostra o percentual de false positives em um exemplo (em vez do tamanho do exemplo)
cross validation e roc curves
Cross-validation e Roc Curves
  • Método simples para criar uma curva Roc utilizando cross-validation:
    • Coletar probabilidades de instâncias em conjuntos de teste
    • Classificar as instâncias de acordo com as probabilidades
  • Este método é implementado no WEKA
  • Entretanto, esta é apenas uma possibilidade
    • O método descrito no livro gera uma curva ROC para cada conjunto e calcula a média entre eles
convex hull
Convex Hull
  • Dados dois esquemas de aprendizado, podemos alcançar qualquer ponto no convex hull
  • Taxas TP e FP para o esquema 1: t1 e f1
  • Taxas TP e FP para o esquema 2: t2 e f2
  • Se o esquema 1 é utilizado para prever 100 x q% dos casos e o esquema 2 para o restante, então tomamos:
    • Taxa TP para o esquema combinado: q x t1 + (1-q) x t2
    • Taxa FP para o esquema combinado: q x f1 + (1-q) x f2
aprendizado sens vel ao custo
Aprendizado Sensível ao Custo
  • A maioria dos esquemas de aprendizado não realizam aprendizado sensível ao custo
    • Eles geram o mesmo classificador não importando qual o custo associado a diferentes classes
    • Exemplo: aprendizado de árvore de decisão padrão
  • Métodos simples para aprendizado sensível ao custo:
    • Reutilização de instâncias de acordo com os custos
    • Utilização de pesos para instâncias de acordo com os custos
  • Alguns esquemas são sensíveis ao custo de forma inerente, ex. naive Bayes
medidas de retorno da informa o
Medidas de Retorno da Informação
  • Percentual dos documentos retornados que são relevantes: precision = TP/TP+FP
  • Percentual dos documentos relevantes que são retornados: recall = TP/TP+FN
  • A curva precision/recall tem a forma hiperbólica
  • Sumário das medidas: precisão média de 20%, 50% e 80% recall (three-point average recall)
  • F-measure = (2 x recall x precision)/(recall + precision)
avalia o do conhecimento descoberto7
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
avaliando previs es num ricas
Avaliando Previsões Numéricas
  • Algumas estratégias: conjunto de teste independente, cross-validation, testes de significância, etc.
  • Diferença: medidas de erro
  • Valores alvo atuais: a1, a2, ..., an
  • Valores alvo previstos: p1, p2, ..., pn
  • Medida mais popular: erro do quadrado da média (mean-squared error)
    • Fácil para manipulação matemática
outras medidas
Outras Medidas
  • A raiz do erro do quadrado da média:
  • O erro médio absoluto é menos sensível a outliers que o erro do quadrado da média:
  • Às vezes valores de erros relativos são mais apropriados que valores absolutos
    • 10% corresponde a um erro de 50 quando prevendo 500
    • 10% corresponde a um erro de 0,2 quando prevendo 2
aprimoramento da m dia
Aprimoramento da Média
  • Sempre queremos saber quanto o esquema é aprimorado simplesmente prevendo a média
  • O erro quadrado relativo é (ā é a média):
  • O erro absoluto relativo é:
o coeficiente de correla o
O Coeficiente de Correlação
  • Mede a correlação estatística entre os valores previstos e os valores atuais
  • Escala independente, entre –1 e +1
  • Boa performance leva a grandes valores
qual a melhor medida
Qual a melhor medida?
  • Melhor verificar todas elas
  • Geralmente não importa
  • Exemplo:
avalia o do conhecimento descoberto8
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
medidas de avalia o do conhecimento descoberto
Medidas de Avaliação do Conhecimento Descoberto
  • Piatetsky-Shapiro’s Rule-Interest Function
    • É usada para quantificar a correlação entre atributos em um classificador de regras simples
    • Uma regra de classificação simples é aquela em que os lados esquerdo e direito de uma implicação lógica (X  Y) corresponde a um atributo simples
    • Quando RI = 0, então X e Y são estatisticamente independentes e a regra não é interessante
    • Quando RI > 0 (RI < 0), então X é positivamente (negativamente) correlacionado a Y
medidas de avalia o do conhecimento descoberto1
Medidas de Avaliação do Conhecimento Descoberto
  • Smyth and Goodman’s J-Measure
    • É utilizado para encontrar as melhores regras relacionando atributos de valores discretos
  • Major and Mangano’s Rule Refinement
    • É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação
    • Consiste em três fases: identificar regras potencialmente interessantes, identificar regras tecnicamente interessantes, e remover regras que não sejam genuinamente interessantes
  • Agrawal and Srikant’s Itemset Measures
    • Utilizada para identificar regras de classificação que ocorrem com freqüência de conjuntos de itens em grandes bancos de dados
medidas de avalia o do conhecimento descoberto2
Medidas de Avaliação do Conhecimento Descoberto
  • Klemettinen et al. Rule Templates
    • Utilizada para descrever um padrão para os atributos que podem aparecer no lado esquerdo ou direito em uma regra de associação
  • Matheus and Piatetsky-Shapiro’s Projected Savings
    • Avalia o impacto financeiro dos custos de desvios de valores esperados
  • Hamilton and Fudger’s I-Measures
    • Usadas para quantificar a significância do conhecimento descoberto, apresentadas na forma de relações generalizadas ou sumários
    • Baseada na estrutura das hierarquias conceituais associadas aos atributos na relação original não generalizada
medidas de avalia o do conhecimento descoberto3
Medidas de Avaliação do Conhecimento Descoberto
  • Silbershatz and Tuzhilin’s Interestingness
    • Determina a extensão em que uma crença “suave” é mudada como resultado da descoberta de uma nova evidência
  • Kamber and Shinghal’s Interestingness
    • Determina o nível de interesse de uma regra de classificação baseada na necessidade e suficiência
  • Hamilton et al. Credibility
    • Determina a extensão com que um classificador provê decisões para todos ou quase todos valores possíveis dos atributos de condição, baseada em evidência adequadamente suportada
  • Liu et al. General Impressions
    • Usada para avalia a importância de regras de classificação pela comparação das regras descobertas com uma descrição aproximada ou vaga do que é considerado ser interessante
medidas de avalia o do conhecimento descoberto4
Medidas de Avaliação do Conhecimento Descoberto
  • Gago and Bento’s Distance Metric
    • Mede a distância entre duas regras e é usada para determinar as regras que provêm a mais alta cobertura para os dados fornecidos
  • Freita’s Surprisingness
    • Medida que determina o interesse do conhecimento descoberto via detecção explícita de ocorrências do paradoxo de Simpson
  • Gray and Orlowska’s Interestingness
    • Usada para avaliar o poder de associações entre conjuntos de intens em transações a varejo (i.e., regras de associação)
  • Dong and Li’s Interestingness
    • Usada para avaliar a importância de uma regra de associação por considerar sua “não expectativa” em termos de outras regras de associação em sua vizinhança
medidas de avalia o do conhecimento descoberto5
Medidas de Avaliação do Conhecimento Descoberto
  • Liu et al. Reliable Exceptions
    • Uma exceção confiável é uma regra frágil que tenha suporte relativamente pequeno e confidência relativamente alta
  • Zhong et al. Peculiarity
    • Usada para determinar a extensão com que um objeto de dado difere de outros objetos de dado similares
avalia o do conhecimento descoberto9
Motivação

Treinamento e teste

Estimando performance

Cross-validation

Leave-one-out cross-validation

Bootstrap

Comparando esquemas de aprendizado

Predizendo probabilidades

Contabilizando o custo de previsões erradas

Lift charts

ROC curves

Avaliando previsões numéricas

Medidas de avaliação do conhecimento descoberto

O princípio MDL

Avaliação do Conhecimento Descoberto
o princ pio mdl
O Princípio MDL
  • MDL se origina de minimum description length (mínimo tamanho da descrição)
  • O tamanho da descrição é definido como:

espaço necessário para descrever a teoria

+

espaço necessário para descrever os erros da teoria

  • Em nosso caso a teoria é o classificador e os erros da teoria são os erros nos dados de treinamento
  • Alvo: queremos classificar com o mínimo DL
  • Princípio MDL é um critério para seleção do modelo
crit rios para sele o do modelo
Critérios para Seleção do Modelo
  • O critério para seleção do modelo tenta encontrar um bom compromisso entre:
    • A complexidade de um modelo
    • Sua precisão de predição nos dados de treinamento
  • Conclusão: um bom modelo é um modelo simples que alcança alta precisão nos dados fornecidos
  • Também conhecido como Occam’s Razor: a melhor teoria é a menor delas que descreve todos os fatos
eleg ncia x erros
Elegância x Erros
  • Teoria 1: muito simples, teoria elegante que explica a maioria dos dados perfeitamente
  • Teoria 2: uma teoria significantemente mais complexa que reproduz os dados sem erros
  • A teoria 1 é provavelmente a preferida
  • Exemplo clássico: as três leis de Kepler no movimento planetário
    • Menos precisa que o último refinamento de Copérnico da teoria Ptolemaica de epicicles
observa es2
Observações
  • Vantagem: faz uso total dos dados de treinamento quando selecionando um modelo
  • Desvantagem 1: esquema de codificação apropriado/ probabilidades prévias para as teorias são cruciais
  • Desvantagem 2: não há garantia de que a teoria MDL é aquela que minimiza os erros esperados
  • Nota: Occam’s Razor é um axioma
  • Princípio de Epicuro de múltiplas explicações: pegue todas as teorias que são consistentes com os dados