220 likes | 322 Views
ANÁLISE DISCRIMINANTE. LIG, 13 de novembro de 2008. Duas populações normais, covariâncias desiguais. Tomando-se o logaritmo da expressão acima obtemos:. Covariâncias desiguais. Rearrumando os termos da equação anterior, obtém-se:.
E N D
ANÁLISE DISCRIMINANTE LIG, 13 de novembro de 2008
Duas populações normais, covariâncias desiguais Tomando-se o logaritmo da expressão acima obtemos:
Covariâncias desiguais • Rearrumando os termos da equação anterior, obtém-se: Observe que quando Σ1= Σ2 , o termo quadrático na equação acima se anula e as regiões obtidas reduzem-se às regiões obtidas anteriormente.
Covariâncias desiguais • Na prática, a regra de classificação obtida é implementada substituindo-se os parâmetros populacionais pelas suas respectivas estimativas • Assim, a regra de classificação quadrática estimada é alocar x0 à 1 se
Comentários • A classificação com funções quadráticas é bastante complicada em mais de duas dimensões, e pode levar a alguns resultados estranhos. Isto é particularmente verdadeiro quando a suposição de normalidade multivariada é violada. • Se os dados não são normais multivariados, duas alternativas para contornar este fato são dadas a seguir. • transformar os dados para dados aproximadamente normais e realizar um teste para verificar a igualdade ou não das estruturas de covariância; • usar uma regra de classificação linear (ou quadrática) sem se preocupar com a forma da distribuição populacional e esperar que elas funcionem razoavelmente bem. O procedimento de Fisher, por exemplo, não depende da forma das populações, exceto pela suposição de covariâncias iguais.
Comentários • Krzanowski (1977) e Lachenbruch (1975) mostraram que existem casos não-normais para os quais a função discriminante linear de Fisher tem uma performance ruim, apesar das matrizes de covariância populacionais serem idênticas. • O conselho deixado aqui é sempre verificar a performance de qualquer procedimento de classificação. • Isto deve ser feito pelo menos com os conjuntos de dados usados para construir o procedimento. • O ideal é que exista uma disponibilidade de dados suficiente, de forma a fornecer amostras de treinamento (aprendizagem) e amostras de validação. As primeiras são usadas para construir a função de classificação e as outras, para avaliar a performance da função de classificação.
Exemplo no R • dados=read.table(“http://www.im.ufrj.br//~flavia/mad484/testeqda.txt,header=T) • plot(dados[1:30,1],dados[1:30,2],xlim=c(-3,5),ylim=c(-3,5),xlab=“x1”,ylab=“x2”) • points(dados[31:60,1],dados[31:60,2],col=“red”)
Exemplo: continuação Resultado das classificações sob qda.
Exemplo: continuação Comparando com o resultado via lda.
Avaliação das funções de classificação • Uma forma de julgar a performance de qualquer procedimento é calcular suas “taxas de erro”, ou probabilidades de classificação incorreta. • Quando as formas das distribuições populacionais são conhecidas, as probabilidades de classificação incorreta podem ser calculadas com certa facilidade. • Como as formas de tais distribuições são raramente conhecidas, vamos nos concentrar nas taxas de erro associadas à função de classificação. • Uma vez que a função de classificação é construída, uma medida de sua performance em amostras futuras será de interesse. • Vimos que a probabilidade total de classificação incorreta é dada por PTCI= 1 p21+ 2 p 12 . • O menor valor desta probabilidade, obtido por uma escolha criteriosa de R1e R2 é chamado Taxa de Erro Ótima (TEO).
Exemplo: Suponha num dado problema de classificação que as duas populações sejam normais com covariâncias iguais e médias μ1 e μ2. Além disso, suponha probabilidades de incidência a priori iguais e custos de classificação incorreta iguais. Neste caso, a regra da PTCI mínima é alocar x0 à 1 se Essa região pode ser expressa em termos da variável Y definida por
Exemplo: continuação • Se, de fato, os dados são normais, teremos que Neste caso, PTCI=(p12+p21)/2. Mas,
Exemplo: continuação • Assim, temos, TEO=(-/2). • 2=2,56, então TEO=0,2119. • Ou seja, a regra de classificação alocará incorretamente a uma população ou outra cerca de 21% dos objetos, se a distância quadrada entre as duas populações for igual a 2,56.
Comentários • Em geral, os parâmetros μ1, μ2 e são desconhecidos e devem ser estimados. • Neste caso a avaliação da taxa de erro não é imediata. • A performance das funções de classificação amostrais pode, em princípio, ser avaliada calculando-se a Taxa de Erro Real (TER) definida por • Os domínios de integração representam as regiões de classificação determinadas a partir das amostras de tamanhos n1 e n2.
Comentários • A “TER” indica como a função de classificação se comportará em amostras futuras. • Assim como a “TEO”, ela não pode, em geral, ser calculada, pois depende das densidades desconhecidas. Porém, uma estimativa de uma quantidade relacionada à “TER” pode ser calculada, e esta estimativa será apresentada adiante. • Uma medida de performance que não depende da forma das distribuições populacionais e que pode ser calculada para qualquer procedimento de classificação é chamada de taxa de erro aparente (TEA), e é definida como a fração das observações na amostra de treinamento que são incorretamente classificadas pela função de classificação amostral.
Comentários • Sendo n1 e n2 e os tamanhos das duas amostras, sejam n1c o número de objetos de 1 classificados corretamente e n1m = n1 - n1c o número de objetos de 1 classificados incorretamente e, • sejam n2c o número de objetos de 2 classificados corretamente e n2m = n2 - n2c o número de objetos de 2 classificados incorretamente.
Comentários • A TEA é uma medida intuitiva e fácil de calcular. Porém, ela tende a subestimar a “TER” e este problema persiste a não ser que n1 e n2 e sejam muito grandes. • Essencialmente, esta estimativa otimista ocorre porque os dados usados para construir a função de classificação são também usados para avaliá-la. • Estimativas de taxas de erro melhores que a TEA podem ser construídas mantendo-se uma relativa facilidade de cálculo e não exigindo suposições sobre a forma das distribuições populacionais.
Comentários • Um procedimento é dividir a amostra total em uma amostra de treinamento e uma amostra de validação. • A taxa de erro é determinada pela proporção de itens classificados incorretamente na amostra de validação. • Apesar deste método superar o problema do viés de estimação por não usar os mesmos dados usados na construção da função de classificação ele apresenta duas desvantagens, a saber, • requer grandes amostras; • a função avaliada não é a função de interesse. (No final, quase toda observação deve ser usada para construir a função de classificação. Caso contrário, pode-se estar perdendo informação.)
Outra abordagem • Uma segunda abordagem que parece funcionar bem é chamada procedimento “holdout” (deixar de fora) de Lachenbruch (1968) que equivale a um tipo de validação cruzada: • Comece com as observações de 1. Omita uma observação deste grupo e desenvolva uma função de classificação baseada nas n1 + n2 -1 observações restantes. • Classifique a observação deixada de fora usando a função obtida em 1. • Repita os passos 1 e 2 até que todas as observações de 1 sejam classificadas. • Repita os passos 1, 2 e 3 para as observações 2.
Outra abordagem • Sejam n1M(H)- o número de observações deixadas de fora em 1 classificadas incorretamente, e • n2M(H)- o número de observações deixadas de fora em 2 classificadas incorretamente. • As estimativas das probabilidades de classificação incorreta são dadas por:
Comentário • Para terminar, deve ser intuitivamente claro que uma regra de classificação boa (baixas taxas de erro) dependerá da “separação” entre as populações. • Quanto mais separadas, mais provavelmente uma classificação útil será obtida.