1 / 26

Seleção de Características

Seleção de Características. Seleção de Características. Objetivo : Dado um conjunto de medidas no espaço p-dimensional, selecionar entre as componentes deste vetor, t-dimensões que sejam as mais importantes para resolver o problema da classificação. x(1,2,3,...,100). y=x(2,7,23,54).

Download Presentation

Seleção de Características

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seleção de Características

  2. Seleção de Características • Objetivo: Dado um conjunto de medidas no espaço p-dimensional, selecionar entre as componentes deste vetor, t-dimensões que sejam as mais importantes para resolver o problema da classificação. x(1,2,3,...,100) y=x(2,7,23,54) Seleção decaracterísticas p=100-D t=4-D Ex.: IDM (Interclass Distance Measurement) TE073 – Processamento Digital de Sinais II

  3. Extração de Características

  4. Extração de Características • Objetivo: Dado um conjunto de medidas no espaço p-dimensional, extrair destes dados informações que sejam realmente úteis para a classificação reduzindo para um vetor de t-dimensões. x(1,2,3,...,100) y(1,2,3,4) Seleção decaracterísticas p=100-D t=4-D Ex.: Técnicas de Processamento de Imagens/Voz Análise espectral PCA TE073 – Processamento Digital de Sinais II

  5. PCA

  6. Análise de Componentes Principais • Pearson (1901): Procurava linhas e planos que melhor se adequavam a um conjunto de pontos em um espaço p-dimensional. Criou a Componente Principal (PC) • Hotelling (1933): Procurava encontrar um pequeno conjunto de variáveis fundamentais que expressa p variáveis. Hotelling procurou maximizar suas ‘componentes’ no senso da variância das variáveis originais. Chamou de Componentes Principais. TE073 – Processamento Digital de Sinais II

  7. Ambos, Pearson e Hotelling, esbarraram no problema dos autovetores (difícil de calcular para ordem > 4). • Como o PCA é mais eficiente para conjuntos de dados de alta ordem, não se viu muita aplicação. • O tema ficou em banho-maria até os anos 60, quando então surgiram os primeiros computadores capazes de resolver o problema dos autovetores de maneira rápida. • Karhunen e Loève aplicam PCA para codificação de sinais (KLT). TE073 – Processamento Digital de Sinais II

  8. Desenvolvimento Matemático do PCA • A principal idéia por atrás do PCA é que: um número , p, de variáveis dependentes podem ser expressas como um número, t, de variáveis independentes, t<<p • Considere um conjunto infinito de vetores, x, no espaço N-dimensional. É sempre possível gerar uma combinação linear que mapeia x em um novo ponto y, em um espaço definido por variáveis ortonormais, ej, j=1,2,3..., TE073 – Processamento Digital de Sinais II

  9. Sem perda de informação, x pode ser expresso como: • Se somente t dimensões são usadas, então teremos alguma perda de informação, e podemos estimar TE073 – Processamento Digital de Sinais II

  10. Objetivo: Encontrar ej de modo que o erro da estimação seja minimizado. Juntamente com a minimização da Eq.3, precisamos garantir que o conjunto ejseja ortonormal TE073 – Processamento Digital de Sinais II

  11. Substituindo Eq.1 e 2 na Eq. 3 Aplicando a condição de ortonormalidade de ej TE073 – Processamento Digital de Sinais II

  12. Multiplicando ambos os lados da Eq. 1 por ejT Substituindo na Eq. 7 TE073 – Processamento Digital de Sinais II

  13. Invertendo a ordem do somatório e operador Expectativa, e sabendo que ej é determinístico: Notando que a matriz entre colchetes é a Matriz de Autocorrelação do conjunto de vetores x Podemos, sem perda de generalidade, usar a Matriz de AutoCovariância TE073 – Processamento Digital de Sinais II

  14. Logo a expressão que devemos minimizar é: de modo a encontrar a base ótima ej • Isso é feito derivando-se e igualando a zero. No entanto a derivada deve ser feita de modo que a condição da Eq. 4 (ortonormalidade), permaneça sendo cumprida TE073 – Processamento Digital de Sinais II

  15. Este problema é resolvido através da definição de uma função de restrição g(ej), e usando a técnica dos Multiplicadores de Lagrange: Derivando a Eq. 13 e igualando a zero, temos: onde, I é matriz identidade TE073 – Processamento Digital de Sinais II

  16. Problema dos Autovalores • A Eq. 15 é chamada de Problema dos Autovalores, usada em várias áreas.j é o j-ésimo autovalor associado ao autovetor ej Desde que a Eq. 15 corresponde a um sistema homogêneo de equações lineares e que possui uma solução não-trivial, o determinante da matriz de coeficientes deve ser ZERO. TE073 – Processamento Digital de Sinais II

  17. Desenvolvendo a Eq. 16 o polinômio característico é obtido,as raízes deste polinômio são os autovalores j da matriz Cx. Como encontrar algebricamente as raízes de um polinômio de grau maior que 4 é complicado, usa-se métodos numéricos (HP) . TE073 – Processamento Digital de Sinais II

  18. Matriz de Covariância • A matriz Rxx é conhecida como a matriz de Autocorrelação do conjunto de vetores x. Geralmente se retira o valor médio do conjunto de dados, de modo a definirmos a Matriz Covariância: o j-ésimo autovalor da matriz de covariância é igual à variância do j-ésimo autovetor. TE073 – Processamento Digital de Sinais II

  19. Assim, caso o número N de vetores seja menor que o número de dimensões p: • O numero de autovalores não-nulos é igual ao número de vetores x do conjunto , se a matriz de correlação é calculado a partir desse conjunto. • Dado um conjunto de N vetores x, existem apenas N-1 vetores linearmente independentes, caso seja usado a matriz de covariância. TE073 – Processamento Digital de Sinais II

  20. O Mapeamento • Resolvendo-se o problema dos autovalores, determina-se os autovetores que minimizam o erro de representação. • Definindo-se a matriz de transformação A como: onde os p autovetores são as colunas da matriz A. TE073 – Processamento Digital de Sinais II

  21. Podemos mapear cada vetor no espaço p-dimensional para um vetor no espaço t-dimensional, através do truncamento das colunas da matriz A utilizando apenas t autovetores (geralmente considera-se os autovetores associados aos maiores autovalores) Extração de Características:Espaço de Características t-dimensional TE073 – Processamento Digital de Sinais II

  22. Utilização do PCA • Objetivo: reduzir a dimensionalidade do espaço de entrada p-D, mantendo tanta informação quanto possível, em um novo espaço t-D. • Adquirir os dados: Número de vetores... • Calcular a Matriz de Covariância • Calcular os Autovalores e Autovetores • Escolher os autovetores: Critério da informação... • Mapear os dados para o novo espaço TE073 – Processamento Digital de Sinais II

  23. Exemplo: Reconhecimento de Face • http://www.pages.drexel.edu/~sis26/Eigenface%20Tutorial.htm EigenFaces TE073 – Processamento Digital de Sinais II

  24. Exemplo: Reconhecimento Posturas Manuais Imagens 100x100 Imagens 32x32 TE073 – Processamento Digital de Sinais II

  25. TE073 – Processamento Digital de Sinais II

  26. Eigenlettershttp://www.cc.gatech.edu/classes/cs7322_97_spring/participants/Sumner/final/report.htmlEigenlettershttp://www.cc.gatech.edu/classes/cs7322_97_spring/participants/Sumner/final/report.html • Eigeneyes • Eigenvoice • Eigenqualquercoisa TE073 – Processamento Digital de Sinais II

More Related