1 / 40

A Systematic Approach for Inducing Reliable Classifiers From Data Mines

A Systematic Approach for Inducing Reliable Classifiers From Data Mines. David Moises Barreto dos Santos. Universidade Federal de Campina Grande Programa de Pós-Graduação em Informática Mineração de Dados. Julho 2003. V. A Pesquisa em MD no DSC/UFCG. Roteiro. Introdução

davida
Download Presentation

A Systematic Approach for Inducing Reliable Classifiers From Data Mines

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A Systematic Approach for Inducing Reliable Classifiers From Data Mines David Moises Barreto dos Santos Universidade Federal de Campina Grande Programa de Pós-Graduação em Informática Mineração de Dados Julho 2003

  2. V. A Pesquisa em MD no DSC/UFCG

  3. Roteiro • Introdução • Conceitos Básicos • Caracterização do Problema • Algoritmos • Naive_Inducer • Expert_Inducer • Conclusões • Bibliografia

  4. Introdução • Bancos de dados têm se tornado minas de conhecimento • Mal exploradas pelas consultas rotineiras de usuários • A mineração de dados (MD) é a área de pesquisa preocupada em explorar minas de uma forma melhor • Descoberta de padrões • Não-triviais • Confiáveis • Facilmente assimiláveis • O agente de mineração é chamado Minerador

  5. Introdução • Modelos de representação de padrões  modelos de conhecimento • Regras de Associação • Regras de Classificação if C then T Um modelo de regras de classificação é denominado classificador conjunção de termos <atributo Θ valor> único termo com o atributo pré-determinado (atributo de classificação) <atributo_classificação Θ classe>

  6. Introdução • A literatura trata de diversos algoritmos de indução de regras de classificação, e aspectos pontuais do processo de MD • O processo de MD é muito complexo • Não existe a melhor técnica de amostragem • Banco de Dados • Técnica de fragmentação • Algoritmo de indução • Conhecimento instável • Técnicas de fragmentação geram diferentes pares Conjunto de treinamento-Conjunto de teste • Conclusão: Não existe uma técnica universal para MD, seja amostragem, fragmentação ou indução modelo de conhecimento

  7. Minerador 1 Minerador 2 Classificador 1 Classificador 2 Motivação – O Problema do Processo de MD Amostragem: Convergence Fragmentação: K-fold Cross-Validation Indução: NaiveBayes Amostragem: Adaptive Incremental Framework Fragmentação: Bootstrap Indução: ID3 Banco de Dados Plantação de Soja (talvez seja bastante!!!) Necessidade de uma ferramenta que garanta o melhor classificador levando em conta a diversidade de técnicas

  8. Algoritmo que infere o melhor classificador A Idéia Central da Ferramenta Proposta Técnicas de amostragem Técnicas de fragmentação Algoritmos de indução Melhor Classificador Problema de Classificação • Utilização de heurísticas para reduzir o custo de exploração das diversas técnicas • Implementação de um framework orientado a objeto • permitir que novas técnicas sejam incorporadas com o mínimo de impacto sobre o restante do framework

  9. X Xc Xe Algoritmo de Fragmentação Xctr Xcts Fragmentação Xc  Xe =  Xc  Xe = X • Xcé um bancode dados classificado • Xe é um conjunto de execução, ou um conjunto de instâncias não classificadas. XctrXc XctsXc Xctr Xcts = Xc Xctr Xcts = 

  10. O Processo de MD Processo de Mineração de Dados Preparação dos dados Extrair amostra Xctr Xcts = Xc Fragmentar amostra Xctr , Xcts Induzir classificador Xctr C Calcular acurácia de teste C  Xcts Computar acurácia estimada (Xe) Algoritmo de indução Prism NaiveBayes Técnicas de fragmentação Holdout Bootstrap Tratamento de dados Desconhecidos Inexistentes Sujos Técnicas de amostragem Adaptive Incremental Framework Convergence

  11. O Processo de MD Processo de Mineração de Dados ,  instância  Xcts Preparação dos dados Extrair amostra Xctr Xcts = Xc Fragmentar amostra Xctr , Xcts Induzir classificador Xctr C Calcular acurácia de teste C  Xcts Computar acurácia estimada (Xe) O classificador deve ser testado com cada instância do conjunto de teste Xcts O teste bem sucedido: quando o classificador mapeia a instância para uma classe que é a mesma classe da instância no conjunto de teste Fórmula para calcular a acurácia:

  12. O Processo de MD Processo de Mineração de Dados Preparação dos dados Extrair amostra Xctr Xcts = Xc Fragmentar amostra Xctr , Xcts Induzir classificador Xctr C Calcular acurácia de teste C  Xcts Computar acurácia estimada (Xe) A acurácia de execução, acce, é calculada em função de accts, considerando um determinado grau de confiança z N é o número de instâncias utilizadas para o cálculo da acurácia de teste accts Para uma confiança de 90%, z=1,65

  13. F1 F2 F3 I1 I2 I3 A1 A2 Algoritmo Naïve_Inducer • Investiga exaustivamente todas as técnicas disponíveis, de todos os tipos (Ingênuo) • Escolhe o melhor classificador • Melhor acurácia estimada de execução

  14. BD Descrição Atributos Instâncias Classes   acce (90%) Letter Caracteres manuscritos 17 20000 26 77.20% 0.43% 75.77%  78.18% Splice Seqüências de DNA 61 3100 3 92.55% 1.27% 89.79%  93.75% Mushroom Espécies de cogumelos 22 8124 2 99.39% 0.32% 94.40%  99.82% Soybean Cultivo de soja 35 683 19 92.03% 1.50% 86.73%  95.28% Titanic Naufrágio do transatlântico Titanic 4 2201 2 99.58% 0.08% 97.99%  99.50% Connect-4 Partidas de Connect-4 43 36991 3 100.00% 0.00% 99.79%  100.00% Cmc Escolha do método anticoncepcional 10 1473 3 98.18% 5.45% 97.26%  98.54% Kr-vs-Kp Partidas de Xadrez 36 3196 2 55.14% 0.84% 52.14%  57.82% Cars Informações sobre automóveis 10 404 3 96.95% 0.98% 95.12%  96.72% Experimentos com Naïve_Inducer

  15. BD Descrição Atributos Instâncias Classes   acce (90%) Letter Caracteres manuscritos 17 20000 26 77.20% 0.43% 75.77%  78.18% Splice Seqüências de DNA 61 3100 3 92.55% 1.27% 89.79%  93.75% Mushroom Espécies de cogumelos 22 8124 2 99.39% 0.32% 94.40%  99.82% Soybean Cultivo de soja 35 683 19 92.03% 1.50% 86.73%  95.28% Titanic Naufrágio do transatlântico Titanic 4 2201 2 99.58% 0.08% 97.99%  99.50% Connect-4 Partidas de Connect-4 43 36991 3 100.00% 0.00% 99.79%  100.00% Cmc Escolha do método anticoncepcional 10 1473 3 98.18% 5.45% 97.26%  98.54% Kr-vs-Kp Partidas de Xadrez 36 3196 2 55.14% 0.84% 52.14%  57.82% Cars Informações sobre automóveis 10 404 3 96.95% 0.98% 95.12%  96.72% Experimentos com Naïve_Inducer

  16. BD Descrição Atributos Instâncias Classes   acce (90%) Letter Caracteres manuscritos 17 20000 26 77.20% 0.43% 75.77%  78.18% Splice Seqüências de DNA 61 3100 3 92.55% 1.27% 89.79%  93.75% Mushroom Espécies de cogumelos 22 8124 2 99.39% 0.32% 94.40%  99.82% Soybean Cultivo de soja 35 683 19 92.03% 1.50% 86.73%  95.28% Titanic Naufrágio do transatlântico Titanic 4 2201 2 99.58% 0.08% 97.99%  99.50% Connect-4 Partidas de Connect-4 43 36991 3 100.00% 0.00% 99.79%  100.00% Cmc Escolha do método anticoncepcional 10 1473 3 98.18% 5.45% 97.26%  98.54% Kr-vs-Kp Partidas de Xadrez 36 3196 2 55.14% 0.84% 52.14%  57.82% Cars Informações sobre automóveis 10 404 3 96.95% 0.98% 95.12%  96.72% Experimentos com Naïve_Inducer

  17. BD Descrição Atributos Instâncias Classes   acce (90%) Letter Caracteres manuscritos 17 20000 26 77.20% 0.43% 75.77%  78.18% Splice Seqüências de DNA 61 3100 3 92.55% 1.27% 89.79%  93.75% Mushroom Espécies de cogumelos 22 8124 2 99.39% 0.32% 94.40%  99.82% Soybean Cultivo de soja 35 683 19 92.03% 1.50% 86.73%  95.28% Titanic Naufrágio do transatlântico Titanic 4 2201 2 99.58% 0.08% 97.99%  99.50% Connect-4 Partidas de Connect-4 43 36991 3 100.00% 0.00% 99.79%  100.00% Cmc Escolha do método anticoncepcional 10 1473 3 98.18% 5.45% 97.26%  98.54% Kr-vs-Kp Partidas de Xadrez 36 3196 2 55.14% 0.84% 52.14%  57.82% Cars Informações sobre automóveis 10 404 3 96.95% 0.98% 95.12%  96.72% Experimentos com Naïve_Inducer • Uma mesma pessoa pode escrever um caractere de várias formas, bem diferentes entre si • Caracteres iguais manuscritos por pessoas diferentes podem apresentar grandes diferenças • A indução de padrões genéricos torna-se difícil • Instâncias repetidas com classes diferentes – uma espécie de ruído

  18. Experimentos com Naïve_Inducer • Baseado no ranking pode-se concluir que • As diversas combinações de técnicas tem uma forte influência nas acurácias dos classificadores “O que é bom para um banco de dados não é necessariamente bom para outro banco de dados” Vantagem Melhor Classificador (matematicamente) Desvantagem Alto custo processamento

  19. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  20. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  21. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  22. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  23. Algoritmo Expert_Inducer Heurística 1: Se a técnica de amostragem A1 tem resultados melhores que as outras técnicas de amostragem para o banco de dados X em uma certa combinação de técnicas de fragmentação e indução, então a vantagem de A1 sobre as outras técnicas de amostragem pode ser assumida para X, independentemente das outras combinações com as demais técnicas de fragmentação e indução. Banco de Dados: Mushroom

  24. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  25. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  26. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  27. Algoritmo Expert_Inducer Heurística 2: Se a técnica de fragmentação F1 tem resultados melhores que as outras técnicas de fragmentação para o banco de dados X em uma certa combinação que esteja presente a melhor técnica de amostragem para X, a vantagem de F1 sobre as outras técnicas de fragmentação pode ser assumida para X, independentemente dos algoritmos de indução. Banco de Dados: Mushroom

  28. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  29. Algoritmo Expert_Inducer Banco de Dados: Mushroom

  30. Algoritmo Expert_Inducer Heurística 3: Considerando a melhor técnica de amostragem (Heurística 1) e a melhor técnica de fragmentação (Heurística 2). Se o algoritmo de indução I1 tem resultados melhores que os outros algoritmos de indução para o banco de dados X em uma certa combinação que esteja presente a melhor técnica de amostragem e a melhor técnica de fragmentação para X, então pode-se então assumir que I1 é o melhor algoritmo de indução para X. Banco de Dados: Mushroom

  31. Algoritmo Expert_Inducer • Outros oito bancos de dados foram testados • Foi utilizado o mesmo raciocínio • As conclusões foram similares a obtida no banco de dados Mushroom

  32. Algoritmo Expert_Inducer • Utiliza as heurísticas • O Expert_Inducer executa A+F+I iterações • O Naïve_Inducer executa AxFxI iterações

  33. BD Naïf-bestClassifier Descrição Atributos Expert-BestClassifier Instâncias Classes O melhor classificador para Cars-Evolution Avaliação de automóveis 8 1728 4 Melhores técnicas - Tempo Melhores técnicas - Tempo Nursery Escola Infantil 8 12960 5 Tic-tac-toe Jogo Tic-tac-toe 10 953 2 Cars-Evolution AIF – BS – Prism 89,76% 1’56’’ AIF – CV – ID3 87,08 1’10’’ Nursery AIF – CV – ID3 90,56% 9’52 AIF – CV – ID3 89,89% 6’23’’ Tic-tac-toe AIF – CV - Prism 97,05% 2’56’’ AIF – CV – Prism 97,08% 1’49’’ Experimentos com Expert_Inducer

  34. BD Naïf-bestClassifier Descrição Atributos Expert-BestClassifier Instâncias Classes O melhor classificador para Cars-Evolution Avaliação de automóveis 8 1728 4 Melhores técnicas - Tempo Melhores técnicas - Tempo Nursery Escola Infantil 8 12960 5 Tic-tac-toe Jogo Tic-tac-toe 10 953 2 Cars-Evolution AIF – BS – Prism 89,76% 1’56’’ AIF – CV – ID3 87,08 1’10’’ Nursery AIF – CV – ID3 90,56% 9’52 AIF – CV – ID3 89,89% 6’23’’ Tic-tac-toe AIF – CV - Prism 97,05% 2’56’’ AIF – CV – Prism 97,08% 1’49’’ Experimentos com Expert_Inducer Ambos algoritmos possuem desempenhos similares

  35. BD Naïf-bestClassifier Descrição Atributos Expert-BestClassifier Instâncias Classes O melhor classificador para Cars-Evolution Avaliação de automóveis 8 1728 4 Melhores técnicas - Tempo Melhores técnicas - Tempo Nursery Escola Infantil 8 12960 5 Tic-tac-toe Jogo Tic-tac-toe 10 953 2 Cars-Evolution AIF – BS – Prism 89,76% 1’56’’ AIF – CV – ID3 87,08 1’10’’ Nursery AIF – CV – ID3 90,56% 9’52 AIF – CV – ID3 89,89% 6’23’’ Tic-tac-toe AIF – CV - Prism 97,05% 2’56’’ AIF – CV – Prism 97,08% 1’49’’ Experimentos com Expert_Inducer Apesar de haver uma divergência quanto a melhor combinação em Cars-Evolution, isto não compromete o desempenho

  36. BD Naïf-bestClassifier Descrição Atributos Expert-BestClassifier Instâncias Classes O melhor classificador para Cars-Evolution Avaliação de automóveis 8 1728 4 Melhores técnicas - Tempo Melhores técnicas - Tempo Nursery Escola Infantil 8 12960 5 Tic-tac-toe Jogo Tic-tac-toe 10 953 2 Cars-Evolution AIF – BS – Prism 89,76% 1’56’’ AIF – CV – ID3 87,08 1’10’’ Nursery AIF – CV – ID3 90,56% 9’52 AIF – CV – ID3 89,89% 6’23’’ Tic-tac-toe AIF – CV - Prism 97,05% 2’56’’ AIF – CV – Prism 97,08% 1’49’’ Experimentos com Expert_Inducer A técnica de fragmentação Cross-Validation seleciona aleatoriamente as instâncias da amostra Por isso, há uma diferença entre as acurácias dos classificadores induzidos por uma mesma combinação de técnicas

  37. BD Naïf-bestClassifier Descrição Atributos Expert-BestClassifier Instâncias Classes O melhor classificador para Cars-Evolution Avaliação de automóveis 8 1728 4 Melhores técnicas - Tempo Melhores técnicas - Tempo Nursery Escola Infantil 8 12960 5 Tic-tac-toe Jogo Tic-tac-toe 10 953 2 Cars-Evolution AIF – BS – Prism 89,76% 1’56’’ AIF – CV – ID3 87,08 1’10’’ Nursery AIF – CV – ID3 90,56% 9’52 AIF – CV – ID3 89,89% 6’23’’ Tic-tac-toe AIF – CV - Prism 97,05% 2’56’’ AIF – CV – Prism 97,08% 1’49’’ Experimentos com Expert_Inducer O tempo de processamento de Expert_Inducer foi sempre menor que Naive_Inducer

  38. Conclusão • Automatização do processo de mineração de dados • Novas técnicas podem ser incorporadas ao framework com o mínimo de impacto sobre as outras partes do próprio framework • As heurísticas permitem uma boa performance da combinação de técnicas sem perda de qualidade • O trabalho não trata outros modelos de conhecimento como regras de associação • Não está integrado com SGBDs

  39. Bibliografia • TOEBE, Josué; SAMPAIO, Marcus. A Systematic Approach for Inducing Reliable Classifiers From Data Mines.

More Related