A systematic approach for inducing reliable classifiers from data mines
Download
1 / 40

A Systematic Approach for Inducing Reliable Classifiers From Data Mines - PowerPoint PPT Presentation


  • 55 Views
  • Uploaded on

A Systematic Approach for Inducing Reliable Classifiers From Data Mines. David Moises Barreto dos Santos. Universidade Federal de Campina Grande Programa de Pós-Graduação em Informática Mineração de Dados. Julho 2003. V. A Pesquisa em MD no DSC/UFCG. Roteiro. Introdução

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' A Systematic Approach for Inducing Reliable Classifiers From Data Mines' - davida


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
A systematic approach for inducing reliable classifiers from data mines

A Systematic Approach for Inducing Reliable Classifiers From Data Mines

David Moises Barreto dos Santos

Universidade Federal de Campina Grande

Programa de Pós-Graduação em Informática

Mineração de Dados

Julho 2003



Roteiro
Roteiro

  • Introdução

  • Conceitos Básicos

  • Caracterização do Problema

  • Algoritmos

    • Naive_Inducer

    • Expert_Inducer

  • Conclusões

  • Bibliografia


Introdu o
Introdução

  • Bancos de dados têm se tornado minas de conhecimento

    • Mal exploradas pelas consultas rotineiras de usuários

  • A mineração de dados (MD) é a área de pesquisa preocupada em explorar minas de uma forma melhor

    • Descoberta de padrões

      • Não-triviais

      • Confiáveis

      • Facilmente assimiláveis

  • O agente de mineração é chamado Minerador


Introdu o1
Introdução

  • Modelos de representação de padrões  modelos de conhecimento

    • Regras de Associação

    • Regras de Classificação

if C then T

Um modelo de regras de classificação é denominado classificador

conjunção de termos <atributo Θ valor>

único termo com o atributo pré-determinado (atributo de classificação)

<atributo_classificação Θ classe>


Introdu o2
Introdução

  • A literatura trata de diversos algoritmos de indução de regras de classificação, e aspectos pontuais do processo de MD

  • O processo de MD é muito complexo

    • Não existe a melhor técnica de amostragem

    • Banco de Dados

    • Técnica de fragmentação

    • Algoritmo de indução

    • Conhecimento instável

      • Técnicas de fragmentação geram diferentes pares Conjunto de treinamento-Conjunto de teste

    • Conclusão: Não existe uma técnica universal para MD, seja amostragem, fragmentação ou indução modelo de conhecimento


Motiva o o problema do processo de md

Minerador 1

Minerador 2

Classificador 1

Classificador 2

Motivação – O Problema do Processo de MD

Amostragem: Convergence

Fragmentação: K-fold Cross-Validation

Indução: NaiveBayes

Amostragem: Adaptive Incremental Framework

Fragmentação: Bootstrap

Indução: ID3

Banco de Dados

Plantação de Soja

(talvez seja bastante!!!)

Necessidade de uma ferramenta que garanta o melhor classificador levando em conta a diversidade de técnicas


A id ia central da ferramenta proposta

Algoritmo que infere o melhor classificador

A Idéia Central da Ferramenta Proposta

Técnicas de amostragem

Técnicas de fragmentação

Algoritmos de indução

Melhor Classificador

Problema de Classificação

  • Utilização de heurísticas para reduzir o custo de exploração das diversas técnicas

  • Implementação de um framework orientado a objeto

    • permitir que novas técnicas sejam incorporadas com o mínimo de impacto sobre o restante do framework


Fragmenta o

X

Xc

Xe

Algoritmo de Fragmentação

Xctr

Xcts

Fragmentação

Xc  Xe = 

Xc  Xe = X

  • Xcé um bancode dados classificado

  • Xe é um conjunto de execução, ou um conjunto de instâncias não classificadas.

XctrXc

XctsXc

Xctr Xcts = Xc

Xctr Xcts = 


O processo de md
O Processo de MD

Processo de Mineração de Dados

Preparação dos dados

Extrair amostra

Xctr Xcts = Xc

Fragmentar amostra

Xctr , Xcts

Induzir classificador

Xctr C

Calcular acurácia de teste

C  Xcts

Computar acurácia estimada

(Xe)

Algoritmo de indução

Prism

NaiveBayes

Técnicas de fragmentação

Holdout

Bootstrap

Tratamento de dados

Desconhecidos

Inexistentes

Sujos

Técnicas de amostragem

Adaptive Incremental Framework

Convergence


O processo de md1
O Processo de MD

Processo de Mineração de Dados

,  instância  Xcts

Preparação dos dados

Extrair amostra

Xctr Xcts = Xc

Fragmentar amostra

Xctr , Xcts

Induzir classificador

Xctr C

Calcular acurácia de teste

C  Xcts

Computar acurácia estimada

(Xe)

O classificador deve ser testado com cada instância do conjunto de teste Xcts

O teste bem sucedido: quando o classificador mapeia a instância para uma classe que é a mesma classe da instância no conjunto de teste

Fórmula para calcular a acurácia:


O processo de md2
O Processo de MD

Processo de Mineração de Dados

Preparação dos dados

Extrair amostra

Xctr Xcts = Xc

Fragmentar amostra

Xctr , Xcts

Induzir classificador

Xctr C

Calcular acurácia de teste

C  Xcts

Computar acurácia estimada

(Xe)

A acurácia de execução, acce, é calculada em função de accts, considerando um determinado grau de confiança z

N é o número de instâncias utilizadas para o cálculo da acurácia de teste accts

Para uma confiança de 90%, z=1,65


Algoritmo na ve inducer

F1

F2

F3

I1

I2

I3

A1

A2

Algoritmo Naïve_Inducer

  • Investiga exaustivamente todas as técnicas disponíveis, de todos os tipos (Ingênuo)

  • Escolhe o melhor classificador

    • Melhor acurácia estimada de execução


Experimentos com na ve inducer

BD

Descrição

Atributos

Instâncias

Classes

acce (90%)

Letter

Caracteres manuscritos

17

20000

26

77.20%

0.43%

75.77%  78.18%

Splice

Seqüências de DNA

61

3100

3

92.55%

1.27%

89.79%  93.75%

Mushroom

Espécies de cogumelos

22

8124

2

99.39%

0.32%

94.40%  99.82%

Soybean

Cultivo de soja

35

683

19

92.03%

1.50%

86.73%  95.28%

Titanic

Naufrágio do transatlântico Titanic

4

2201

2

99.58%

0.08%

97.99%  99.50%

Connect-4

Partidas de Connect-4

43

36991

3

100.00%

0.00%

99.79%  100.00%

Cmc

Escolha do método anticoncepcional

10

1473

3

98.18%

5.45%

97.26%  98.54%

Kr-vs-Kp

Partidas de Xadrez

36

3196

2

55.14%

0.84%

52.14%  57.82%

Cars

Informações sobre automóveis

10

404

3

96.95%

0.98%

95.12%  96.72%

Experimentos com Naïve_Inducer


Experimentos com na ve inducer1

BD

Descrição

Atributos

Instâncias

Classes

acce (90%)

Letter

Caracteres manuscritos

17

20000

26

77.20%

0.43%

75.77%  78.18%

Splice

Seqüências de DNA

61

3100

3

92.55%

1.27%

89.79%  93.75%

Mushroom

Espécies de cogumelos

22

8124

2

99.39%

0.32%

94.40%  99.82%

Soybean

Cultivo de soja

35

683

19

92.03%

1.50%

86.73%  95.28%

Titanic

Naufrágio do transatlântico Titanic

4

2201

2

99.58%

0.08%

97.99%  99.50%

Connect-4

Partidas de Connect-4

43

36991

3

100.00%

0.00%

99.79%  100.00%

Cmc

Escolha do método anticoncepcional

10

1473

3

98.18%

5.45%

97.26%  98.54%

Kr-vs-Kp

Partidas de Xadrez

36

3196

2

55.14%

0.84%

52.14%  57.82%

Cars

Informações sobre automóveis

10

404

3

96.95%

0.98%

95.12%  96.72%

Experimentos com Naïve_Inducer


Experimentos com na ve inducer2

BD

Descrição

Atributos

Instâncias

Classes

acce (90%)

Letter

Caracteres manuscritos

17

20000

26

77.20%

0.43%

75.77%  78.18%

Splice

Seqüências de DNA

61

3100

3

92.55%

1.27%

89.79%  93.75%

Mushroom

Espécies de cogumelos

22

8124

2

99.39%

0.32%

94.40%  99.82%

Soybean

Cultivo de soja

35

683

19

92.03%

1.50%

86.73%  95.28%

Titanic

Naufrágio do transatlântico Titanic

4

2201

2

99.58%

0.08%

97.99%  99.50%

Connect-4

Partidas de Connect-4

43

36991

3

100.00%

0.00%

99.79%  100.00%

Cmc

Escolha do método anticoncepcional

10

1473

3

98.18%

5.45%

97.26%  98.54%

Kr-vs-Kp

Partidas de Xadrez

36

3196

2

55.14%

0.84%

52.14%  57.82%

Cars

Informações sobre automóveis

10

404

3

96.95%

0.98%

95.12%  96.72%

Experimentos com Naïve_Inducer


Experimentos com na ve inducer3

BD

Descrição

Atributos

Instâncias

Classes

acce (90%)

Letter

Caracteres manuscritos

17

20000

26

77.20%

0.43%

75.77%  78.18%

Splice

Seqüências de DNA

61

3100

3

92.55%

1.27%

89.79%  93.75%

Mushroom

Espécies de cogumelos

22

8124

2

99.39%

0.32%

94.40%  99.82%

Soybean

Cultivo de soja

35

683

19

92.03%

1.50%

86.73%  95.28%

Titanic

Naufrágio do transatlântico Titanic

4

2201

2

99.58%

0.08%

97.99%  99.50%

Connect-4

Partidas de Connect-4

43

36991

3

100.00%

0.00%

99.79%  100.00%

Cmc

Escolha do método anticoncepcional

10

1473

3

98.18%

5.45%

97.26%  98.54%

Kr-vs-Kp

Partidas de Xadrez

36

3196

2

55.14%

0.84%

52.14%  57.82%

Cars

Informações sobre automóveis

10

404

3

96.95%

0.98%

95.12%  96.72%

Experimentos com Naïve_Inducer

  • Uma mesma pessoa pode escrever um caractere de várias formas, bem diferentes entre si

  • Caracteres iguais manuscritos por pessoas diferentes podem apresentar grandes diferenças

  • A indução de padrões genéricos torna-se difícil

  • Instâncias repetidas com classes diferentes – uma espécie de ruído


Experimentos com na ve inducer4
Experimentos com Naïve_Inducer

  • Baseado no ranking pode-se concluir que

  • As diversas combinações de técnicas tem uma forte influência nas acurácias dos classificadores

“O que é bom para um banco de dados não é necessariamente bom para outro banco de dados”

Vantagem

Melhor Classificador

(matematicamente)

Desvantagem

Alto custo

processamento


Algoritmo expert inducer
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer1
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer2
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer3
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer4
Algoritmo Expert_Inducer

Heurística 1:

Se a técnica de amostragem A1 tem resultados melhores que as outras técnicas de amostragem para o banco de dados X em uma certa combinação de técnicas de fragmentação e indução, então a vantagem de A1 sobre as outras técnicas de amostragem pode ser assumida para X, independentemente das outras combinações com as demais técnicas de fragmentação e indução.

Banco de Dados: Mushroom


Algoritmo expert inducer5
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer6
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer7
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer8
Algoritmo Expert_Inducer

Heurística 2:

Se a técnica de fragmentação F1 tem resultados melhores que as outras técnicas de fragmentação para o banco de dados X em uma certa combinação que esteja presente a melhor técnica de amostragem para X, a vantagem de F1 sobre as outras técnicas de fragmentação pode ser assumida para X, independentemente dos algoritmos de indução.

Banco de Dados: Mushroom


Algoritmo expert inducer9
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer10
Algoritmo Expert_Inducer

Banco de Dados: Mushroom


Algoritmo expert inducer11
Algoritmo Expert_Inducer

Heurística 3:

Considerando a melhor técnica de amostragem (Heurística 1) e a melhor técnica de fragmentação (Heurística 2). Se o algoritmo de indução I1 tem resultados melhores que os outros algoritmos de indução para o banco de dados X em uma certa combinação que esteja presente a melhor técnica de amostragem e a melhor técnica de fragmentação para X, então pode-se então assumir que I1 é o melhor algoritmo de indução para X.

Banco de Dados: Mushroom


Algoritmo expert inducer12
Algoritmo Expert_Inducer

  • Outros oito bancos de dados foram testados

  • Foi utilizado o mesmo raciocínio

  • As conclusões foram similares a obtida no banco de dados Mushroom


Algoritmo expert inducer13
Algoritmo Expert_Inducer

  • Utiliza as heurísticas

  • O Expert_Inducer executa A+F+I iterações

    • O Naïve_Inducer executa AxFxI iterações


Experimentos com expert inducer

BD

Naïf-bestClassifier

Descrição

Atributos

Expert-BestClassifier

Instâncias

Classes

O melhor classificador para

Cars-Evolution

Avaliação de automóveis

8

1728

4

Melhores técnicas

-

Tempo

Melhores técnicas

-

Tempo

Nursery

Escola Infantil

8

12960

5

Tic-tac-toe

Jogo Tic-tac-toe

10

953

2

Cars-Evolution

AIF – BS – Prism

89,76%

1’56’’

AIF – CV – ID3

87,08

1’10’’

Nursery

AIF – CV – ID3

90,56%

9’52

AIF – CV – ID3

89,89%

6’23’’

Tic-tac-toe

AIF – CV - Prism

97,05%

2’56’’

AIF – CV – Prism

97,08%

1’49’’

Experimentos com Expert_Inducer


Experimentos com expert inducer1

BD

Naïf-bestClassifier

Descrição

Atributos

Expert-BestClassifier

Instâncias

Classes

O melhor classificador para

Cars-Evolution

Avaliação de automóveis

8

1728

4

Melhores técnicas

-

Tempo

Melhores técnicas

-

Tempo

Nursery

Escola Infantil

8

12960

5

Tic-tac-toe

Jogo Tic-tac-toe

10

953

2

Cars-Evolution

AIF – BS – Prism

89,76%

1’56’’

AIF – CV – ID3

87,08

1’10’’

Nursery

AIF – CV – ID3

90,56%

9’52

AIF – CV – ID3

89,89%

6’23’’

Tic-tac-toe

AIF – CV - Prism

97,05%

2’56’’

AIF – CV – Prism

97,08%

1’49’’

Experimentos com Expert_Inducer

Ambos algoritmos possuem desempenhos similares


Experimentos com expert inducer2

BD

Naïf-bestClassifier

Descrição

Atributos

Expert-BestClassifier

Instâncias

Classes

O melhor classificador para

Cars-Evolution

Avaliação de automóveis

8

1728

4

Melhores técnicas

-

Tempo

Melhores técnicas

-

Tempo

Nursery

Escola Infantil

8

12960

5

Tic-tac-toe

Jogo Tic-tac-toe

10

953

2

Cars-Evolution

AIF – BS – Prism

89,76%

1’56’’

AIF – CV – ID3

87,08

1’10’’

Nursery

AIF – CV – ID3

90,56%

9’52

AIF – CV – ID3

89,89%

6’23’’

Tic-tac-toe

AIF – CV - Prism

97,05%

2’56’’

AIF – CV – Prism

97,08%

1’49’’

Experimentos com Expert_Inducer

Apesar de haver uma divergência quanto a melhor combinação em Cars-Evolution, isto não compromete o desempenho


Experimentos com expert inducer3

BD

Naïf-bestClassifier

Descrição

Atributos

Expert-BestClassifier

Instâncias

Classes

O melhor classificador para

Cars-Evolution

Avaliação de automóveis

8

1728

4

Melhores técnicas

-

Tempo

Melhores técnicas

-

Tempo

Nursery

Escola Infantil

8

12960

5

Tic-tac-toe

Jogo Tic-tac-toe

10

953

2

Cars-Evolution

AIF – BS – Prism

89,76%

1’56’’

AIF – CV – ID3

87,08

1’10’’

Nursery

AIF – CV – ID3

90,56%

9’52

AIF – CV – ID3

89,89%

6’23’’

Tic-tac-toe

AIF – CV - Prism

97,05%

2’56’’

AIF – CV – Prism

97,08%

1’49’’

Experimentos com Expert_Inducer

A técnica de fragmentação Cross-Validation seleciona aleatoriamente as instâncias da amostra

Por isso, há uma diferença entre as acurácias dos classificadores induzidos por uma mesma combinação de técnicas


Experimentos com expert inducer4

BD

Naïf-bestClassifier

Descrição

Atributos

Expert-BestClassifier

Instâncias

Classes

O melhor classificador para

Cars-Evolution

Avaliação de automóveis

8

1728

4

Melhores técnicas

-

Tempo

Melhores técnicas

-

Tempo

Nursery

Escola Infantil

8

12960

5

Tic-tac-toe

Jogo Tic-tac-toe

10

953

2

Cars-Evolution

AIF – BS – Prism

89,76%

1’56’’

AIF – CV – ID3

87,08

1’10’’

Nursery

AIF – CV – ID3

90,56%

9’52

AIF – CV – ID3

89,89%

6’23’’

Tic-tac-toe

AIF – CV - Prism

97,05%

2’56’’

AIF – CV – Prism

97,08%

1’49’’

Experimentos com Expert_Inducer

O tempo de processamento de Expert_Inducer foi sempre menor que Naive_Inducer


Conclus o
Conclusão

  • Automatização do processo de mineração de dados

  • Novas técnicas podem ser incorporadas ao framework com o mínimo de impacto sobre as outras partes do próprio framework

  • As heurísticas permitem uma boa performance da combinação de técnicas sem perda de qualidade

  • O trabalho não trata outros modelos de conhecimento como regras de associação

  • Não está integrado com SGBDs


Bibliografia
Bibliografia

  • TOEBE, Josué; SAMPAIO, Marcus. A Systematic Approach for Inducing Reliable Classifiers From Data Mines.


ad