Minera o de dados
Download
1 / 14

Mineração de dados - PowerPoint PPT Presentation


  • 132 Views
  • Uploaded on

Mineração de dados. Exercícios sobre classificação. O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Mineração de dados' - guy-pruitt


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Minera o de dados
Mineração de dados

Exercícios sobre classificação






Considere o seguinte conjunto de treino, em que cada exemplo é definido por três atributos (A,B,C).

a) Qual a incerteza (entropia) associada ao conjunto de treino inicial?

b) Qual o Ganho de Informação de um teste efetuado no primeiro atributo (X1)?

c) Face a este resultado, qual seria a estrutura de uma árvore de decisão obtida para este conjunto de treino, construída de acordo com o critério de maximização do ganho de informação?


Determine a classificação obtida para o exemplo C11 utilizando o algoritmo naive Bayes, considerando os dados de treino abaixo e sabendo que

P( E1 |H ).P( E2 | H)... .P(En | H).P(H )

P(H|E)=

P( E1 ).P( E2)... .P(En)


Exerc cio 1

Entre no Weka e carregue o arquivo golf.arff ( utilizando o algoritmo preprocess/open file)

Examine os dados

escolha a aba de Classificação (Classify) e selecione o classificador J48 (Choose/Trees/J48) e execute com os parâmetros default (start)

Compreenda a saída fornecida

Visualize a árvore gerada (clicando com o botão direito na lista de resultados e escolhendo visualize tree)

EXERCÍCIO 1


Outros classificadores no weka
Outros classificadores no Weka utilizando o algoritmo

  • Nome de alguns classificadores vistos em aula, no Weka:

    • C 4.5: Choose/trees/J48

    • ID3: Choose/trees/Id3

    • naïve bayes: Choose/bayes/NaiveBayes

    • k-NN: Choose/lazy/IBk

    • SVM: Choose/functions/SMO

    • Rede neural backpropagation: Choose/functions/MultilayerPerceptron


Exerc cio 2
Exercício 2 utilizando o algoritmo

  • Carregue o arquivo iris.arff (150 registros)

  • Execute o classificador J48 com os parâmetros default.

  • Se familiarize com o formato da saída fornecida, incluindo a matriz de confusão

  • Visualize a árvore gerada

  • Visualize os erros de classificação. No gráfico, como se diferenciam as instancias corretamente das incorretamente classificadas? Como pode-se ver informações detalhadas de uma instância (registro)?

  • Execute outras formas de avaliação e verifique o efeito:

    • Use training set (usa para teste o mesmo arquivo do treinamento)

    • Percentage split (divide o arquivo em uma parte para o treinamento e outra para o teste)

  • Use outros algoritmos de classificação e anote o seu nome e o resultado (acurácia)


Exerc cio 3
EXERCÍCIO 3 utilizando o algoritmo

  • Carregue o arquivo credit-g.arff (arquivo com dados para decisão sobre crédito bancário, com 1000 registros)

  • Use percentage split como método de avaliação (o número de registros é razoavelmente grande).

  • Para este problema, considere que um falso positivo (prever que a classe é good quando na verdade é bad) tem um custo 5 vezes maior que o de um falso negativo.

  • Encontre o menor custo com o J48 (usando a matriz de confusão ), considerando os custos:

    VP=-1; VN=-1; FP=5; FN=1.

  • Utilizando os valores default dos parâmetros, teste com outros classificadores e anote o resultado em uma tabela com: classificador, acurácia, custo, tempo de execução


Exerc cio 4

Abra o arquivo hepatitis.arff utilizando o algoritmo

Execute o J48 com os parâmetros default. Salve o resultado. Execute outros classificadores e anote o resultado.

Qual o melhor? Compare as matrizes de confusão geradas pelos diversos classificadores

EXERCÍCIO 4


Exerc cio 5
Exercício 5 utilizando o algoritmo

  • Abra o arquivo mushroom.arff.

  • Utilize alguns algoritmos de classificação. Faça uma tabela com o classificador e acurácia obtida. Qual o melhor resultado, com que classificador?


Salvar e utilizar o modelo de classifica o
Salvar e utilizar o modelo de classificação utilizando o algoritmo

Salvar:

  • executar o algoritmo de classificação (porexemplo, o J48) pararealizar o treinamento (geração do modelo)

  • Clique o botãodireitosobre o modeloquedeve ser salvo, naResults list

  • SelecioneSave model e salve o modelo.

    Carregar(o modelo salvo anteriormente)

  • Carregueos dados de testeusando a opçãoSupplied test set

  • Clique o botãodireitonaResults list, selecioneLoad model e escolha o modelo salvo paracarregar

  • SelecioneRe-evaluate model on current test set

OBS:

- o arquivo usado para teste deve conter os mesmos nomes de atributos e os mesmos tipos que o arquivo usado para gerar o modelo.

- Quando se carrega um arquivo CSV, o primeiro registro é usado para nomear os atributos.


ad