minera o de dados conceitos aplica es e experimentos com weka n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka PowerPoint Presentation
Download Presentation
Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka

Loading in 2 Seconds...

play fullscreen
1 / 56

Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka - PowerPoint PPT Presentation


  • 113 Views
  • Uploaded on

Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka. Aurora Trinidad Ramirez Pozo aurora@inf.ufpr.br Departamento de Informática Universidade Federal do Paraná. Motivação. A informatização dos meios produtivos permitiu a geração de grandes volumes de dados:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka' - baird


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
minera o de dados conceitos aplica es e experimentos com weka

Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka

Aurora Trinidad Ramirez Pozo

aurora@inf.ufpr.br

Departamento de Informática

Universidade Federal do Paraná

motiva o
Motivação
  • A informatização dos meios produtivos permitiu a geração de grandes volumes de dados:
    • Transações eletrônicas;
    • Novos equipamentos científicos e industriais para observação e controle;
    • Dispositivos de armazenamento em massa;
  • Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)”
conhecimento
Conhecimento

Valor

Volume

$

Conhec.

Informação

Dados

agreguem valor aos seus negócios

motiva o1
Motivação
  • Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução
  • Solução:
    • ferramentas de automatização das tarefas repetitivas e sistemática de análise de dados
    • ferramentas de auxílio para as tarefas cognitivas da análise
    • integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão
aplica o
Aplicação
  • Um problema do mundo dos negócios: entender o perfil dos clientes
    • desenvolvimento de novos produtos;
    • controle de estoque em postos de distribuição;
    • propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas;
  • Quais são meus clientes típicos?
descoberta de conhecimento em bancos de dados
Descoberta de Conhecimento em Bancos de Dados
  • “O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”;
  • O que é um padrão interessante ? (válido, novo, útil e interpretável)
transformar dados
Transformar dados
  • em informação e conhecimento
    • úteis para o suporte à decisão,
    • gerenciamento de negócios, controle de produção
    • análise de mercado ao projeto de engenharia e exploração científica
kdd x data mining
KDD x Data Mining
  • Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável;
  • KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;
etapas do processo
Etapas do Processo
  • Seleção
  • Pré-processamento
  • Transformação
  • Data mining (aprendizagem)
  • Interpretação e Avaliação

Processo

processo m nimo de descoberta do conhecimento
Processo mínimo de descoberta do conhecimento

Compreensão do domínio e dos objetivos da tarefa;

Criação do conjunto de dados envolvendo as variáveis necessárias;

Processo

sele o de dados
Seleção de Dados
  • Selecionar ou segmentar dados de acordo com critérios definidos:
      • Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado.

Processo

processo m nimo
Processo mínimo

Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc.

Processo

pr processamento
Pré-Processamento
  • Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas.
  • Reconfiguração dos dados para assegurar formatos consistentes (identificação)
        • Ex. : sexo = “F” ou “M”

sexo = “M” ou “H”

Processo

processo m nimo1
Processo mínimo

Redução de dimensionalidade, combinação de atributos;

Processo

transforma o
Transformação
  • Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada.
  • Disponibilizar os dados de maneira usável e navegável.

Processo

data mining
Data Mining
  • É a verdadeira extração dos padrões de comportamento dos dados (exemplos)

Processo

processo m nimo3
Processo mínimo

Interpretação dos resultados, com possível retorno aos passos anteriores;

Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados;

Processo

interpreta o e avalia o
Interpretação e Avaliação
  • Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas

Processo

etapas do processo1
Etapas do Processo
  • O processo de KDD é interativo, iterativo, cognitivo e exploratório, envolvendo vários passos
  • muitas decisões sendo feitas pelo analista ( especialista do domínio dos dados)
slide22
Técnicas de pré-processamento e transformação de dados são aplicadas para aumentar a qualidade e o poder de expressão dos dados a serem minerados.
  • Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70%).
m todos de minera o de dados
Métodos de mineração de dados
  • Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais;
  • Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva;

Métodos

tarefas b sicas
Tarefas básicas
  • Previsão
    • Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação;
    • É comumente visada em aprendizado de máquina/estatística;
    • Exemplos: classificação e regressão;

Métodos

tarefas b sicas1
Tarefas básicas
  • Descrição
    • Reportar relações entre as variáveis do modelo de forma simétrica;
    • À princípio, está mais relacionada ao processo de KDD;
    • Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio;

Métodos

exemplo de previs o i

sem crédito

o

x

o

o

x

x

x

x

o

o

x

o

o

o

o

x

o

débito

t

renda

x: exemplo recusado

o: exemplo aceito

Exemplo de previsão (I)

Análise de crédito

  • Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra:
    • se a renda é menor que t, então o crédito não deve ser liberado
  • Exemplo:
    • árvores de decisão;
    • indução de regras

Métodos

exemplos
Exemplos
  • Áreas de aplicações potenciais:
    • Vendas e Marketing
      • Identificar padrões de comportamento de consumidores
      • Associar comportamentos à características demográficas de consumidores
      • Campanhas de marketing direto (mailing campaigns)
      • Identificar consumidores “leais”

Exemplos

exemplo de previs o ii

sem crédito

o

x

o

o

x

x

x

x

o

o

x

o

o

o

o

x

o

débito

t

renda

x: exemplo recusado

o: exemplo aceito

Exemplo de previsão (II)

Análise de crédito

  • Hiperplano oblíquo: melhor separação:
  • Exemplos:
    • regressão linear;
    • perceptron;

Métodos

exemplo de previs o iii

sem crédito

o

x

o

o

x

x

x

x

o

o

x

o

o

o

o

x

o

débito

t

renda

x: exemplo recusado

o: exemplo aceito

Exemplo de previsão (III)

Análise de crédito

  • Superfície não linear: melhor poder de classificação, pior interpretação;
  • Exemplos:
    • perceptrons multicamadas;
    • regressão não-linear;

Métodos

exemplo de previs o iv

sem crédito

o

x

o

o

x

x

x

x

o

o

x

o

o

o

o

x

o

débito

t

renda

x: exemplo recusado

o: exemplo aceito

Exemplo de previsão (IV)

Análise de crédito

  • Métodos baseado em exemplos;
  • Exemplos:
    • k-vizinhos mais próximos;
    • raciocínio baseado em casos;

Métodos

exemplo de descri o i

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

débito

t

renda

+: exemplo

Exemplo de descrição (I)

Análise de crédito

  • Agrupamento
  • Exemplo:
    • vector quantization;

Métodos

exemplo de descri o ii
Exemplo de descrição (II)
  • Regras de associação
    • “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”;
    • descoberta simétrica de relações, ao contrário de métodos de classificação
      • qualquer atributo pode ser uma classe ou um atributo de discriminação;

Métodos

t cnicas

CBR

Técnicas
  • Revisão geral de Aprendizagem:
exemplos1
Exemplos
  • Áreas de aplicações potenciais:
    • Bancos
      • Identificar padrões de fraudes (cartões de crédito)
      • Identificar características de correntistas
      • Mercado Financeiro($$$)

Exemplos

exemplos2
Exemplos
  • Áreas de aplicações potenciais
    • Médica
      • Comportamento de pacientes
      • Identificar terapias de sucessos para diferentes tratamentos
      • Fraudes em planos de saúdes
      • Comportamento de usuários de planos de saúde

Exemplos

introdu o
Introdução
  • Exemplo (1) - Fraldas e cervejas
    • O que as cervejas tem a ver com as fraldas ?
    • homens casados, entre 25 e 30 anos;
    • compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa;
    • Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas;
    • Resultado: o consumo cresceu 30% .

Exemplos

exemplos3
Exemplos
  • Exemplo (2) - Lojas Brasileiras (Info 03/98)
    • Aplicou 1 milhão de dólares em técnicas de data mining
    • Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas.
    • Exemplo de anomalias detectadas:
      • Roupas de inverno e guarda chuvas encalhadas no nordeste
      • Batedeiras 110v a venda em SC onde a corrente elétrica é 220v

Exemplos

exemplos4
Exemplos
  • Exemplo (3) - Bankof America (Info3/98)
    • Selecionou entre seus 36 milhões de clientes
      • Aqueles com menor risco de dar calotes
      • Tinham filhos com idades entre 18 e 21 anos
      • Resultadoem três anos o banco lucrou 30 milhões dedólares com a carteira de empréstimos.

Exemplos

software weka
Software Weka

Waikato 2004, Witten & Frank 2000

ferramenta
Ferramenta
  • algoritmos de
    • preparação de dados
    • aprendizagem de máquina (mineração)
    • validação de resultados
  • /public/soft/linux/weka...
  • Java –jar weka.jar
software weka1
Software Weka
  • Software para data mining/machine learning escritoem Java (distribuído sob GNU Public License)
  • Utilizadoempesquisa e educação
  • Principaiscaracterísticas:
    • Extensoconjunto de rotinasparapré-processamento, esquemas de aprendizagem, além de métodos de avaliação
    • GUIs (inclusive paravisualização dos dados)
    • Ambienteparacomparação de algortimos de aprendizagem.
vers es weka
Versões Weka
  • WEKA 3.0: “book version” compatível com a descrição do livro
  • WEKA 3.4: Última versão (utilizada na apresentação)
  • Esquema de versões Linux
weka trabalha com flat files
Weka trabalha com flat files

@relation heart-disease-simplified

@attribute age numeric

@attribute sex { female, male}

@attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina}

@attribute cholesterol numeric

@attribute exercise_induced_angina { no, yes}

@attribute class { present, not_present}

@data

63,male,typ_angina,233,no,not_present

67,male,asympt,286,yes,present

67,male,asympt,229,yes,present

38,female,non_anginal,?,no,not_present

...

Flat file in

ARFF format

weka trabalha com flat files1
Weka trabalha com flat files

@relation heart-disease-simplified

@attribute age numeric

@attribute sex { female, male}

@attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina}

@attribute cholesterol numeric

@attribute exercise_induced_angina { no, yes}

@attribute class { present, not_present}

@data

63,male,typ_angina,233,no,not_present

67,male,asympt,286,yes,present

67,male,asympt,229,yes,present

38,female,non_anginal,?,no,not_present

...

Atributo numérico

Atributo nominal

explorer pre processing
Explorer: Pre-processing
  • Importação dos dados emváriosformatos: ARFF, CSV, C4.5, binary
  • Dados tambémpodem ser lidos de uma URL ou de um banco de dados (utilizando o pacote JDBC)
  • Rotinas de pré-processamento no Wekasãochamados de filtros
  • Weka tem filtrospara:
    • Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros.
filtros redu o dos dados
Filtros: Redução dos dados
  • Metodossupervisadosweka.filters.supervised.instance.*
    • Resample: Fazumaamostragemestratificada com o dataset fornecido. O dataset deveter um atributo nominal informando a classe. Biasparadistribuição das classes naamostrasejauniforme.
    • StratifiedRemoveFolds: Cria um fold estratificadopara o cross-validation.
    • SpreadSubsample: Produzumaamostraaleatória dos dados. Este filtropermitedefinir o máximospread entre a classemaisrara e a classemaiscomum. Porexemplo, 5:1
filtros redu o dos dados1
Filtros: Redução dos dados
  • Metodosnão-supervisadosweka.filters.unsupervised.instance.*
    • Resample: amostragem aleatória (não estratificada) do dataset
    • Randomize - embaralha conjunto de dados
    • RemoveFolds – Define um fold para o crossvalidation
    • RemovePercentage – Remove uma proporção do dataset
    • RemoveRange - Remove um determinado intervalo de instâncias do dataset.
filtros redu o dos atributos
Filtros: Redução dos Atributos
  • Metodosnão-supervisadosweka.filters.unsupervised.attribute.*
    • Normalize: valores no intervalo [0,1], exceto o atributo de classe
    • NumericTransform - Aplica uma função matemática qualquer aos valores do atributo (classe Java)
    • ReplaceMissingValues – Preenche com a média (atrib. numerico ) ou a moda (atrib.nominal)
    • Standardize – transformação dos valores para uma
    • RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos constantes (nme/nml)
filtros redu o dos atributos1
Filtros: Redução dos Atributos
  • Metodossupervisadosweka.filters.supervised.attribute.*
    • AttributeSelection: Permite a combinacao de variosmetodos de avaliacao e busca de atributos.
      • Avaliação: ganho de info., PCA e váriosoutros
      • Busca: best first, greedy, genetic search, exhaustive search, rank search
    • Discretize: Discretiza um intervalo de atributosnumericosutilizando a tecnica MDL (Fayyad & Irani's) ou MDL (Kononenko)
    • NominalToBinary: Convertetodososatributosnominaisparaatributosbináriosnuméricos
explorer attribute selection
Explorer: Attribute Selection
  • Usadoparainvestigarquaisatributos (subconjuntos deles) sãomaispreditivos
  • AttributeSelectionem 2 etapas:
      • Um método de busca
      • Um método de avaliação
  • Flexibilidade: (quase) qualquercombinação de busca/avaliação
weka clustering
Weka:Clustering
  • Metódosparavariáveisnuméricas e nominais:
    • EM
    • k-Means
    • CobWeb
  • Exemplo
weka classificadores
Weka: Classificadores
  • Modelospara a previsão de classes (nominal ounúmerica):
  • Wekaimplementa:
    • Árvore de decisão, listas, classificadoresbaseadoeminstâncias, multi-layer perceptrons, regressão, redesbayesianas, ...
  • “Meta”-classificadores:
    • Bagging, boosting, stacking, error-correcting output code, locally weighted learning, ...
weka associa es
Weka: Associações
  • Identificardependênciasestatísticas entre grupos de atributos
  • 3 algorítimosparaaprenderassociações:
    • Apriori;
    • PredictiveApriori;
    • Tertius;
    • Trabalhasomente com dados nominais;
    • Computaregrasquedêem um suportemínimo e ultrapasse um nível de confiança.
weka visualiza o
Weka: Visualização
  • Ajuda a identificar a dificuldadenaaprendizagem do problema
  • Visualização 2D
  • Difere as classes porcor
weka experimentos em conjunto
Weka: Experimentos em conjunto
  • Experimenter:permite a comparação de diferentesestratégias de aprendizagem.
  • Para problemas de classificação e regressão
  • Resultadosescritosem um arquivoou base de dados
  • Opções de avaliação: cross-validation, curva de aprendizagem, hold-out
  • Pode ser executado com diferentesconfigurações de parâmetros
  • Teste de significânciaacoplado