1 / 58

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados. Ricardo Bezerra de Andrade e Silva rbas@di.ufpe.br. Roteiro. Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão. Exemplo preliminar. Problema.

Download Presentation

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Descoberta de Conhecimento em Bases de Dadose Mineração de Dados Ricardo Bezerra de Andrade e Silva rbas@di.ufpe.br

  2. Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Exemplo preliminar

  3. Problema • Um problema do mundo dos negócios: entender o perfil dos clientes • para desenvolvimento de novos produtos; • para controle de estoque em postos de distribuição; • propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; • Quais são meus clientes típicos? Prólogo

  4. Situação • A empresa possui registro de todas as transações efetuadas; • O conteúdo desse banco de dados possui informação suficiente para categorizar diferentes comportamentos; • Mas como aproveitar este conteúdo? • “Afogados em dados, mas mendigando por informação”; • Solução: apoio em ferramentas de análise automatizada; Prólogo

  5. Definição da tarefa • Tarefa escolhida: segmentação de mercado consumidor para auxílio a marketing; • Categorias (classes): • produtos de esporte; • equipamentos de exercício; • eletrodomésticos; • produtos de entretenimento; • produtos para o lar; Prólogo

  6. Seleção de dados • Utilizando o conhecimento que dispõe do domínio, o analista responsável decide que todas as informações necessárias encontram-se nas seguintes tabelas: • clientes: nome, identificação, idade, sexo, estado civil, endereço, renda, proprietário da casa; • produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada; • transações: identificador de cliente, identificador de produto, data e hora, quantidade; Prólogo

  7. Seleção de Dados (II) • Agrupando informações em uma única tabela; Prólogo

  8. Aplicação de algoritmo • Decidiu-se aplicar um algoritmo de aprendizado para agrupar os clientes em quatro conjuntos • ex.: rede de Kohonen do tipo vector quantization; • A idéia do algoritmo é dispor, em conjuntos, clientes que apresentem aspectos similares; • Posteriormente, os dados são organizados em uma planilha, onde o número do grupo (1, 2, 3, ou 4) é utilizado como chave primária; • A planilha calcula estatísticas de cada grupo, comparando-as com toda população; Prólogo

  9. Alguns resultados (I) Prólogo

  10. Alguns resultados (II) Prólogo

  11. Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Motivação

  12. Motivação • A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: • Transações eletrônicas; • Novos equipamentos científicos e industriais para observação e controle; • Dispositivos de armazenamento em massa; • O uso adequado da informação permite ganho de competitividade: conhecimento é poder, Motivação

  13. Motivação • Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: • processo iterativo de criação, teste e refinamento de hipóteses; • Tornam-se necessários novos métodos capazes de automatizar parte deste processo • busca em um espaço de hipóteses; Motivação

  14. Descoberta de Conhecimento em Bancos de Dados • “O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; • “Torture os dados até eles confessarem”; • Envolve a etapa de mineração de dados: a aplicação de algoritmos de análise de dados; Motivação

  15. Interesse em Ascensão • International Conference onKnowledge Discovery and Data Mining • Junho de 1998: ACM SIGKDD • Algumas companhias envolvidas: • IBM • Microsoft • SAS Institute • Silicon Graphics Motivação

  16. Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Conceitos básicos

  17. O Que é Um Padrão Interessante? • Válido; • Novo; • Útil; • Interpretável; Conhecimento, sobre a ótica de KDD (Fayyad et al., 1996): Conhecimento ={ X | f(X, V, N, U, I) > T}

  18. KDD x Data Mining • Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; • KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos

  19. Processo Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Escolha e execução do algoritmo de acordo com a tarefa a ser cumprida Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Interpretação dos resultados, com possível retorno aos passos anteriores; Redução de dimensionalidade, combinação de atributos; Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados; Conceitos

  20. Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Métodos de data mining

  21. Métodos de mineração de dados: campos relacionados (I) • Inteligência Artificial • aprendizado de máquina; • representação de conhecimento e inferência; • Estatística • inferência estatística; • análise exploratória de dados; • Computação gráfica • visualização de dados; Métodos

  22. Métodos de mineração de dados: campos relacionados (II) • Bancos de dados • linguagens de consulta • o que é uma descoberta, afinal? Exibir todos os empregados que ganham dentro de uma determinada faixa salarial é uma descoberta? • armazém de dados (data warehousing); • processamento analítico on-line (OLAP); • paralelização de processos; • tendências: • consultas por similaridade; • consultas de classificadores, grupos e outros objetos; Métodos

  23. Métodos de mineração de dados • Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; • Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos

  24. Tarefas básicas • Previsão • Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; • É comumente visada em aprendizado de máquina/estatística; • Exemplos: classificação e regressão; Métodos

  25. Tarefas básicas • Descrição • Reportar relações entre as variáveis do modelo de forma simétrica; • À princípio, está mais relacionada ao processo de KDD; • Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos

  26. sem crédito o x o o x x x x o o x o o o o x o débito t renda x: exemplo recusado o: exemplo aceito Exemplo de previsão (I) Análise de crédito • Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: • se a renda é menor que t, então o crédito não deve ser liberado • Exemplo: • árvores de decisão; • indução de regras Métodos

  27. sem crédito o x o o x x x x o o x o o o o x o débito t renda x: exemplo recusado o: exemplo aceito Exemplo de previsão (II) Análise de crédito • Hiperplano oblíquo: melhor separação: • Exemplos: • regressão linear; • perceptron; Métodos

  28. sem crédito o x o o x x x x o o x o o o o x o débito t renda x: exemplo recusado o: exemplo aceito Exemplo de previsão (III) Análise de crédito • Superfície não linear: melhor poder de classificação, pior interpretação; • Exemplos: • perceptrons multicamadas; • regressão não-linear; Métodos

  29. sem crédito o x o o x x x x o o x o o o o x o débito t renda x: exemplo recusado o: exemplo aceito Exemplo de previsão (IV) Análise de crédito • Métodos baseado em exemplos; • Exemplos: • k-vizinhos mais próximos; • raciocínio baseado em casos; Métodos

  30. + + + + + + + + + + + + + + + + + débito t renda +: exemplo Exemplo de descrição (I) Análise de crédito • Agrupamento • Exemplo: • vector quantization; Métodos

  31. Exemplo de descrição (II) • Regras de associação • “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; • descoberta simétrica de relações, ao contrário de métodos de classificação • qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos

  32. Exemplo de descrição (III) • Previsão de séries temporais Identificação dos investimentos mais promissores nos próximos 30 dias; Métodos

  33. Garimpando resultados • Transformar 1.000.000 de registros em mil regras é bom, mas... • o que fazer com estas 1000 regras? • Medidas de utilidade • subjetivas • dependentes de domínio • demanda especialistas com tempo livre; • objetivas • mais independentes; • um dos pontos chaves de KDD; Métodos

  34. Medidas objetivas de utilidade: grau de surpresa • Validade • utilizando limiares de confiança, apenas as regras (por exemplo) mais importantes seriam apresentadas; • E as exceções? • informações úteis não estão simplesmente nas regularidade mais comuns. Padrões inesperados podem também ser úteis; • Exemplo de método: • visualização de grupos de outliers; Métodos

  35. Exemplo: algoritmo para regras de pequeno alcance (I) • São regras que cobrem apenas uma pequena quantidade de dados: • potencial para descrever relações interessantes e anteriormente despercebidas; • porém, são facilmente descartadas em filtragens por limiar de grau de cobertura; • como distingui-las de ruído? • Idéia do algoritmo: • criar pequenas generalizações das regras em estudo e comparar a cobertura obtida; Métodos

  36. Exemplo: algoritmo para regras de pequeno alcance (II) • Algoritmo: • para cada antecedente a de uma regra • se a é categórico, retire-o da regra; • se a é contínuo, aumente o intervalo no qual o antecedente é válido; • conte o número D de vezes em que a classe obtida é diferente da classe da regra original; • calcule uma medida M em função de D e do total de antecedentes N. • exemplo: M = D/N; • valores altos de M tenderão a capturar as relações mais úteis; Métodos

  37. Escalabilidadetécnicas para acelerar um processo KDD • Amostragem • redução de precisão; • Algoritmos distribuídos • particionar o banco de dados em p partições; • utilizar um processador diferente para cada partição; • utilizar um método de combinação de resultados; • Paralelismo (intra-algorítimico) Métodos

  38. 3% 2% O hospital A parece ser o menos adequado. O perigo da falta de análise:paradoxo de Simpson (I) Hospital A Hospital B Morreram Sobreviveram 63 2037 16 784 Total 2100 800 Métodos

  39. 1% 1.3% 3.8% 4% O perigo da falta de análise:paradoxo de Simpson (II) • Números x Bom-senso: “Lies, Damned Lies, and Statistics” Boas condições Hosp. A Hosp. B O hospital A é melhor! Morreram Sobreviveram 6 594 8 592 Total 600 600 Hosp. A Hosp. B Más condições Morreram Sobreviveram 57 1443 8 192 ...and data mining? Total 1500 200 Métodos

  40. A busca por causalidade • Correlação não é o mesmo que causalidade • “lama” e “chuva” são dois conceitos relacionados, mas como inferir que um é causa do outro? • A média de idade da Flórida é grande. O clima da Flórida faz as pessoas viverem mais? • Explicação plausível: muitas pessoas mudam-se pra lá quando se aposentam; • Experimentos controlados Métodos

  41. Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Exemplos de aplicação

  42. SKICAT (Sky Image Cataloging and Analysis Tool) • Digital Palomar Observatory Sky Survey • banco de dados com três terabytes de imagens da ordem de dois bilhões de objetos celestes; • Tarefas: • diferenciar estrelas de galáxias • uma vez classificadas, análise científicas mais específicas são aplicadas; • classificar objetos de brilho fraco Aplicações

  43. SKICAT: algoritmo de aprendizado • Regras extraídas de algoritmos de geração de árvores originam-se de uma única árvore; • RULER • alternativa: geração de várias árvores. Somente as melhores regras de cada árvore são mantidas; • Divide-se a base de dados em vários conjuntos treinamento (para árvores) e teste (para regras); • Podando regras: calcula-se a chance de que uma dada premissa esteja correlacionada com a classe especificada por pura sorte; • Produz-se, assim, uma base robusta de regras; • Redução da base por um algoritmo de cobertura de conjuntos; Aplicações

  44. SKICAT: pré-processamento • “Em problemas de classificação, a escolha dos atributos utilizados para definir exemplos é o fator mais determinante do sucesso ou fracasso do processo de aprendizado” • garbage in, garbage out; • Uso de um programa público de processamento de imagens: • baseado nos agrupamentos de pixels constituindo cada objeto detectado, produzem-se os atributos básicos discriminadores • ex,: brilho e orientação; Aplicações

  45. SKICAT: Gerenciando o conhecimento • Catálogo de objetos on-line utilizando-se um gerenciador de banco de dados • permitir ao usuário localizar corpos celestes e consultar informações dos mesmos; • Casamento de objetos obtidos de fontes diferentes; Aplicações

  46. Kefir (Key Findings Reporter) • Análise de desvios • descoberta de diferenças significativas entre valores medidos e valores anteriores ou padrões; • Funções do Kefir • descobrir, explicar e relatar derivações chave; • Finding • Conjunto de valores relacionados (atual, anteriores, padrão) de uma dada medida; Aplicações

  47. Health-Kefir • Motivação: organizações precisam controlar gastos com saúde, planejando medidas que venham a diminuir gastos futuros. MAS,... • gasta-se muito tempo preparando-se relatórios, perdendo-se oportunidade importantes; • Oportunidade para análise automática de dados: • métodos do mercado de saúde baseiam-se em medidas padrões de vários aspectos, como preço, uso e qualidade; • dimensões principais: • população: empregados de uma empresa, moradores de um bairro...; • área de estudo: nascimentos prematuros, internações...; • medidas: tempo de internação... Aplicações

  48. Health-Kefir • O grau de interesse em um desvio está diretamente relacionado ao benefício atingível através das ações possíveis; • os desvios interessantes são aqueles que indicam problemas que podem ser corrigidos; • significância estatística; • Pagamentos_por_caso • desvios crescentes desta medida são altamente relevantes para o sistema Health-Kefir; • como reduzir custos futuros; Aplicações

  49. valores padrões desvio medida valores reais tempo 92 93 94 95 Health-Kefir • Cálculo de desvio para cada setor e subsetor; • extrapolação linear; Aplicações

  50. internação morte admissão cirurgia clínica mental gravidez Health-Kefir • Explicações • identificação do subsetor(es) mais responsável(is) pelo desvio encontrado; • recursivo; Aplicações

More Related