1 / 21

Data Mining

Data Mining. Gláucia Braga e Silva abril/08. Sumário. Introdução Definições Técnicas Aplicações Ferramentas Conclusões. Referências.

quinta
Download Presentation

Data Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining Gláucia Braga e Silva abril/08 CE245 – Tecnologias da Informação

  2. Sumário • Introdução • Definições • Técnicas • Aplicações • Ferramentas • Conclusões CE245 – Tecnologias da Informação

  3. Referências • Luiz Homero Bastos Cunico. Técnicas em Data Mining aplicadas na predição de satisfação de Funcionários de uma rede de lojas do comércio varejista. Dissertação Mestrado. Universidade Federal do Paraná. Curitiba, 2005. • Marcos Corrêa Neves; Corina Costa Freitas; Gilberto Câmara. Mineração de Dados em Grandes Bancos de Dados Geográficos. Relatório Técnico. INPE, Novembro, 2001. • Rafael Santos. Data Mining em Java: Conceitos, Algoritmos e Implementações. Laboratório Associado de Computação e Matemática Aplicada. INPE. CE245 – Tecnologias da Informação

  4. Um “Bando” de Dados Fonte: http://distancelearning.ksi.edu/demo/ba531/ba531.htm CE245 – Tecnologias da Informação

  5. A busca por informação útil Fonte: http://distancelearning.ksi.edu/demo/ba531/ba531.htm CE245 – Tecnologias da Informação

  6. Necessidade KDD Data Mining Grandes Volumes de Dados Informação Útil CE245 – Tecnologias da Informação

  7. Definições • KDD - Knowledge Discovery in Databases • Descoberta de Conhecimento em Bancos de Dados - Processo não trivial de identificação de padrões válidos, novos, úteis e implicitamente presentes em grandes volumes de dados. CE245 – Tecnologias da Informação

  8. Definições • Data Mining (DM) – Consiste da busca, automática ou semi-automática, em grandes quantidades de dados com o objetivo de descobrir padrões importantes, utilizando algoritmos com eficiência computacional aceitável. • Núcleo do processo de KDD. CE245 – Tecnologias da Informação

  9. Valor estratégico dos dados CE245 – Tecnologias da Informação

  10. Evolução da recuperação de dados CE245 – Tecnologias da Informação Fonte: http://www.fanap.br/site/revista.php#15

  11. Data Mining - Tarefas • Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. • Regressão (predição): aprendizado de uma função que mapeia um dado em um valor real. • Agrupamento (clustering): identificação de grupos de dados onde os dados tem características semelhantes entre si e os grupos tem características diferentes. • Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras). • Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão mas não o fazem. CE245 – Tecnologias da Informação

  12. Data Mining - Atividades e Tarefas CE245 – Tecnologias da Informação

  13. Data Mining Campo interdisciplinar que envolve outras áreas do conhecimento como Estatística, Inteligência Artificial e Aprendizado de Máquina. CE245 – Tecnologias da Informação

  14. Data Mining e Estatística • Uso de conceitos estatísticos • Distribuição normal, variância, análise de regressão, análise de Cluster, desvios simples, análises de conjuntos, análises de discriminantes e intervalos de confiança CE245 – Tecnologias da Informação

  15. Data Mining e Inteligência Artificial • Construída a partir dos fundamentos da heurística, em oposto à Estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. • Redes neurais, regras de indução, árvores de decisão, séries temporais, etc. CE245 – Tecnologias da Informação

  16. Data Mining e Aprendizado de Máquina • “Casamento” da Estatística e da Inteligência Artificial. • Programas de computador aprendem com os dados estudados, a fim de tomar decisões baseadas nas características destes dados. • Uso da Estatística para os conceitos fundamentais; e • Uso de heurísticas avançadas da IA e algoritmos para alcançar os objetivos. CE245 – Tecnologias da Informação

  17. Data Mining e Data Warehouse • Data Warehouse - repositóriocentralizado de dados; • Data Mining – extraçãointeligente de dados • Funciona melhor com o Data Warehouse • Data Warehouse: A Memória da Empresa • Data Mining: A Inteligência da Empresa CE245 – Tecnologias da Informação

  18. Aplicações de Data Mining • Logística • Medicina • BioInformática • Marketing • Economia e Finanças • Segurança • Ciências Espaciais – GIS • Governo • Astronomia • Entre outras CE245 – Tecnologias da Informação

  19. Exemplos de Ferramentas de Software • Weka: software de domínio público (Java), desenvolvido pela Universidade de Waikato. • Intelligent Miner: desenvolvido pela IBM, é uma ferramenta de DM interligada diretamente com o DB2 da IBM. • Oracle Data Miner: desenvolvido pela Oracle, permite interligação direta com o SGBD Oracle. • Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva. • Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística. • TANAGRA – Software livre de mineração de dados e de igual maneira estatística. CE245 – Tecnologias da Informação

  20. Alguns Casos de Sucesso • Wal*Mart: utilizando DM paraprevisão de itens por cada loja da empresa; modificou seus sistemas de ressuprimento automático de produtos. • ShopKo: rede varejista americana, que utilizou DM para determinar quais produtos são vendidos através da venda indireta de outros produtos. • Banco Itaú: reduziu em um quinto a conta com despesas postais com malas diretas aos correntistas, aumentando a taxa de resposta de 2% para 30%. • Amazon: recomendações de livros e interesses. CE245 – Tecnologias da Informação

  21. Conclusões • A partir dos conceitos gerais sobre Data Mining, conclui-se que se trata de uma Tecnologia da Informação atual e com um vasto campo de atuação. • Aliada a outras áreas do conhecimento, como Estatística e IA, constitui um poderoso mecanismo de obtenção de informações úteis e conhecimento, muitas vezes camuflados, em grandes volumes de dados. CE245 – Tecnologias da Informação

More Related