Introduction to Data Mining in DCBD - Prof. Luis Otavio Alvares

INE5644 – Data Mining Tarefas de DCBD Prof. Luis Otavio Alvares alvares@inf.ufsc.br Apresentação adaptada do material do livro Introduction to Data Mining – Tan, Steinbach e Kumar e de slides do prof. José Leomar Todesco (UFSC)

Porque DCBD? Ponto de vista comercial • Enormes quantidades de dados são coletadas e armazenadas • Dados da Web, e-commerce • Compras em supermercados, lojas de departamentos, etc. • Transações bancárias e de cartões de crédito • Os computadores se tornaram baratos e mais poderosos • A pressão competitiva é muito forte prof. Luis Otavio Alvares

Porque DCBD? Ponto de vista científico • Dados captados e armazenadosemgrande velocidade (GB/hora) • sensoresremotosemsatélites • telescópiosvarrendo o firmamento • microarrays gerando dados de expressão gênica • simulaçõescientíficasgerando terabytes de dados • Técnicastradicionais de anáilisesão inviáveisparaestes dados brutos prof. Luis Otavio Alvares

From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”, Kluwer, 2001 Motivação para minerar grandes bases de dados • Freqüentemente há informação “escondida” nos dados, que não é evidente • Analistas humanos podem levar semanas para descobrir informação útil • Muitos dados nunca são analisados The Data Gap Total new disk (TB) since 1995 Number of analysts

O que é DCBD? • Muitas definições • Extração não-trivial de informação implícita, previamente desconhecida e potencialmente útil de um conjunto de dados • Exploração e análise, de modo automático ou semi-automático, de grandes quantidades de dados para descobrir padrões úteis prof. Luis Otavio Alvares

O que (não) é DCBD? • O que não é: • buscar um nome e número de telefone em um arquivo de clientes • Consultar um motor de busca na web sobre “Amazon” • O que é DCBD: • descobrir que certos nomes são mais comuns em alguns lugares (O’Brien, O’Rurke, O’Reilly… na área de Boston) • Agrupar documentos similares recuperados por um motor de busca de acordo com o seu contexto (ex: Amazon rainforest, Amazon.com,) prof. Luis Otavio Alvares

Observando e Aprendendo Exemplo: um proprietário de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a região onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricação. Os clientes gostam de visitar sua loja pois, também, aprendem muito sobre vinhos. Porém, só isto não basta, o proprietário precisa conhecê-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poderá dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades: conhecimento e aprendizado Uma pequena loja  poucos clientes  atendimento personalizado Uma grande empresa  milhares de clientes  dificuldade em dar um atendimento dedicado prof. Luis Otavio Alvares

Observando e Aprendendo Qual a tendência nos dias atuais? Ter clientes leais, através de um relacionamento pessoal, um-para-um, entre a empresa e o cliente. Dentro desta tendência, as empresas desejam identificar os clientes cujos valores e necessidades sejam compatíveis com o uso prolongado de seus produtos, e nos quais é válido o risco de investir em promoções com descontos, pacotes, brindes e outras formas de criar essa relação pessoal. Esta mudança de foco requer mudanças em toda a empresa, mas principalmente nos setores de marketing, vendas e atendimento ao cliente. prof. Luis Otavio Alvares

Memória e Inteligência Na pequena empresa, o proprietário com sua inteligência e memória aprende, conhece o cliente. prof. Luis Otavio Alvares

Data Warehouse: a memória da empresa Para criar relações um-para-um em uma grande empresa, o proprietário humano precisa ser substituído por uma máquina capaz de tratar grandes números, o computador. A memória do proprietário é substituída por um grande banco de dados denominado de Data Warehouse, enquanto a capacidade de aprendizado é substituída por técnicas de inteligência artificial e estatística genericamente denominadas de Data Mining. Diariamente gera-se dados, por exemplo, considere que gera-se e armazena-se atributos tais como: o número do telefone, a duração da chamada telefônica, o número do cartão de crédito, o endereço da entrega, o produto escolhido, renda do consumidor, escolaridade do consumidor, gasto com lazer, etc. Certamente, só armazenar dados não significa aprender sobre o cliente. prof. Luis Otavio Alvares

Memória da empresa Fonte de informações preciosas para a empresa Dados armazenados prof. Luis Otavio Alvares

Data Mining: a inteligência da empresa Para o aprendizado ocorrer, uma série de informações de diferentes formatos e fontes precisa ser organizada de maneira consistente na grande memória empresarial. Após isto, métodos de análise estatística e inteligência artificial precisam ser aplicados sobre esses dados e relações novas e úteis à empresa devem ser descobertas, ou seja, os dados devem ser minerados. A mineração dos dados consiste mais especificamente em descobrir relações entre produtos, classificar consumidores, prever vendas, localizar áreas geográficas potencialmente lucrativas para novas filiais, inferir necessidades, entre outras. prof. Luis Otavio Alvares

Data Warehouse Data Mining Na grande empresa, a memória é o data warehouse, enquanto a inteligência é o data mining prof. Luis Otavio Alvares

Data Mining and BI Aumento do potencial Para suportar decisões do negócio Diretor Making Decisions Analista de negócios Data Presentation Visualization Techniques Data Mining Analista de dados Knowledge Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Papel, Arquivos, Provedores de informação, Database Systems, OLTP prof. Luis Otavio Alvares

prof. Luis Otavio Alvares Tipos de descobertas (tarefas de DCBD) Os dois principais objetivos de alto nível da DCBD são a descrição e a predição • a descrição se concentra em encontrar padrões que descrevem os dados de forma compreensível para o usuário • a predição envolve usar valores conhecidos de campos ou variáveis para predizer o valor desconhecido ou futuro de variáveis de interesse para isso, utiliza-se vários tipos de descoberta ou tarefas de DCBD

Principais Tarefas de DCBD ... • Classificação [Preditiva] • Clustering [Descritiva] • Descoberta de regras de associação [Descritiva] • Descoberta de padrões seqüenciais [Descritiva] • Regressão [Preditiva] • Detecção de desvios [Preditiva] prof. Luis Otavio Alvares

Classificação

prof. Luis Otavio Alvares Classificação: exemplos • O professor classifica o desempenho do aluno em A, B, C, D ou E • Identificar um cogumelo como sendo venenoso ou não • Reconhecimento de caracteres

Model Classificação: definição • Dada uma coleção de registros (conjunto de treinamento) • Cada registro contém um conjunto de atributos, e um dos atributos é a classe. • Encontre um modelo para o atributo classe como uma função dos valores dos outros atributos • Objetivo: definir a classe para novos registros tão acuradamente quanto possível. prof. Luis Otavio Alvares

Classificação: Aplicação 1 • Marketing direto • Objetivo: Reduzir o custo na oferta para um conjuntoalvo de consumidores mais prováveis de comprar um novo produto. • Abordagem: • Usar os dados de um produto similar oferecido anteriormente. • Sabemos quais consumidores compraram e quais não compraram. Esta decisão {compra, não compra} forma o atributo classe. • Coletar várias informações pessoais, de estilo de vida e de interações com a empresa de todos estes clientes. • Tipo de atividade, local da moradia, rendimentos, estado civil, compras anteriores, etc. • Usar esta informação como atributos de entrada para gerar um modelo de classificação. From [Berry & Linoff] Data Mining Techniques, 1997 prof. Luis Otavio Alvares

Classificação: Aplicação 2 • Detecção de fraudes • Objetivo: identificar casos de fraude em transações com cartão de crédito. • Abordagem: • Usar as transações do cartão de crédito e as informações do proprietário como atributos. • Quando um consumidor compra, o que ele compra, onde ele compra, compra a vista ou a prazo, valor da compra, etc • Rotular as transações passadas como fraude ou não. Isto forma o atributo classe. • Gerar um modelo de classificação para as transações. • Usar este modelo para detectar fraudes observando as novas transações . prof. Luis Otavio Alvares

Classificação: Aplicação 3 • Conservação de clientes: • Objetivo: prever se é provávelque um cliente de umaempresa de telefonecelularpassepara um concorrente. • Abordagem: • Usar um registrodetalhado das transações de cadaclienteantigo e atualparaobterosatributos. • Com quefreqüência o clientefazligações, paraquemeleliga, a quehoraseleligamaisfreqüentemente, suarenda, estado civil, desdequando é cliente, etc. • Rotularosclientescomofiéisouinfiéis a empresa. • Gerar um modelo. From [Berry & Linoff] Data Mining Techniques, 1997 prof. Luis Otavio Alvares

Classificação: Aplicação 4 • Análise de objetos celestes • Objetivo: predizer a classe (estrela ou galáxia) de objetos celestes, especialmente de pouco brilho, baseado em imagens do telescópio do Monte Palomar • 3000 imagens com 23.040 x 23.040 pixels por imagem. • Abordagem: • Segmentar a imagem. • Medir os atributos da imagem (40 por objeto) • Gerar um modelo baseado nestes atributos. • Resultado: foram descobertos 16 novos quasars, alguns dos mais distantes objetos já identificados! From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 prof. Luis Otavio Alvares

Classificando Galáxias Courtesy: http://aps.umn.edu • Atributos: • Image features, • Characteristics of light waves received, etc. Early • Classe: • Estágio da formação Intermediate Late • dados: • 72 milhões de estrelas, 20 milhões de galáxias • Object Catalog: 9 GB • Image Database: 150 GB prof. Luis Otavio Alvares

Clustering (formação de agrupamentos)

Clustering (formação de agrupamentos) • Dado um conjunto de dados, cada um com um conjunto de atributos, e uma medida de similaridade entre eles, encontre clusters (grupos) tais que: • Dados de um grupo são mais similares entre si que com dados de outros grupos • Dados de grupos diferentes são menos similares entre si. • Medidas de similaridade: • Distância Euclidiana, para atributos contínuos • Outras medidas específicas do problema. prof. Luis Otavio Alvares

Clustering: exemplo • Clustering em espaço 3-D baseado em distância euclidiana. Distâncias intracluster são minimizadas Distâncias intercluster são maximizadas prof. Luis Otavio Alvares

Clustering: Aplicação 1 Segmentação de mercado: • Objetivo: subdividir um mercado em diferentes subconjuntos de clientes onde cada subconjunto possa ser selecionado como objetivo específico de marketing a ser alcançado. • Abordagem: • Obter diferentes atributos de clientes baseado em informações cadatrais e de estilo de vida dos clientes • Encontrar grupos (clusters) de clientes similares. • Medir a qualidade dos clusters observando padrões de compra entre clientes do mesmo cluster versus entre clientes de outros clusters prof. Luis Otavio Alvares

Clustering: Aplicação 2 Clustering de documentos: • Objetivo: encontrar grupos de documentos que são similares entre si baseado em termos importantes que aparecem nos documentos. • Abordagem: identificar termos que ocorrem freqüentemente em cada documento. Criar uma medida de similaridade baseada na freqüência dos diferentes termos. Usar esta medida para a formação dos grupos. • Ganho: os clusters podem ser usados em Recuperação de Informações para relacionar um novo documento ou termo de pesquisa a clusters de documentos. prof. Luis Otavio Alvares

Clustering de ações da bolsa • Observe os movimentos das ações a cada dia. • Dados: ação-{UP/DOWN} • Medida de similaridade: Duas ações são similares se os eventos descritos por elas freqüentemente acontecem juntos no mesmo dia. prof. Luis Otavio Alvares

Associação

prof. Luis Otavio Alvares Dependência (associação) entre atributos • Exemplos: • determinados procedimentos médicos aparecem sempre juntos • determinados procedimento médicos aparecem mais associados a homens e outros a mulheres • compradores de leite geralmente compram pão na mesma transação

prof. Luis Otavio Alvares Exemplo: vendas casadas Sei que quem compra o produto A também compra o B. PRODUTO A PRODUTO B Compra de produto Oferta de produto relacionado PRODUTO A

prof. Luis Otavio Alvares

Regras de associação: Definição • Dado um conjunto de registros, cada um com um conjunto de itens de uma certa coleção; • Produza regras de dependência que vão predizer a ocorrência de um item baseado na ocorrência de outros. Regras descobertas: {leite} --> {guaraná} {fralda, leite} --> {cerveja} prof. Luis Otavio Alvares

Regras de associação: Aplicação 1 • Gerenciamento de prateleiras de supermercado. • Objetivo: identificar itens que são comprados juntos por um grande número de clientes. • Abordagem: processar os dados das transações de compra obtidos com os códigos de barras para encontrar dependências entre itens. • Uma regra clássica-- • Se um cliente compra fralda e leite ele tem uma boa probabilidade de comprar também cerveja. • Portanto, não fique surpreso de encontrar pacotes de cerveja próximo das fraldas! prof. Luis Otavio Alvares

Regras de associação: Aplicação 2 • Gerência de inventário: • Objetivo: uma empresa de consertos de eletrodomésticos quer antecipar a natureza dos consertos nos aparelhos dos seus clientes de forma a ter em seus veículos de serviço peças de reposição, de modo a poder realizar o conserto na hora, sem precisar voltar à casa dos clientes • Abordagem: Analisar os dados de consertos anteriores em termos de ferramentas e peças necessárias para descobrir padrões de co-ocorrência. prof. Luis Otavio Alvares

Padrões sequenciais

(A B) (C) (D E) Padrões sequenciais Definição: Dado um conjunto de objetos, com cada objeto associado com a sua linha de eventos, encontre regras com forte dependência seqüencial entrediferentes eventos. • Detecção de dependências temporais entre eventos. • Exemplos: • determinado procedimento médico sempre precede outro • turistas que visitam o museu do Louvre depois visitam a Notre Dame prof. Luis Otavio Alvares

Padrões seqüenciais: exemplos • Em transações de vendas • Livraria de informática: (Intro_To_Visual_C) (C++_Primer)  (Perl_for_dummies,Tcl_Tk) • Loja de artigos esportivos: (tenis) (raquete, bolas)  (moleton) prof. Luis Otavio Alvares

Regressão

Regressão • Prediz o valor de uma variável contínua baseado no valor de outras variáveis, considerando um modelo de dependência linear ou não linear. • Bastante estudado em estatística e redes neurais • Exemplos: • Previsão da quantidade de vendas de um novo produto baseado nos gastos com propaganda • Previsão da velocidade do vento em função da temperatura, humidade, pressão atmosférica, etc. • Previsão da evolução do índice de bolsa de valores. prof. Luis Otavio Alvares

Detecção de desvios

Detecção de desvios • Determinar desvios significativos do comportamento normal • Aplicações: • Detecção de fraudes em cartões de crédito • Detecção de invasão em redes de computadores • Detecção de eventos através de mensagens do Twitter Typical network traffic at University level may reach over 100 million connections per day prof. Luis Otavio Alvares

prof. Luis Otavio Alvares exemplo: sistema de mortalidade • Doenças “P” – Algumas afecções originadas no período perinatal: • Uruguaiana apresenta um desvio significativo em relação a esta classe de doenças, pois foram registrados muito mais casos de morte do que o esperado. • Porto Alegre registrou menos mortes do que a quantidade esperada, para esta classe de doenças. • Caxias do Sul apresenta um desvio em relação às doenças “Q- malformação congênita, deformidades e anomalias cromossômicas”. Foi registrado um número de mortes significativamente maior do que o esperado para a cidade.

Principais Tarefas de DCBD ... • Classificação [Preditiva] • Clustering [Descritiva] • Descoberta de regras de associação [Descritiva] • Descoberta de padrões seqüenciais [Descritiva] • Regressão [Preditiva] • Detecção de desvios [Preditiva]

Exercício • Especifique a tarefa de DCBD em cada um dos casos abaixo:

Desafios para Data Mining • Escalabilidade • Dimensionalidade • Dados complexos e heterogêneos • Qualidade dos dados • Propriedade e distribuição dos dados • Preservação da privacidade • Dados em fluxo contínuo

Próxima aula • O processo de KDD

Introduction to Data Mining in DCBD - Prof. Luis Otavio Alvares