1 / 28

SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes.

PPGEE – Programa de Pós-Graduação em Engenharia Elétrica PPGEE0138 – MINERAÇÃO DE DADOS. SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes.

Download Presentation

SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PPGEE – Programa de Pós-Graduação em Engenharia Elétrica PPGEE0138 – MINERAÇÃO DE DADOS SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes G3: Arilson Galdino da Silva, Daniel Martins, Marcio Nirlando, Lino Cesar. 2º Semestre de 2014 Prof. Dr. Ádamo Santana Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  2. Problemática Valoresausentes O que fazer com valoresausentes: Omitir as amostras com valoresausentes? Substituir os “ausentes” por um valor possível? Procurarsignificado no fato de que um valor estar ausente? Os mineradorestratamvaloresausentes mas cada um podeaplicarsoluçõesdiferentes resultadosdiferentes. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  3. Padrões ou Tipos Característicos de Ausência MCAR – MissingCompletelyAtRandom: a ausência de dados é completamente aleatória. A observação dos dados ausentes não sugere nenhum método de tentativa de recuperação. MCAR significaque o mecanismoqueproduz o dado ausentenãoestárelacionado com qualquervariável na análise. MAR – MissingAtRandom: Os valores ausentes dependem de algumas variáveis na análisemas, paraaquelasvariáveis, nãotêmnenhumarelação com os dados observadosparaaqueleatributo. NMAR– NotMissingAtRandom. NMAR significaque a ausência de dados depende, de fato, dos valoresobservados. Problemática Exemplo da representação de dados ausentes no WEKA (modo “edit”) (O arquivo .raff usa “?”) Algumas representações: NaN , -1 , ? , “ “ , NA Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  4. Soluções simples (que nem sempre funcionam) [Stef Van Buuren] • 1 - Listwisedeletion. 2 – Pairwisedeletion. • 3 – Meanimputation. 4 - Regressionimputation. • 5 – Stochasticregressionimputation 6 - LOCF BOCF. • ELIMINAÇÃO PELA LISTA (ListwiseDeletion) - Modo default de manipulação de dados incompletos em muitos pacotes estatísticos incluindo SPSS, SAS,STATA e S-PLUS e R. Remove todas amostras que contenham dados ausentes. • Vantagem – Conveniência. Para dados do tipo MCAR, este modo costuma produzir erros e significados incorretos para o subconjunto de dados restantes da eliminação. • Desvantagem – É um desperdícioem potencial degradando a habilidade de se encontrar efeitos de interesse. Para dados diferentes de MCAR, pode polarizar severamente a estimativa de média e os coeficientes de regressão e correlação. MCAR Análise de dados Discretos / contúnuos Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  5. Soluções simples (que nem sempre funcionam) [Stef Van Buuren] • ELIMINAÇÃO POR PARES (PairwiseDeletion)- São eliminadas apenas as amostras relacionadas a cada par de atributos onde ambos estejam com dados ausentes. • Vantagem – Conveniência. Para dados do tipo MCAR, este modo costuma produzir erros e significados incorretos para o subconjunto de dados restantes da eliminação. • Desvantagem – É um desperdícioem potencial degradando a habilidade de se encontrar efeitos de interesse. Para dados diferentes de MCAR, pode polarizar severamente a estimativa de média e os coeficientes de regressão e correlação. MCAR Análise de dados Discretos / contúnuos Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  6. Soluções (que nem sempre funcionam) [Stef Van Buuren] • SUBSTITUIÇÃO PELA MÉDIA/MODA (Meanimputation) - Uma maneira razoável de substituir dados omitidos é substituí-los pelo valor médio para valores numéricos ou pela moda ou o valor mais frequente, para valores simbólicos. • Desvantagens- Distorcea distribuição deslocando a média e correlação. Pode subestimar penosamente a variância e perturbar as relações entre as variáveis. • Vantagens– Fácilde implementar. • Só é recomendável seu uso se o número de dados ausentes é pequeno e para ajustes iniciais da BD. Análise de dados Discretos / contúnuos Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  7. Soluções (que nem sempre funcionam) [Stef Van Buuren] SUBSTITUIÇÃO PELA REGRESSÃO (RegressionImputation – Incorpora conhecimento de outros atributos de forma a produzir substituições mais inteligentes. Análise de dados Discretos / contúnuos Como fica a distribuição da frequência da ocorrência do ozônio com valores ausentes. Substituição pela média Substituição pela regressão Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  8. Soluções (que nem sempre funcionam) [Stef Van Buuren] SUBSTITUIÇÃO PELA REGRESSÃO ESTOCÁSTICA (StochasticRegressionImputation)– É um refinamento da substituição por valores obtidos pela regressão, onde ruído é adicionado às predições. Um exemplo da distribuição de frequência das amostras é mostrado abaixo: Análise de dados Discretos / contúnuos Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  9. Soluções (usadas por laboratórios de análises clínicas) [Buuren] • SUBSTITUIÇÃO PELO ÚLTIMO VALOR OBSERVADO - LOCF(LastObservationCarriedForward) – A idéia é substituir o valor ausente pelo último não ausente. • Vantagem: Aproveita todo o data-set (usado pelo FDA). • Desvantagem: Provoca polarização nos dois sentidos, à esquerda e à direita do valor padrão ou médio. Análise de dados Discretos / contúnuos [Stef Van Buuren] SUBSTITUIÇÃO PELA LINHA BASE - BOCF(BaselineObservationCarriedForward) : substituição pelo valor mais razoável. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  10. SOFTWARE ESPECÍFICO PARA TRATAMENTO DE AUSÊNCIA DE DADOS STATA - Data AnalysisAndStatistical Software. http://www.stata.com/why-use-stata/ ($295) SPSS – Software de Análise de Predição. MVA - Módulo MVA (missingvalueanalysis) do SPSS – http://www-01.ibm.com/software/analytics/spss/products/statistics/ Quick-R - Parte do software de mineração R. http://www.statmethods.net/input/missingdata.html SOLAS – é um software específico para trabalho com dados incompletosouausentes. (nQuery Advisor - 7-day Free Trial) – Acadêmico$695.00 http://www.statsols.com/products/solas-for-missing-data/ Ferramentas Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  11. SOFTWARES PARA TRATAMENTO DE AUSÊNCIA DE DADOS R Data Miner – Usamos a biblioteca Amelia. Orange– Orange CanvasVersion 2.7.3 – Encontrado em: http://orange.biolab.si/download/ Oracle – http://www.oracle.com/index.html Rapid-Miner – http://rapidminer.com/ Ferramentas Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  12. EXEMPLO DO USO DA BIBLIOTECA AmeliaPARA MÚLTIPLA IMPUTAÇÃO # Leitura do dataset com dados ausentes a <- "C:\\Users\\Daniel\\Dropbox\\UFPA\\PPGEE0138 - Mineracao de Dados\\MISSING_DATA\\R-DataMiner\\FREETRADE\\freetrade.csv" freetrade <- read.csv(a,sep=";",dec=".") # Carrega a biblioteca Amelia (se for o caso) require(Amelia) # Apresenta a variável freetrade data(freetrade) # Solicita um resumo da base carregada summary(freetrade) # Apresenta um resumo para o tratamento listwisedeletion summary(lm(tariff ~ polity + pop + gdp_pc + year + country,data = freetrade)) # Realiza uma imputacaomultipla na base freetrade a.out <- amelia(freetrade, m = 5, ts = "year", cs = "country") # lista a variavel de saida das imputacoes a.out # Plota histograma da terceira imputacao hist(a.out$imputations[[3]]$tariff, col="grey", border="white") # Salvando os datasets com dados imputados em um arquivo R save(a.out, file = "imputations.RData") # Salvando os datasets em arquivo próprio (no caso 5 arquivos outdataX.csv serão criados) write.amelia(obj=a.out, file.stem = "outdata") Exemplo de Aplicação Script para Imputação Honaker / King / Blackwell http://www.jstatsoft.org/v45/i07/ Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  13. Arquivo original Resultado da primeira imputação Valor da primeira amostra da variável tariff para cada uma das 5 imputações Expectation-Maximization - EM Algorithm Fonte: wikipedia

  14. Exemplo de Aplicação Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  15. Exemplo de Aplicação Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  16. IMPUTAÇÃO USANDO A MÉDIA IMPUTAÇÃO USANDO VALORES ALEATÓRIOS IMPUTAÇÃO USANDO A MODELO REMOÇÃO DE DADOS AUSENTES Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  17. IMPUTADO COM MÉDIA IMPUTADO COM MODELO ORIGINAL REMOÇÃO DADOS AUSENTES IMPUTAÇÃO ALEATÓRIA Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  18. Oracle Data Miner Classic • Oracle database 11g r1 ou superior • Oracle Sqldeveloper • Plataforma: Windows • Importação de dados via: .csv, .txt, .tab, .xls • Imputação pela: moda, média, mínimo, máximo, k-means, regressão e classificação.

  19. Oracle Data Miner Classic Importação de dados: 2 1 3

  20. Oracle Data Miner Classic Importação de dados: 2 1 3

  21. Oracle Data Miner Classic

  22. Oracle Data Miner Classic

  23. Oracle Data Miner Classic TRATAMENTO

  24. Oracle Data Miner Classic IMPUTAÇÃO

  25. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  26. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  27. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  28. BIBLIOGRAFIA SAGE Publications - "DealingWith Missing Data", Encontrado em: http://www.sagepub.com/upm-data/45664_6.pd. Idre - Instituteof Digital Research AndEducation - "SPSS Learning Module Missing data“. Encontrado em: http://www.ats.ucla.edu/stat/spss/modules/missing.htm. Melissa Humphries - Population Research Center - "Missing Data & How to Deal: An overview ofmissing data“. Encontrado em: Https://www.utexas.edu/cola/centers/prc/_files/cs/Missing-Data. Joop J. Hox - "A ReviewofCurrent Software for Handling Missing Data". KwantitatieveMethoden (1999). Encontrado em: http://joophox.net/publist/misrevkm.pdf Stef van Buuren - "FlexibleImputationof Missing Data". ISBN-13: 978-1439868249. (Conseguimos uma leitura parcial pelo googleacademic). SOLAS Version 4.0 – Missing Data, Encontrado em: http://www.statsols.com/wp-content/uploads/2013/12/Solas-4-Manual1.pdf Orange CanvasVersion2.7.3 – Encontrado em: http://orange.biolab.si/download/ Obrigado. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

More Related