SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. - PowerPoint PPT Presentation

abbot-compton
slide1 n.
Skip this Video
Loading SlideShow in 5 Seconds..
SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. PowerPoint Presentation
Download Presentation
SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes.

play fullscreen
1 / 28
Download Presentation
SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes.
108 Views
Download Presentation

SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes.

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. PPGEE – Programa de Pós-Graduação em Engenharia Elétrica PPGEE0138 – MINERAÇÃO DE DADOS SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes G3: Arilson Galdino da Silva, Daniel Martins, Marcio Nirlando, Lino Cesar. 2º Semestre de 2014 Prof. Dr. Ádamo Santana Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  2. Problemática Valoresausentes O que fazer com valoresausentes: Omitir as amostras com valoresausentes? Substituir os “ausentes” por um valor possível? Procurarsignificado no fato de que um valor estar ausente? Os mineradorestratamvaloresausentes mas cada um podeaplicarsoluçõesdiferentes resultadosdiferentes. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  3. Padrões ou Tipos Característicos de Ausência MCAR – MissingCompletelyAtRandom: a ausência de dados é completamente aleatória. A observação dos dados ausentes não sugere nenhum método de tentativa de recuperação. MCAR significaque o mecanismoqueproduz o dado ausentenãoestárelacionado com qualquervariável na análise. MAR – MissingAtRandom: Os valores ausentes dependem de algumas variáveis na análisemas, paraaquelasvariáveis, nãotêmnenhumarelação com os dados observadosparaaqueleatributo. NMAR– NotMissingAtRandom. NMAR significaque a ausência de dados depende, de fato, dos valoresobservados. Problemática Exemplo da representação de dados ausentes no WEKA (modo “edit”) (O arquivo .raff usa “?”) Algumas representações: NaN , -1 , ? , “ “ , NA Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  4. Soluções simples (que nem sempre funcionam) [Stef Van Buuren] • 1 - Listwisedeletion. 2 – Pairwisedeletion. • 3 – Meanimputation. 4 - Regressionimputation. • 5 – Stochasticregressionimputation 6 - LOCF BOCF. • ELIMINAÇÃO PELA LISTA (ListwiseDeletion) - Modo default de manipulação de dados incompletos em muitos pacotes estatísticos incluindo SPSS, SAS,STATA e S-PLUS e R. Remove todas amostras que contenham dados ausentes. • Vantagem – Conveniência. Para dados do tipo MCAR, este modo costuma produzir erros e significados incorretos para o subconjunto de dados restantes da eliminação. • Desvantagem – É um desperdícioem potencial degradando a habilidade de se encontrar efeitos de interesse. Para dados diferentes de MCAR, pode polarizar severamente a estimativa de média e os coeficientes de regressão e correlação. MCAR Análise de dados Discretos / contúnuos Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  5. Soluções simples (que nem sempre funcionam) [Stef Van Buuren] • ELIMINAÇÃO POR PARES (PairwiseDeletion)- São eliminadas apenas as amostras relacionadas a cada par de atributos onde ambos estejam com dados ausentes. • Vantagem – Conveniência. Para dados do tipo MCAR, este modo costuma produzir erros e significados incorretos para o subconjunto de dados restantes da eliminação. • Desvantagem – É um desperdícioem potencial degradando a habilidade de se encontrar efeitos de interesse. Para dados diferentes de MCAR, pode polarizar severamente a estimativa de média e os coeficientes de regressão e correlação. MCAR Análise de dados Discretos / contúnuos Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  6. Soluções (que nem sempre funcionam) [Stef Van Buuren] • SUBSTITUIÇÃO PELA MÉDIA/MODA (Meanimputation) - Uma maneira razoável de substituir dados omitidos é substituí-los pelo valor médio para valores numéricos ou pela moda ou o valor mais frequente, para valores simbólicos. • Desvantagens- Distorcea distribuição deslocando a média e correlação. Pode subestimar penosamente a variância e perturbar as relações entre as variáveis. • Vantagens– Fácilde implementar. • Só é recomendável seu uso se o número de dados ausentes é pequeno e para ajustes iniciais da BD. Análise de dados Discretos / contúnuos Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  7. Soluções (que nem sempre funcionam) [Stef Van Buuren] SUBSTITUIÇÃO PELA REGRESSÃO (RegressionImputation – Incorpora conhecimento de outros atributos de forma a produzir substituições mais inteligentes. Análise de dados Discretos / contúnuos Como fica a distribuição da frequência da ocorrência do ozônio com valores ausentes. Substituição pela média Substituição pela regressão Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  8. Soluções (que nem sempre funcionam) [Stef Van Buuren] SUBSTITUIÇÃO PELA REGRESSÃO ESTOCÁSTICA (StochasticRegressionImputation)– É um refinamento da substituição por valores obtidos pela regressão, onde ruído é adicionado às predições. Um exemplo da distribuição de frequência das amostras é mostrado abaixo: Análise de dados Discretos / contúnuos Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  9. Soluções (usadas por laboratórios de análises clínicas) [Buuren] • SUBSTITUIÇÃO PELO ÚLTIMO VALOR OBSERVADO - LOCF(LastObservationCarriedForward) – A idéia é substituir o valor ausente pelo último não ausente. • Vantagem: Aproveita todo o data-set (usado pelo FDA). • Desvantagem: Provoca polarização nos dois sentidos, à esquerda e à direita do valor padrão ou médio. Análise de dados Discretos / contúnuos [Stef Van Buuren] SUBSTITUIÇÃO PELA LINHA BASE - BOCF(BaselineObservationCarriedForward) : substituição pelo valor mais razoável. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  10. SOFTWARE ESPECÍFICO PARA TRATAMENTO DE AUSÊNCIA DE DADOS STATA - Data AnalysisAndStatistical Software. http://www.stata.com/why-use-stata/ ($295) SPSS – Software de Análise de Predição. MVA - Módulo MVA (missingvalueanalysis) do SPSS – http://www-01.ibm.com/software/analytics/spss/products/statistics/ Quick-R - Parte do software de mineração R. http://www.statmethods.net/input/missingdata.html SOLAS – é um software específico para trabalho com dados incompletosouausentes. (nQuery Advisor - 7-day Free Trial) – Acadêmico$695.00 http://www.statsols.com/products/solas-for-missing-data/ Ferramentas Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  11. SOFTWARES PARA TRATAMENTO DE AUSÊNCIA DE DADOS R Data Miner – Usamos a biblioteca Amelia. Orange– Orange CanvasVersion 2.7.3 – Encontrado em: http://orange.biolab.si/download/ Oracle – http://www.oracle.com/index.html Rapid-Miner – http://rapidminer.com/ Ferramentas Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  12. EXEMPLO DO USO DA BIBLIOTECA AmeliaPARA MÚLTIPLA IMPUTAÇÃO # Leitura do dataset com dados ausentes a <- "C:\\Users\\Daniel\\Dropbox\\UFPA\\PPGEE0138 - Mineracao de Dados\\MISSING_DATA\\R-DataMiner\\FREETRADE\\freetrade.csv" freetrade <- read.csv(a,sep=";",dec=".") # Carrega a biblioteca Amelia (se for o caso) require(Amelia) # Apresenta a variável freetrade data(freetrade) # Solicita um resumo da base carregada summary(freetrade) # Apresenta um resumo para o tratamento listwisedeletion summary(lm(tariff ~ polity + pop + gdp_pc + year + country,data = freetrade)) # Realiza uma imputacaomultipla na base freetrade a.out <- amelia(freetrade, m = 5, ts = "year", cs = "country") # lista a variavel de saida das imputacoes a.out # Plota histograma da terceira imputacao hist(a.out$imputations[[3]]$tariff, col="grey", border="white") # Salvando os datasets com dados imputados em um arquivo R save(a.out, file = "imputations.RData") # Salvando os datasets em arquivo próprio (no caso 5 arquivos outdataX.csv serão criados) write.amelia(obj=a.out, file.stem = "outdata") Exemplo de Aplicação Script para Imputação Honaker / King / Blackwell http://www.jstatsoft.org/v45/i07/ Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  13. Arquivo original Resultado da primeira imputação Valor da primeira amostra da variável tariff para cada uma das 5 imputações Expectation-Maximization - EM Algorithm Fonte: wikipedia

  14. Exemplo de Aplicação Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  15. Exemplo de Aplicação Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  16. IMPUTAÇÃO USANDO A MÉDIA IMPUTAÇÃO USANDO VALORES ALEATÓRIOS IMPUTAÇÃO USANDO A MODELO REMOÇÃO DE DADOS AUSENTES Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  17. IMPUTADO COM MÉDIA IMPUTADO COM MODELO ORIGINAL REMOÇÃO DADOS AUSENTES IMPUTAÇÃO ALEATÓRIA Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  18. Oracle Data Miner Classic • Oracle database 11g r1 ou superior • Oracle Sqldeveloper • Plataforma: Windows • Importação de dados via: .csv, .txt, .tab, .xls • Imputação pela: moda, média, mínimo, máximo, k-means, regressão e classificação.

  19. Oracle Data Miner Classic Importação de dados: 2 1 3

  20. Oracle Data Miner Classic Importação de dados: 2 1 3

  21. Oracle Data Miner Classic

  22. Oracle Data Miner Classic

  23. Oracle Data Miner Classic TRATAMENTO

  24. Oracle Data Miner Classic IMPUTAÇÃO

  25. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  26. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  27. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

  28. BIBLIOGRAFIA SAGE Publications - "DealingWith Missing Data", Encontrado em: http://www.sagepub.com/upm-data/45664_6.pd. Idre - Instituteof Digital Research AndEducation - "SPSS Learning Module Missing data“. Encontrado em: http://www.ats.ucla.edu/stat/spss/modules/missing.htm. Melissa Humphries - Population Research Center - "Missing Data & How to Deal: An overview ofmissing data“. Encontrado em: Https://www.utexas.edu/cola/centers/prc/_files/cs/Missing-Data. Joop J. Hox - "A ReviewofCurrent Software for Handling Missing Data". KwantitatieveMethoden (1999). Encontrado em: http://joophox.net/publist/misrevkm.pdf Stef van Buuren - "FlexibleImputationof Missing Data". ISBN-13: 978-1439868249. (Conseguimos uma leitura parcial pelo googleacademic). SOLAS Version 4.0 – Missing Data, Encontrado em: http://www.statsols.com/wp-content/uploads/2013/12/Solas-4-Manual1.pdf Orange CanvasVersion2.7.3 – Encontrado em: http://orange.biolab.si/download/ Obrigado. Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes