1 / 30

M01_Gestão_Dados (1/10)

IDRC u2013 Open research data initiative [109059-013] supported this study.<br>Su00e9rie integrante do curso sobre datasets<br>Material traduzido por Jose Dutra O Neto, Ildeberto A Rodello<br>Apoio: IDRC u2013 Open research data initiative [109059-013]

989212
Download Presentation

M01_Gestão_Dados (1/10)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TutoriaisemGestão de Dados Científicos Aula 1: Introduçãoa gestão dos dados científicos Porque fazer uma gestão de dados científicos? Tendências na coleta, armazenamento e perda de dados, a importância e os benefícios da gestão de dados e uma introdução ao ciclo de vida dos dados. Imagem do CC da University of Maryland Press Releases no Flickr

  2. Conteúdo • O mundo dos dados ao nosso redor • Importância do gerenciamento de dados • O ciclo de vida dos dados • O caso de gerenciamento de dados Imagem CC por intercalar no Flickr

  3. Objetivos de Aprendizagem Após concluir esta parte, o participante será capaz de: • Apresentar dois exemplos gerais de por que o aumento da quantidade de dados é uma preocupação • Explicar, usando dois exemplos, como a falta de gerenciamento de dados causa impacto • Definir o ciclo de vida dos dados da pesquisa • Exemplificar como dados bem gerenciados podem resultar em novas conclusões científicas

  4. Realidade dos dados ...

  5. Imagens coletadas pelo DataOne.org

  6. Grande Volume de Dados Os dados são coletados de sensores, redes de sensores, sensoriamento remoto e observações, dentre outros - exigem maior atenção ao gerenciamento e administração de dados Foto cedida por http://modis.gsfc.nasa.gov/ Foto cedida por http://www.futurlec.com Imagem CC por tajai no Flickr Foto cedida por www.carboafrica.net Imagem CC de CIMMYT no Flickr Imagem coletada por Viv Hutchinson

  7. O mundo dos dados à nossa volta Informações transitórias ou demanda não atendida por armazenamento Informação Petabytes em todo o mundo Armazenamento disponivel Fonte: John Gantz, IDC Corporation: O universo digital em expansão

  8. O mundo dos dados à nossa volta: perda de dados • Desastre natural • Falha na infraestrutura das instalações • Falha no armazenamento • Falha no hardware/software do servidor • Falha no software do aplicativo • Dependências externas (por exemplo, falha de PKI) • Obsolescência de formato • Oneração legal • Erro humano • Ataque malicioso por agentes humanos ou automatizados • Perda de competências pessoais • Perda de compromisso institucional • Perda de estabilidade financeira • Mudanças nas expectativas e requisitos do usuário Imagem CC por Sharyn Morrow no Flickr Imagem CC por momboleum no Flickr

  9. Exemplos ruins (reais) do gerenciamento de dados científicos

  10. O mau gerenciamento de dados afeta a todos “MEDICARE PAYMENT ERRORS NEAR $20B”(CNN) December 2004 Miscoding and billing errors from doctors and hospitals totaled $20 billion in FY 2003 (9.3% error rate). The error rate measured claims that were paid despite being medically unnecessary, inadequately documented, or improperly coded. This error rate actually was an improvement over the previous fiscal year (9.8% error rate). “AUDIT: JUSTICE STATS ON ANTI-TERROR CASES FLAWED” (AP) February 2007 The Justice Department Inspector General found only two sets of data out of 26 concerning terrorism attacks were accurate. The Justice Department uses these statistics to argue for their budget. The Inspector General said the data “appear to be the result of decentralized and haphazard methods of collections … and do not appear to be intentional.” “SOCIAL SECURITY DATA CAN TURN PEOPLE INTO THE LIVING DEAD” (NPR) August 2016 In 2011, an audit found that about 1,000 people a month in the U.S. were marked deceased when they were very much alive. Rona Lawson, who works in the Office of the Inspector General at the Social Security Administration, says that number has gone down. It's now around 500 people a month. Lawson says 90 percent of the time, the cascade of misinformation starts with an input error by Social Security staff — a regular mistake on a regular office day that just happens to kill a person off, at least on paper. Slide cortesia de BLM

  11. Um biólogo da vida selvagem de um pequeno escritório de campo era o especialista interno em GIS e fornecia suporte para todas as necessidades de GIS da equipe. No entanto, os dados foram armazenados em sua própria estação de trabalho. Quando o biólogo se mudou para outro escritório, ninguém entendeu como os dados eram armazenados ou gerenciados. Solução: Um especialista em GIS do escritório do estado recuperou a estação de trabalho e vasculhou os arquivos tentando recuperar dados relevantes. Custo: 1 mês de trabalho (US $ 4.000) mais o valor de dados que não foram recuperados Considere que a situação poderia ter sido pior, porque os dados não estavam sendo armazenados em backup, como estariam se estivessem armazenados em um servidor. Exemplo ruim de gerenciamento de dados científicos

  12. Exemplo de Agência Federal de Gerenciamento de Dados Insatisfatório Em preparação para um Plano de Gerenciamento de Recursos, um escritório descobriu 14 inventários duplicados de GPS das estradas. No entanto, como nenhum dos inventários tinha metadados suficientes, era impossível saber qual era o melhor ou se algum deles realmente atendia aos requisitos. Solução: Re-inventário de estradas Custo: Estimativa de 9 meses de trabalho / inventário @ $ 4.000 / mês de trabalho (14 inventários = US $ 504.000) Imagem CC por ruffin_ready no Flickr

  13. Valor do Gerenciamento de Dados:Importância para Pesquisadores e para Ciência

  14. Importância do Gerenciamento de Dados “Por favor, perdoe minha paranóia sobre protocolos, padrões e revisão de dados. Estou nos últimos estágios de uma longa carreira no USGS (30 anos e contando) e experimentei muito. Experiência é o conhecimento que você obtém logo após precisar. Várias vezes, vi colegas chamados a tribunal para testemunhar sobre as condições que observaram. Sem uma forte tradição de constante revisão e aprovação de dados básicos, eles estariam em grandes problemas sob interrogatório. Em vez disso, eles foram capazes de produzir anotações de campo, registros de aprovação de dados e similares para fazer backup de seu testemunho. Uma coisa é ser questionada por um estudante universitário que está trabalhando em um projeto para a escola. É outracoisaserinterrogadopor um advogado sob juramento com a mídia presente. ” (Traduçãonossa) - Nelson Williams, Scientist US Geological Survey

  15. Importância do Gerenciamento de Dados Os cientistas climáticos no centro de uma tempestade na mídia por e-mails vazadosforam absolvidos de acusações de que eles falsificaram seus resultados e silenciaram críticos, mas uma revisão descobriu que eles tinhamfalhadoemteraberto o suficiente sobre seu trabalho.

  16. Por que gerenciar dados: perspectiva do Pesquisador • Gerencie seus dados para si mesmo: • Mantenha-se organizado - seja capaz de encontrar seus arquivos (entradas de dados, scripts analíticos, saídas em vários estágios do processo analítico, etc.) • Acompanhe seus processos científicos quanto à reprodutibilidade - seja capaz de combinar suas saídas com entradas e transformações exatas que as produziram • Melhor controle de versões de dados - identifique facilmente as versões que podem ser eliminadas periodicamente • Controle de qualidade- seusdados com mais eficiência

  17. Por que Gerenciamento de Dados: perspectiva do Pesquisador • Para evitar a perda de dados (por exemplo, fazer backups) • Formate seus dados para reuso (por você ou por outros) • Esteja preparado: documenteseus dados para sua própria lembrança, responsabilidade e reutilização (por você ou por outras pessoas) • Ganho credibilidade e reconhecimento pelos seus esforços científicospormeiodo compartilhamento de dados! Imagem CC por UWW ResNet no Flickr

  18. Por que Gerenciamento de Dados: Base para o avanço da ciência • Os dados são um ativo valioso - é caro e demorado coletar • Os dados devem ser gerenciados para: • maximizar o uso e valor efetivos de ativos de dados e informações • melhorarcontinuamentea qualidade incluindo: precisão, integridade, integração, pontualidade da captura e apresentação de dados, relevância e utilidade • garantir o uso apropriado de dados e informações • facilitar o compartilhamento de dados • garantir sustentabilidade e acessibilidade a longo prazo para reutilização na ciência

  19. O gerenciamento de dados facilita o compartilhamento e o reuso…

  20. Onde a maioria dos dados acaba agora ...

  21. Imagine se os dados estivessem mais acessíveis….

  22. Dados bem gerenciados e publicamente acessíveis são importantes: por quê? Aqui estão algumas razões (do UK Data Archive): • Aumenta o impacto e a visibilidade da pesquisa • Promove inovação e uso potencial de novos dados • Leva a novas colaborações entre usuários de dados e criadores • Maximiza a transparência e a responsabilidade • Permite o exame minucioso dos resultados da pesquisa • Incentiva a melhoria e validação de métodos de pesquisa • Reduz o custo de duplicar a coleta de dados • Fornece recursos importantes para educação e treinamento

  23. Dados bem gerenciados podem resultar em reutilização, integração e novas ciências Resultadosdo modelo eBird Ocorrência do Indigo Bunting(2008) Cobertura da terra Jan Abr Jun Set Dez Meteorologia • Potenciaisusos: • Examinar padrões de migração • Inferir os impactos das mudanças climáticas • Medir padrões de uso do habitat • Medir tendências populacionais • Spatio - Modelosexploratórios temporaisque preveema probabilidade de ocorrência de espécies de aves nos Estados Unidos em uma grade de 35 km x 35 km. MODIS – Remote sensing data Slide cortesia de DataOne

  24. Novas descobertas Uma nova técnica de processamento de imagem revela algo nunca antes visto nesta imagem do Telescópio Espacial Hubble, tirada há 11 anos: Um planeta fraco (setas), o mais externo dos três descobertos com telescópios terrestres no ano passado em torno da jovem estrela HR 8799.D. Lafrenière et al., Astrophysical Journal Letters. “Planet hidden in Hubble archives”Science News (Feb. 27, 2009) D. Lafrenière et al., ApJCartas "A primeira coisa que diz é a importância da manutenção de arquivos de longo prazo. Aqui está uma grande descoberta que espreita nos dados há cerca de 10 anos!"comenta Matt Mountain, diretor do Instituto de Ciência do Telescópio Espacial em Baltimore, que opera o Hubble. “A segunda coisaé que terum arquivo bemcalibradonãoé o suficiente para fazer descobertas - também é necessário um grupo de pessoas muito inovador para desenvolver rotinas de extração muito inteligentes que possam se livrar de todos os artefatos para revelar o planetaocultosob toda aquela estrutura de telescópio e detector. ”

  25. O que é o ciclo de vida dos dados?

  26. Para cada estágio do ciclo de vida dos dados… • … Existem boas práticas… e… ferramentas para ajudar! • As lições a seguir sobre gerenciamento de dados ilustrarão detalhadamente cada estágio do ciclo de vida dos dados • Seus dados bem gerenciados e acessíveis podem contribuir para a ciência de maneiras que você nem imagina hoje!

  27. Resumo (1) • Se os dados forem: • Bemorganizados • Documentados • Preservados • Acessíveis • Verificados quanto à precisão e validade • O resultadoserá: • Dados com alta qualidade • Fáceisde compartilhar e reutilizar na ciência • Citação e credibilidade ao pesquisador • Economia de custos para a ciência

  28. Resumo (2) • O grandevolume de dados criou uma onda de informações que precisam ser bem gerenciadas e disponibilizadas. • O custo de não fazer o gerenciamento de dados pode ser muito alto. • Conheça as melhores práticas e ferramentas associadas ao ciclo de vida dos dados para gerenciar bem seus dados. • Muitos benefícios estão associados ao ato de gerenciar dados, incluindo a capacidade de localizar, acessar, entender, integrar e reutilizar dados.

  29. Recursos • Chatfield, T., Selbach, R. fevereiro de 2011. Workshop de Treinamento em Gerenciamento de Dados. Bureau of Land Management (BLM). • Strasser, Carly. Fevereiro de 2012.Gerenciamento de dados para cientistas. http://www.slideshare.net/carlystrasser/oceansciences2012workshop • Arquivo de dados do Reino Unido. Maio de 2011. Gerenciamento e compartilhamento de dados: melhores práticas para pesquisadores. http://www.data-archive.ac.uk/media/2894/managingsharing.pdf • DAMA International, O Guia DAMA do Conhecimento em Gerenciamento de Dados. https://www.dama.org/content/body-knowledge

  30. O conjunto complete de slides pode ser baixado de: http: //www.dataone.org/ education-modules Citação sugerida: DataONE Education Module: Data Management. DataONE. Retrieved Nov 16, 2016. From http://www.dataone.org/sites/all/documents/L01_DataManagement.pptx Informações sobre licença de direitos autorais: Nenhum direito reservado; você pode aprimorar e reutilizar para seus próprios propósitos. Pedimos que você forneça a citação e atribuição apropriadas ao DataONE.

More Related