1 / 61

Gestão de dados - dataset

Palestra desenvolvida com patrocu00ednio do IDRC<br>FEARP - NPT - USP

989212
Download Presentation

Gestão de dados - dataset

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gestão de dados – Dataset José Dutra de Oliveira Neto (dutra@usp.br) IldebertoRodello FEARP - USP 2020 Palestra patrocinada pelo projeto Open Data initiative - IDRC

  2. Agenda Agenda • O que são dados científicos? • Crise de replicação • Compartilhamento de dados • Repositório • Dados sensitivos • Ondepublicar? • Publicandoem 7 passos

  3. Dados científicos O que são dados científicos?

  4. Dados Científicos Dados Científicos

  5. Definições • DMP – É o plano da gestão de dados que vai descrever a gestão dos dados, sua descrição ,o armazenamento dos dados, bem como, os mecanismos para compartilhar e preservar os dados • Metadata – São dados sobre os dados. Descrição detalhada dos dados. Permite que outros utilizem os dados que não criaram. • Repositório de dados – Servidor para armazenar e gerenciar os dados para facilitar e incentivar o seu reuso https://instr.iastate.libguides.com/dmp/FAQs

  6. Crise Crise de replicabilidade/ reprodutibilidade da pesquisa? Erro, falseamento de dados, omissão e manipulação ameaçam a qualidade das pesquisas

  7. Definições • Repeatability(Same team, same experimental setup): The measurement can be obtained with stated precision by the same team using the same measurement procedure, the same measuring system, under the same operating conditions, in the same location on multiple trials. For computational experiments, this means that a researcher can reliably repeat her own computation. • Replicability (Different team, same experimental setup): The measurement can be obtained with stated precision by a different team using the same measurement procedure, the same measuring system, under the same operating conditions, in the same or a different location on multiple trials. For computational experiments, this means that an independent group can obtain the same result using the author's own artifacts. • Reproducibility (Different team, different experimental setup): The measurement can be obtained with stated precision by a different team, a different measuring system, in a different location on multiple trials. For computational experiments, this means that an independent group can obtain the same result using artifacts which they develop completely independently.

  8. Crise Crise de replicabilidade/ reprodutibilidade da pesquisa? In 1992, philosopher Karl Popper wrote: “Science may be described as the art of systematic oversimplification — the art of discerning what we may with advantage omit.” Science should be ‘show me’, not ‘trust me’; it should be ‘help me if you can’, not ‘catch me if you can’.  If I say: “here’s my work” and it’s wrong, I might have erred, but at least I am honest. If you and I get different results, preproducibility can help us to identify why — and the answer might be fascinating. Philip B. Stark https://www.nature.com/articles/d41586-018-05256-0

  9. Crise Replicabilidade/ reprodutibilidade • A ciência só evolui se os pesquisadores confiarem nos resultados das pesquisas anteriores. O conhecimento é acumulado pelos novos testes de hipóteses que são construídos sobre resultados das pesquisas anteriores. • Um trabalho não replicável/reprodutível não é a melhor forma de usar de recursos escassos e compromete a confiança na ciência • Replicabilidade/ reprodutibilidade e transparênciasãotemasimportantes para a ciência https://www.knaw.nl/shared/resources/actueel/publicaties/pdf/20180115-replication-studies-web

  10. Crise Existe uma crise de replicabilidade/ reprodutibilidade na pesquisa? • Sim, existe uma crise significativa • Sim, existe um crise pequena • Não existe esta crise • Não sei Responda aqui: https://www.menti.com/udarxro5z5

  11. Crise Existe uma crise de replicabilidade/ reprodutibilidade ? Detalhando mais... https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

  12. Crise Replicabilidade/ reprodutibilidade : É um problema? • More than 70% of researchers have tried and failed to reproduce another scientist's experiments, and more than half have failed to reproduce their own experiments. Those are some of the telling figures that emerged from Nature's survey of 1,576 researchers who took a brief online questionnaire on reproducibility in research • https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

  13. Crise Instead of arguing about whether results hold up, let’s push to provide enough information for others to repeat the experiments Philip B. Stark https://www.nature.com/articles/d41586-018-05256-0

  14. Crise Potenciais causas do problema com a replicabilidade/ reprodutibilidade

  15. Crise FAPESP MAR/2018

  16. Crise Explicações para a pesquisa não replicável • “There is growing alarm about results that cannot be reproduced.  Explanations include: • increased levels of scrutiny, • complexity of experiments and statistics, and • pressures on researchers. • Journals, scientists, institutions and funders all have a part in tackling reproducibility” https://www.nature.com/collections/prbfkwmwvz/- . Detalhando a não replicabilidade...

  17. Crise A maiorexplicação para a nãorepetibilidadefoi a indisponibilidade dos dados (nature genetics) https://www.nature.com/articles/ng.295/figures/1?proof=true

  18. Crise Iniciativas das revistas • Seção de métodos limitados • Não limitar o tamanho da seção de métodos • Lançamento de artigos no formato de métodos (Wellcome Open Research- https://wellcomeopenresearch.org/browse/articles - MethodArticles) • Falta de estatísticas adequadas • Fornecer instruções ou guias para relatar as formas de descrever as estatísticas

  19. Compartilhar Vantagens do compartilhamento dos dados?

  20. Por que publicar? Vantagens? • Crédito pela publicação indexada e citável • Acesso aberto (Ex: Licença tipo Creative Commons) • Validade a pesquisa • Garantir a reprodução da pesquisa acadêmica • Promover comportamentos éticos na pesquisa • Melhorar a reputação da instituição ou mesmo pessoal

  21. Opções de publicação do seu dataset Repositório de dados Artigo de dados

  22. Compartilhar Alguns financiadores e editores já estão exigindo o compartilhamento dos dados da pesquisa https://dataservices.gfz-potsdam.de/portal/drr.html

  23. Compartilhar Research funders’ policies https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data

  24. IDRC – Open Data IDRC Open Data principles: • Research data is ‘open’ when it is made freely available on the internet and permits any user to find, access, understand and use it without financial, legal, or technical barriers • O acesso aberto aos dados da pesquisa é de fundamental importância para o IDRC e para os pesquisadores dos países em desenvolvimento; • A coleta e o gerenciamento de dados devem ser realizados de maneira a maximizar o potencial de compartilhamento de dados; • A promoção de dados abertos não deve sobrecarregar indevidamente os donatários do IDRC ou o próprio IDRC; • Nem todos os dados da pesquisa devem ser compartilhados. O IDRC reconhece que a própria natureza dos dados da pesquisa devido a considerações éticas, culturais, legais ou de propriedade intelectual pode criar bases legítimas para proteção de dados ou acesso limitado. • Ações para promover o acesso de dados abertos • Uso do DMP • Formatos acessíveis • Licença CC • Dados acessíveis até 12 meses após finalização do projeto https://www.idrc.ca/en/open-data-statement-principles

  25. IDRC – Open Data Dados e metadados devem ser : • A) Possíveis de ser em localizados - Os (meta) dados recebem um identificador persistente(DOI) e único globalmente (não muda) por uma organização certificada. Deve durar por muito tempo e ser facilmente localizável. • B) Possíveis de serem acessados - os dados são recuperáveis ​​pelo seu identificador usando um protocolo de comunicação padronizado e com segurança • C) Permita a interoperabilidade - Formato do arquivo de dados, programas de análise, formato do metadados, pode ser lido por computadores e informações sobre o padrão utilizado • D) Reutilizável - Descrição detalhada e clara ,bem como , o tipo de licença

  26. Armazenamento Armazenamento dos seus dados

  27. Armazenamento O que considerar no armazenamento? • Onde armazenar? HD, Pen-drive, local server, nuvem (Dropbox, onedrive, gdrive) • Quando vamos fazer o backup? Diário, Semanal • Quais os formatos para compartilhar em um prazo longo? • Quantidade? 3 -2-1 (3 cópias, 2 mídias diferentes e 1 cópia local diferente) • Substituição da cópia ? a cada 2 – 5 anos • Checou a integridade das cópias ? • Planejar a Segurança física: forma de acesso e evitar transporte físico • Planejar as Segurança digital: password, evite pastas compartilhadas, criptografia, não envie por email • Armazenar chaves digitais de acesso em locais separados Tem outro modo mais fácil?

  28. Repositório Repositório de dados

  29. Repositório Repositório – Para que? • Disseminar dados para outros pesquisadores • Incentivar o reuso • Facilitar acesso • Exemplo: Figshare - https://figshare.com/ https://doi.org/10.6084/m9.figshare.12195075

  30. Repositório Repositório x Website Website ?

  31. Repositório Checklist do repositório

  32. Onde publicar? Repositório – como citar de Oliveira Neto, José Dutra; Rodello, Ildeberto Aparecido.: Data onthe Open EducationalResources differentiation in Global South. figshare https://doi.org/10.6084/m9.figshare.12195075 (2020). https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data

  33. Dados Sensitivos Dados sensitivos ?

  34. Dados Sensitivos Dados sensitivos • Dados que identificam as pessoas ou organização • Diretos – Nome, assinatura, telefone, foto, digital • Indiretos – Junto com outras informações, permitem a identificação- Gênero, data de nascimento, raça, características incomuns (doença rara, empregos específicos e raros) • Alguns dados protegidos pelas legislação vigente • Dados comerciais sensitivos https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

  35. Dados Sensitivos Dados sensitivos: Riscos • Se combinar alguns identificadores indiretos, conseguimos identificar pessoas ou organizações? • Se combinar diversos datasets é possível identificar pessoas ou organizações? • Existem aspectos legais ou éticos que limitam o seu compartilhamento? • A publicação pode prejudicar alguém?

  36. Dados Sensitivos Algum risco? • It was found that 87% (216 million of 248 million) of the population in the United States had reported characteristics that likely made them unique based only on {5-digit ZIP, gender, date of birth}. • About half of the U.S. population (132 million of 248 million or 53%) are likely to be uniquely identified by only {place, gender, date of birth}, where place is basically the city, town, or municipality in which the person resides. • And even at the county level, {county, gender, date of birth} are likely to uniquely identify 18% of the U.S. population. In general, few characteristics are needed to uniquely identify a person. https://dataprivacylab.org/projects/identifiability/paper1.pdf#:~:text=About%20half%20of%20the%20U.S.,in%20which%20the%20person%20resides.

  37. Dados Sensitivos Dados Sensitivos Como proteger dados sensitivos? • Comitê de ética • Agregar os dados para tornar mais seguros • Acesso controlado ao repositório? • Pedir autorização aos participantes • Anonimizar ou de-identificar os dados • Fechar o acesso até a morte dos participantes • https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970 reprodução link site

  38. Dados Sensitivos Caso Netflix • On October 2, 2006, Netflix, the world’s largest online DVD rental service, announced the $1-million Netflix Prize for improving their movie recommendation service [15]. To aid contestants, Netflix publicly released a dataset containing 100, 480, 507 movie ratings, created by 480, 189 Netflix subscribers between December 1999 and December 2005. • Subscriber’s movie preferences: the titles of a few of the movies that this subscriber watched, whether she liked them or not, maybe even approximate dates when she watched them. • Although the data sets were constructed to preserve customer privacy, the Prize has been criticized by privacy advocates. In 2007 two researchers from The University of Texas at Austin were able to identify individual users by matching the data sets with film ratings on the Internet Movie Database[29][30] uncovering their apparent political preferences and other potentially sensitive information. • On December 17, 2009, four Netflix users filed a class action lawsuit against Netflix, alleging that Netflix had violated U.S. fair trade laws and the Video Privacy Protection Act by releasing the datasets.[31] There was public debate about privacy for research participants. On March 19, 2010, Netflix reached a settlement with the plaintiffs, after which they voluntarily dismissed the lawsuit • On March 12, 2010, Netflix announced that it would not pursue a second Prize competition that it had announced the previous August. The decision was in response to a lawsuit and Federal Trade Commission privacy concerns.[28]

  39. Dados Sensitivos Dados sensitivos: Planejamento • Comitê de ética • Plano • Permissão para coleta – Consentform[https://tinyurl.com/yxmwrvl4 ] • Guardar permissão com data de aceite • Descrição detalhada e clara • Deixar claro que a coleta é opcional • Deixar claro que os respondentes podem desistir a qualquer momento • Esclarecer ao respondente a necessidade dos dados para a pesquisa (relevância) • Esclarecer o que e como vai usar os dados • Identificar o repositório oficial onde ficará hospedado os dados • Plano de armazenamento e gestão dos dados • Tipo de permissão para reuso : deixar claro • Metadados, descrição e dados de contato

  40. Dados Sensitivos Remover identificadores de dados sensitivos • Anonimação - definitivo • De-identificação – Pode ser revertido com o processo de re-identificação. Pode ser usado para estudos longitudinais. Documentar todo o processo! • Diminuir risco • Eliminar identificadores • Substituir identificadores • Generalização ( range idade, cidade e não rua) 10/07/2000 por 20-30 e Ribeirão Preto por Estado de São Paulo • Substituir caracteres por * . E****.I****. (nome da escola) • Morte? Mudança de Lei?

  41. Dados Sensitivos Compartilhar dados sensitivos qualitativos • Como anonimizar? • Textual • Áudio • Vídeo • Pseudônimos • Remover trechos • Alterar trechos • Acesso controlado dos dados • Embargo

  42. Quem compartilha? Quem compartilha ?Link responda agora - https://www.menti.com/duu3v74gtw Não compartilho os meus dados Sim, compartilho só de modo privado Sim, compartilho via email Sim, compartilho nas nuvens Sim, compartilho como dados complementares em revistas científicas Sim, compartilho em sites pessoais ou corporativos Sim, compartilho em repositórios públicos ou privados Sim, compartilho em artigo de dados

  43. Quem compartilha? Como os pesquisadores compartilham os dados • Quantos? 36% só compartilha privado • Como? 65% por email e 39% nas nuvens • Onde? Revistas científicas como informações suplementares (51%), sites pessoais (27%) e repositórios (25%) https://partnerships.nature.com/wp-content/uploads/2019/08/Whitepaper-Practical-challenges-for-researchers-in-data-sharing.pdf Qual o Problema?

  44. Onde publicar? Quais dados podem ser publicados? • Dados antigos • Dados já utilizados em um artigo • dados associados a um artigo de alto impacto • Dados de um único experimento Quando pode ser publicado? • Depois da análise de dados ser publicada • Antes da análise de dados ser publicada • Junto com a publicação da análise de dados • Quando o autor não tem intenção de publicar os dados

  45. Onde publicar? E o “artigo” de dados?

  46. Onde publicar? Artigo de dados • Artigo de dados apenasdescreve o dataset e normalmentenãoincluinenhumainterpretaçãooudiscussãoacerca dos dados • As revistasnormalmenterequerem o depósitoem um repositório de dados • Nemtodosexigemanálise, interpretação e conclusão • Nãotem o foconageração de dados e nemnosmétodos • Nãoexiste teste de hipótese

  47. Onde publicar? Características das revistas científicas com artigos de dados https://asistdl.onlinelibrary.wiley.com/doi/pdf/10.1002/asi.23358

  48. Onde publicar? Anatomia Artigo de dados https://resource-cms.springernature.com/springer-cms/rest/v1/content/16169050/data/v2

  49. Onde publicar? Exemplo de um artigo de dados Especificações Design experimento, materiais e métodos Valor dos dados Local dos dados Abstract Dados

  50. Mão na massa Parte prática

More Related