1 / 51

Utilisation de la plateforme web d’analyse de données Galaxy

Utilisation de la plateforme web d’analyse de données Galaxy. Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud , Mathieu Bahin , Claudia Hériveau , Olivier Quenez , Olivier Sallou , Aurélien Roult , Olivier Collin Plateforme Bio-informatique GenOuest

dong
Download Presentation

Utilisation de la plateforme web d’analyse de données Galaxy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Utilisation de la plateforme web d’analyse de données Galaxy Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier Collin Plateforme Bio-informatique GenOuest CNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, 35042 Rennes Cedex

  2. INTRODUCTION Concepts, principes, principaux outils

  3. Life Sciences Researchevolution Data quantity Data heterogeneity Data size Technological Evolutions Uses Evolution http://en.genomics.cn/navigation/show_navigation.action?navigation.id=143 High Performance Computing • Life sciences data = digital

  4. Evolution de la recherche Spectromètre de masse IRM Séquenceur Sondeurs Microscopes électronique Caméra sous marine GPS Puce à ADN

  5. Galaxy Concepts, Principe, Présentation

  6. Concepts • Portail web d’analyse de données initialement orienté NGS • Interface « user friendly » pour utiliser des outils bio-informatiques pas toujours « user friendly » • Utilisation de formulaires xml pour recréer les lignes de commandes • Intégration d’outils en différents langage (Python, Perl, Bash, R, Ruby, …) • Utilisation « explicite » pour un non informaticien • Faciliter la réanalyse • Optimiser les ressources de traitements (calcul, stockage et réseaux • Outil équivalent : Mobyle (ex : http://mobyle.genouest.org/)

  7. Concepts • Faciliter l’intégration d’outils • Pas de développement « graphique » • Création d’un descripteur • Liaison avec le logiciel ou le script • Supporte de nombreux langages dont Bash, Python, Perl, R, … • Faciliter l’analyse par des non-bio-informaticiens • Pas besoin de connaitre des langages de programmation • Enchaînements d’outils différents (provenance, type de langage, …) dans une même interface • Gain de temps -> à utiliser pour mieux connaître le fonctionnement des outils • Faciliter le partage • jeux de données, historiques, visualisations, workflows, pages, … • Optimisation des ressources informatiques

  8. Concepts • Orientation principalement NGS • mais flexible! • Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, … • La fonctionnalité de workflow : La cerise sur le gâteau! • Galaxy = Environnement complet • Analyse, Visualisation, Workflows, Partage, … • Vision simplifiée mais efficace • Prise en main intuitive • Rapidité et simplicité • Outil essentiel dans le cadre du 4ième paradigme • Accessibilité • Reproductibilité • Transparence • Optimisation

  9. Principe -cluster -poste de travail -cloud … Ressources de stockage 1 -cluster -poste de travail -cloud … Ressources de calcul 6 4 5 1-Récupération de la donnée 2-Recherche et utilisation d’un outil 3-besoin de données externes? 4-envoi de l’analyse sur calculateur 5-récupération des résultats 6-Enregistrement des données générées 3 2 -Génomes -Protéines -structures … -Blast -Bowtie -Velvet … Banques de données biologiques Logiciels bio-informatiques

  10. Présentation Barre de menu Analyse / workflow / Shared data / visualisation Historique Panneau d’ outils Espace d’affichage des informations Formulaire d’un Outil, donnée, historiques sauvegardés, …

  11. Présentation : Mode analyse Get Data Upload File

  12. Présentation : Mode analyse 1er jeu de données de l’historique

  13. Présentation : Mode analyse 1er jeu de données de l’historique

  14. Présentation : Mode analyse Contenu du fichier Prévisualisation

  15. Présentation : Mode analyse Formulaire de l’outil Paramètres de l’outil Outil Cutcolumnsfrom a table Jeu de données d’entrée

  16. Présentation : Mode analyse Exécution de l’outil Nouveau jeu de données en création

  17. Présentation : Mode analyse Remplissage de l’historique Visualisation du nouveau jeu de données en création

  18. La visualisation

  19. Présentation : Mode visualisation Trackster : orienté NGS et génomique Visualisation d’un jeu de donnée par piste, ici 8, en fonction des positions génomiques

  20. Présentation : Mode visualisation Phyloviz : Arbres phylogénétique Visualisation d’un jeu de donnée par visualisation

  21. Les workflows Concepts, principes, principaux outils

  22. Concepts • Google : Requête « workflow + bio-informatique » • Galaxy • Biorigami • Wokflow ou automatisation de processus • Pérennisation des processus analytiques • Sortir de la logique « projet » • Création de processus d’analyses génériques • Outil permettant d’exécuter un ensemble de processus de façon automatique • Pipelines très présents en bio-info même si peu utilisés! • Permet aux chercheurs en Biologie d’analyser leurs données de façon relativement transparente et quasiment sans l’aide d’informaticiens

  23. Principes • Génériques • Automatisation des processus d’analyse (outil/composant) en les reliant dans un pipeline • Lancer des analyses sur des architectures matérielles complexes • Cluster • Grilles de calculs • Cloud • Formalisation du processus d’analyse • Enchaînement de boîtes

  24. Exemples d’outils • Faciles à prendre en main mais moins flexibles • Galaxy • Mobyle • Taverna • Knime • BioMOBY • … • Difficiles à prendre en main mais plus flexibles • Ergatis • Pegasys • WildFire • Kepler • …

  25. Principes extrait de « Accelerating the scientific exploration process with scientific workflows« IlkayAltintaset al 2006 J. Phys.: Conf. Ser.46 468 doi:10.1088/1742-6596/46/1/065

  26. Workflow pour la Biologie Biologie -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d’un système Bio-informatique -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l’analyse Informatique -Proposer des ressources techniques fiables et adaptées

  27. Worklow in Galaxy Fonctionnement

  28. Galaxy • Workflows et… workflows • Coût de développement variable • Création en 10 minute. Un workflow = 1 outil! • Projet de collaboration sur x années • Portée variable • nombre d’utilisateurs • nombre de communautés utilisatrices

  29. Des données au workflow : L’historique Notion d’historique Notion de workflow Conversion vers un workflow Provenance des données Suivi des traitements

  30. Créer un workflow

  31. Galaxy by GenOuest Avantages, limites et verrous identifiés

  32. Avantages génériques • Gestion des ressources • Mécanisme d’intégration

  33. Avantages génériques • Gestion des métadonnées • Exploitation au niveau des composants • Type de données d’entrée et sortie • Annotation de l’outil

  34. Avantages génériques • Gestion de l’accessibilité • Reproductibilité

  35. Avantages génériques • Gestion de l’accessibilité • Partage, échange, publication

  36. Avantages génériques • Gestion de l’accessibilité • Partage, échange, publication

  37. Avantages génériques • Gestion d’exécution • Dans Galaxy

  38. Avantages génériques • Gestion d’exécution • Dans Galaxy • Gestion des jobs sur un cluster

  39. Avantages génériques • Gestion d’exécution • Dans Galaxy • Gestion des jobs sur un cluster • À distance : API • Cloud

  40. Avantages génériques • Gestion d’exécution • Dans Galaxy • Gestion des jobs sur un cluster • À distance : API

  41. Avantages : Worflows • Gestion de l’édition • Visualisation • Mécanisme d’intégration

  42. Avantages : Worflows • Gestion des composants • Liens entre composants • Ajout, modification, suppression facilité • Ajout/suppression de composants

  43. Avantages : Worflows • Gestion des actions • Modification des actions d’un composant • Renommer la sortie • Changer le format de donnée • Assigner des colonnes • Notification par email • Sorties d’outils = sorties de workflow? • Si oui, le préciser • Si non, les sorties seront cachées

  44. Avantages • Administration

  45. Limites et verrous • Quelques difficultés • Version des outils

  46. Limites et verrous • Quelques difficultés • Version des outils

  47. Limites et verrous • Quelques difficultés • Version des outils • Simplifié… donc • Difficulté à gérer les entrées et sorties multiples • Modifications lors du lancement possibles mais limitées

  48. Limites et verrous • Quelques difficultés • La parallélisation Pistes : Utilisation de l’API et du cloud…

  49. Solutions proposées • Local, en ligne ou via le cloud • Interface utilisateur uniquement via un serveur web • Installation locale en moins de 10 minutes

  50. Solutions proposées • Local, en ligne ou via le cloud • Interface utilisateur uniquement via un serveur web • Installation locale en moins de 10 minutes • Mais nécessite • De s’occuper de l’administration complète • la présence des outils (liens vides souvent) • Perte des avantages du système • Notre vision • Pas ou peu fait pour une utilisation locale • Privilégier le cloud

More Related