1 / 55

my Grid: Une Vision globale

my Grid: Une Vision globale. Franck Tanoh http://www.mygrid.org.uk. Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10. my Grid. Le projet my Grid a un ensemble de composants destinés à soutenir la réalisation d’expériences in silico en biologie .

Download Presentation

my Grid: Une Vision globale

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. myGrid: Une Vision globale Franck Tanoh http://www.mygrid.org.uk Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10

  2. myGrid Le projet myGrid a un ensemble de composants destinés à soutenir la réalisation d’expériences in silico en biologie. • Taverna workbench = Un système de gestion de workflows • Feta = découverte des services web • myExperiment = collaboration + réutilisation des workflows open source

  3. Partenaires Première étape du projet fiancée par l’EPSRC

  4. OMII-UK Soutenir la communauté ‘e-Science’ aux Royaumes Unis et ses collaborateurs internationaux.

  5. Motivations NAR 2007 – 968 base de données EMBL database growth

  6. Problèmes • Tout est distribuées: • Données • Ressources • Scientifiques • Ressources hétérogènes • Très peu de standards • formats d’entrée et de sortie • représentation • annotation des données L’intégration des données, l’interopérabilité des ressources très difficile.

  7. Intégration des données bioinformatiques 12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt 12241 cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt 12301 gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct 12361 gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt 12421 taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt 12481 aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt 12541 ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg 12601 tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga 12661 tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc 12721 atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa 12781 taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa Couper-coller

  8. Intégration des données bioinformatiques Couper-coller • Avantages: • Technologie très simple • Analyse des résultats pendant l’intégration • Inconvénients: • Demande beaucoup de temps • Répétition difficile • Limitée aux petites données • Exposés aux erreurs Impossible d’appliquer cette technologie au génome/protéome/métabolome

  9. Intégration des données bioinformatiques Pipeline programmation • Avantages • Reproductible • Automatique • Rapide, fiable, efficace • Inconvénients • Exige des compétences en programmation • Difficile a modifier • Nécessite outils et maintenance des bases de données !!!

  10. Meilleurs solutions ?? Un système qui: • Permet d’automatiser l’intégration des données • Fonctionne sur des ressources distribuées • Facilite la répétition, la vérification et le partage des expériences scientifiques • Nécessite peu ou pas de compétences en programmation • Fonctionne à partir d’un ordinateur de bureau/portable

  11. La solution myGrid myGrid permit d’automatiser l’exécution d'expériences in silico sur des ressources distribuées à partir d’un simple ordinateur de bureau. Technologie basée sur: • Services web • Workflows • Web sémantique

  12. European Bioinformatics Institute API submissions has risen to 3,166,901 for 2007 (Sarah Hunter) Services web Un Service Web est un programme informatique permettant la communication et l'échange de données entre applications et systèmes hétérogènes dans des environnements distribués(Wikipedia). Avantages: • Interopérabilité entre divers logiciels • fonctionne sur diverses plate-forme • Utilise des standards et protocoles ouverts

  13. sequence DNA GenScan Service web Blast Service web Workflows Workflow = chaîne de traitement Automatisation d'un processus au cours duquel des ressources Passent d'un participant à un autre. Décrivez ce que vous voulez faire Pas besoin d’êtres programmeur

  14. Moteur de workflows Différentslangages, accès, domaines

  15. Taverna Le tout en un logiciel exécutable à partir de votre ordinateur Taverna est : • Un moteur de workflow basé sur le flot des données. • Un environnement pour la construction et l’édition de workflows. • Un système d'exécution des workflows sur des données fournies par l’utilisateur • Un système de visualisation des résultats (3d, html…)

  16. Taverna Workflow Workbench http://taverna.sf.net

  17. Taverna • >45000 téléchargements • International: US, Singapore, UK, Europe, Australie • Parmi les 200 logiciels sur sourceforge en Juin 2007

  18. Taverna Par défaut, Taverna interopère avec: • SOAP services web • Biomart Entrepôts de données • Soaplab outils de ligne de commande • BioMoby services web • Interprète script Beanshell (proche de Java)

  19. Taverna dans la recherche • Biologie des systèmes • Biologie moléculaire • Annotation Gene/protéine • Analyse des données microarray • Analyse d’images médicales • Simulation cardiaque • Etude des Génotypes/Phénotypes • Informatique médicale • Astronomie • Chimie informatique • Intégration de données

  20. La trypanosomiase chez les bovins Steve Kemp Andy Brass Paul Fisher http://www.genomics.liv.ac.uk/tryps/trypsindex.html

  21. Trypanosomiase chez les bovins Une forme de la maladie du sommeil chez les bovins connue sous le nom n’gana causée par Trypanosoma brucei. Les bovins en Afrique (Kenya) résistent a cette forme, ce qui n’est pas le cas des bovins Anglais. Quelles sont les causes des différences?

  22. Trypanosomiase chez les bovins Comprendre le phénotype • Comparaison des souches sensibles vs résistants – Microarrays Comprendre le génotype • Analyse de QTL (Loci de Caractères Quantitatifs )

  23. Etude de la Trypanosomiase A – Trouver les gènes dans les régions QTL B – Annotation des gènes avec des bases de données externes C – Faire correspondre KEGG ids et gène ids D – Récupérer les données microarray E – pour chaque KEGG gène retrouver sa voie métabolique F – obtenir la description de chaque voie métabolique G – obtenir l’annotation de chaque KEGG gène

  24. Résultats Identification du gène (Daxx) qui semblerait jouer un rôle dans la résistance à la trypanosomiase. Au préalable, l’analyse manuelle des même données n’a pas réussi à identifier ce gène comme un candidat.

  25. Succès du workflow? • Chaque donnée est systématiquement analysée • Pas besoin de filtrer les données ou émettre des hypothèses en vu de réduire le volume de données. • Enregistrement de la ‘provenance’ des données • Volume de données réduit a l’issue de l’expérience

  26. Gestion des erreurs La plupart des services web n’appartiennent pas à myGrid . Impossible donc de vérifier leur fiabilité. Taverna a plusieurs mécanismes pour y remédier: • Encourager l’utilisation des services fournis par de grands organismes come EMBL, NCBI, DDBJ … • Informer l’utilisateur lorsqu'un service ne fonctionne pas • Ré-exécuterles services • Remplacement des services

  27. Découverte des services web • Plus de 24 000 services web (seekda 03/08) • Difficile de trouver un service particulier? • Majorité des services sans descriptions • WSDL: input0:string, Output0:string • Nom des services fonction des services.e.g serachsimple, seqret On ne peut donc pas uniquement ‘Google’ les services web

  28. La solution myGrid • Découverte des services en fonction de leurs: • Noms • Fonctions • Paramètres (entrées et sorties) • Ressources utilisées • Annotation Sémantique: Annotation manuelle ou automatique des services web à partir de vocabulaires contrôlés (ontologies).

  29. Annotation des services web Ontologie bioinformatique WSDL Marquer chaque description avec des termes dans l’ontologie.

  30. Annotation des services web • Plus de 600 services dans le catalogue de myGrid . • Annotation faite par des experts en bioinformatique. • En démontrant l‘importance de l’annotation dans l’utilisation des services, myGrid vise à encourager les développeurs de services à fournir les annotations à l'avenir.

  31. Feta découverte sémantique • Feta, composant de myGrid interroge le catalogue des services web . Exemple de questions: Trouve-moi tous les services qui effectuent un alignement des séquences et acceptent pour input des séquences de protéines avec le format FASTA

  32. Interface utilisateur de Feta

  33. Provenance et Origine • Workflows peuvent générer beaucoup d’informations: • Données • Métadonnées • origine de l’expérience • Scientifiques ont besoin de revenir ou réutiliser les résultats passés, de comparer, partager les workflows avec des collègues Comment gérer de telles donnes?

  34. Le Logbook de myGrid Smart Tea • qui, quoi, ou, quand, pourquoi?, comment? • Contexte • Interprétation • Reproductibilité • Vérification • Crédibilité BioMOBY Bonnes pratiques scientifiques

  35. InterfaceutilisateurduLogbook

  36. myExperiment

  37. Motivations • Workflows = nouvelles rock and roll • “L'ère” des Services web en bioinformatiques

  38. Motivations Recyclage, Réutilisation, Réorientation des workflows

  39. Motivations Communauté scientifique distribuée et sous équipée

  40. myExperiment est… Réseau social pour le scientifique

  41. myExperiment Demo http://www.myexperiment.org

  42. La communauté de myGrid

  43. Taverna2ouT2 myGrid: nouvelledirection • Moteur workflow (enactor) totalement réécrit avec plus de points d'extensions • Adresser les problèmes de sécurité des données • Taverna sur le grid • Glisser-déposer (Drag and drop )

  44. T2: un avant-goût Les erreurs sont également des données

  45. T2: un avant-goût

  46. T2: un avant-goût Data Manager:plusieurs gestionnaires de données • Mémoire • Fichiers • Disque dur • Serveurs

More Related