1 / 41

Bases de données en biologie (suite)

Bases de données en biologie (suite). G. Almouzni (I. Curie). Plan du cours (1). Bases de données en biologie. Historique. BD séquences généralistes. - séquences nucléotidiques - séquences protéiques. Rappels de BIO. BD spécialisées - par organisme

marge
Download Presentation

Bases de données en biologie (suite)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bases de données en biologie (suite) G. Almouzni (I. Curie)

  2. Plan du cours (1) • Bases de données en biologie • Historique • BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO • BD spécialisées • - par organisme • - par thématique (problématique bio) • BD bibliographiques Violaine Pillet + Extraction d ’information à partir de textes • Des basesde données aux bases de connaissances

  3. Banques de séquences généralistes Séquences protéiques • données expérimentales • isolation, séquençage • données in silico • déduction à partir de la séquence nucléique par simple traduction Banques de séquences protéiques • PIR-NBRF • Swissprot

  4. PIR-NBRF • création 1984 NBRF (National Biomedical Research Foundation) • données MIPS (Martinsried Institute for Protein Sequences, Munich) JIPID (Japan International Protein Information Database)

  5. http://pir.georgetown.edu/

  6. Swissprot • création 1986 Amos Bairoch SIB: Swiss Institute of Bioinformatics Université de Genève Collaboration : SIB + EBI • données Séquences banque PIR-NBRF Séquences banque EMBL (traduction) Chaque entrée de la base a été expertisée par un annotateur

  7. www.expasy.org/sprot/

  8. Plan du cours • Bases de données en biologie • Historique • BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO • BD spécialisées • - par organisme • - par thématique (problématique bio) • Des basesde données aux bases de connaissances

  9. Des banques aux bases de séquences (1) Forte croissance + hétérogénéité des séquences des banques généralistes  constitution de bases de données • par thématique • par organisme  espace de connaissances de références

  10. Des banques aux bases de séquences (2) • bases de séquences dédiées • à un organisme • à des objets biologiques communs à plusieurs organismes • travail important • correction des erreurs • élimination des doublons • annotations

  11. Bases de séquences spécialisées

  12. Génomes procaryotes

  13. Mais les données ne se limitent pas aux séquences...

  14. BD biologie moléculaire

  15. Données structurales : PDB

  16. Navigation dans les bases

  17. Plan du cours • Bases de données en biologie • Historique • BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO • BD spécialisées • - par organisme • - par thématique (problématique bio) • Des basesde données aux bases de connaissances

  18. Une multiplicité de bases de données hétérogènes • > 1000 BDs • Ces BDs sont conçues pour répondre à des objectifs différents. • Même si leurs contenues se recouvrent, leurs schémas conceptuels peuvent différer Schéma conceptuel = modèle dont la conception est pilotée par les questions qu’il doit permettre d’aborder • Illusoire de penser construire un jour “ le ” système d’informations biologiques universel  •  pluralité des problématiques  pluralité des bases de données Mais, conséquences pratiques facheuses...

  19. Une multiplicité de BDs hétérogènes : conséquences (1) Recherche d ’informations Interroger plusieurs bases Relier entre elles les données extraites = Intégrer les données merci Internet Analyse d ’un petit nombre de séquences Démarche fastidieuse Analyse de résultats à grande échelle (génome, protéome, transcriptome,…) Démarche inenvisageable

  20. Une multiplicité de BDs hétérogènes : conséquences (2) • Problème technique : Diversité des modèles et des formats des bases concernées. • Cas favorable : s’adapter au modèle de chacune des bases. • Cas moins favorable (mais plus fréquent) : les dites “ bases de données ” sont constituées de simples fichiers munis d’un langage d’interrogation et de manipulation ad hoc. •  Activité majeure des bioinformaticiens: Ecriture de scripts de lecture et de reformatage de données Pour formuler de bonnes requêtes : Connaître la structure et le schéma conceptuel des bases Souvent: schéma indisponible, inexistant,… Pb :connaître le nom d ’un champ ou d ’un enregistrement est insuffisant

  21. Une multiplicité de BDs hétérogènes Volume de données : non limitant Problème majeur: HETEROGENEITE des données ( nature, formats) INTEGRATION Comment intégrer ces données biologiques, hétérogènes et distribuées, afin qu’elles soient accessibles et exploitables aussi facilement que si elles figuraient dans une seule et même base ?

  22. Approche fédérative 1 • = ajouter, au-dessus des bases existantes, une couche logicielle • offre les interfaces nécessaires entre les bases • fait apparaître l’ensemble comme une seule base virtuelle (+) assure d’accéder à tout instant à des données qui sont à jour Entrepôts de données (data warehousing) 2 = restructurer les données au sein d ’un schéma unique les données des différentes bases concernées sont copiées de leurs bases d’origine (+) temps de traitement des requêtes (-) mises à jours Intégration de données hétérogènes 2 grandes catégories de solutions Résoudre les problèmes d ’incompatibilité syntaxique et sémantique

  23. SRS - Sequence Retrieval System 1 Rajouter l ’URL

  24. SRS - Sequence Retrieval System 1 SRS permet d ’accéder à différentes BDs via une interface unique Exemple: ExPASy: SWISS-PROT, TrEMBL (SPTR)

  25. ENTREZ ENTREZ (NCBI) 1

  26. Entrepôt de données 2 = restructurer les données au sein d ’un schéma unique Mise en correspondance des entités modélisées dans différents schémas conceptuels Rappel: la seule connaissance des noms est insuffisante schéma conceptuel accessible et correctement documenté Cependant, dans un schéma conceptuel, description minimale des entités (traitement des requêtes, administration de la base) Parfois, description sous forme de textes dans la documentation associée  Expliciter et formaliser les entités manipulées

  27. Des bases de données aux bases de connaissances... Représentation de connaissances François Rechenmann Danielle Ziébelin : AROM

  28. Des bases de données aux bases de connaissances • Modéliser plus finement les classes d’entités, ainsi que les relations qu’elles entretiennent • non plus seulement à des fins de requêtes et de gestion • mais pour expliciter formellement leurs définitions bases de données  base de connaissances Ontologie : formalisation des concepts d’un domaine et des relations qu’ils entretiennent Une ontologie n’est pas réductible à la constitution d’un vocabulaire En pratique, le schéma d’une base de connaissance correspond = mise en œuvre de l’ontologie retenue

  29. Bases de connaissances Les modèles de connaissances offrent une capacité d ’expression permettant d’aborder la représentation de données plus complexes que celles qui apparaissent traditionnellement dans les bases Champs texte (langage naturel) Lisible et interprétable par un humain Exploitation automatique très délicate Ex: champ fonction

  30. • Syntactic Annotation Feature detection by content • CDSs, RNAs • Regulation signals • Repeats... etc Objects • Functional Annotation « function » attribution Seq • • Sequence similarity • gene products • operator families • • Relational / Context Annotation ? Genome annotation DNA sequence

  31. relation • Comparative genomics • Genetic networks • Molecular assemblies ABC tranporters Fichant et al. • Metabolic pathways Relational Annotation

  32. Chromosome A compounds (e.g. sugar...) gene EC enzyme molecularassembly polypeptide biochemical reactions Panoramix KBs EC Proteix EC EC Chromosome B Genomix Metabolix

  33. Fini pour aujourd’hui...

  34. ENTREZ - BLAST

  35. Les limites des bases de séquences... Hétérogénéité dans la nature des séquences Variabilité de l ’état des connaissances sur les séquences Erreurs dans les séquences Biais d ’échantillonage A voir ???

  36. BDs: ATTENTION ! • Databases: nombreuses erreurs (annotation automatique) ! • Toutes les BDs ne sont pas disponibles sur tous les serveurs • Problème de synchronisation des mises à jour • Références croisées • Compatibilité syntaxique • Format • Compatibilité sémantique • Biologiste + bio-informaticien

  37. Prolifération de BDs Recherche de la BD idéale • Analyse de séquences • Données de bonne qualité • Complète, détaillée • Remise à jour • Peu redondante • Indexée pour pouvoir poser des requêtes compliquées • Quel site répond le plus rapidement • …….??????

More Related