Bases de donn es
This presentation is the property of its rightful owner.
Sponsored Links
1 / 22

Bases de données PowerPoint PPT Presentation


  • 48 Views
  • Uploaded on
  • Presentation posted in: General

Bases de données. Applications en biologie. Explosion des données. Croissance de Genbank. Nombreux Domaines d’application. http://www.infobiogen.fr/deambulum/index.php. Types de données. Les séquences GENBANK, methDb (DNA methylation database) , Human SNP Database

Download Presentation

Bases de données

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Bases de donn es

Bases de données

Applications en biologie


Explosion des donn es

Explosion des données

Croissance de Genbank

Hervé PHILIPPE – BIN1001


Nombreux domaines d application

Nombreux Domaines d’application

http://www.infobiogen.fr/deambulum/index.php

Hervé PHILIPPE – BIN1001


Types de donn es

Types de données

  • Les séquences

    • GENBANK, methDb (DNA methylation database), Human SNP Database

  • Les données cartographiques

    • GENATLAS

  • Les données structurales

    • NDB (Nucleic Acids Database), PDB (Proteins Database)

  • Les données d'expression

    • KEGG (Kyoto Encyclopedia of Genes and Genomes)

  • Les données génomiques

    • GNN (Genome News Network), ENSEMBL

  • Les données fonctionnelles

    • KEGG , UM-BBD (The University of Minnesota Biocatalysis/Biodegradation Database)

Hervé PHILIPPE – BIN1001


Enjeux des bases de donn es

Enjeux des bases de données

  • Diffusion des connaissances :

    • rapidité d’accès à l’information

    • facilité d’interrogation

    • mise à jour régulière

  • Gestion de l’explosion des entrées

  • Gestion de l’hétérogénéité des données

  • Réponse à des besoins très divers

Hervé PHILIPPE – BIN1001


Toujours plus de diffusion

Toujours plus de diffusion

1968

  • Atlas of Protein Sequences (Dayhoff)

    • mise à jour annuelle – 50 protéines

  • bandes magnétiques sur abonnement

  • CD sur abonnement

    • EMBL, genbank

  • serveurs FTP → bases de données locales

  • sites web

    • mise à jour quotidienne – plusieurs millions de séquences

  • ≈1970

    ≈1980

    ≈1990

    ≈2000

    2005

    Hervé PHILIPPE – BIN1001


    Faiblesses des banques g n ralistes

    Faiblesses des banques généralistes

    • Hétérogénéité dans la nature des séquences

      • ADN nucléaire ou mitochondrial, ARN (t, r, m, ….), génome

  • Variabilité de l’état des connaissances

    • caractérisation biologique beaucoup plus lente que le séquençage

  • Erreurs dans les séquences

    • origine du fragment

    • liées à la technologie : séquençage des extrémités difficile

    • liées à la méthodologie : 3% d’erreur lors du séquençage des EST

  • Biais d’échantillonnage

    • des espèces

    • des gènes

    • redondance des données

  • → création de banques spécialisées

    Hervé PHILIPPE – BIN1001


    Int gration des donn es

    Intégration des données

    • données hétérogènes

      • interopérabilité : exploitation conjointe de différentes bases pour un besoin unique

      • représentation unifiée des données

      • détection de nouvelles corrélations

    • environnement informatique homogène

      • définition d’ontologies

      • thésaurus de nommage

      • interface répondant à une diversité de besoins

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    • créée en 1988

      • 1982 : Genbank

    • faciliter l’utilisation des bases de données et des logiciels

    • accès unique à des données diverses

      • séquences

      • génomes

      • structures

    Hervé PHILIPPE – BIN1001


    Int gration des donn es1

    Intégration des données

    • Formats standards de sauvegarde

      • FASTA, NEXUS, PUZZLE …

  • Interrogation multi-bases

    • DBGET

      • EMBL, Genbank, Swissprot, PIR, PRF, LITDB, PDB, PDBSTR, EPD, Prosite, Ligand, PMD, AA-Index, OMIM

    • Entrez

      • Medline, GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB

  • Hervé PHILIPPE – BIN1001


    Bases de donn es

    • créée en 1971

    • depuis 1998, gérée par le RCSB, Research Collaboratory for Structural Bioinformatics

    • base de données unifiée pour collecter et distribuer TOUTES les informations ayant trait à la structure tertiaire des protéines et des acides nucléiques

    • ≈ 30 000 structures

    • 2004 (par mois) :

      • 5 000 000 de fichiers téléchargés

      • 400 structures déposées

    Hervé PHILIPPE – BIN1001


    Gpgrdb

    GPGRDB

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    « CSI » Auckland : une base de données pour la conservation et l’identification des espèces de Cétacés par analyses ADN

    http://www.dna-surveillance.auckland.ac.nz/

    Ross, H. A., G. M. Lento, M. L. Dalebout, M. Goode, G. Ewing, P. McLaren, A. G. Rodrigo, S. Lavery, and C. S. Baker.(2003) DNA Surveillance: Web-based molecular identification of whales, dolphins and porpoises. J. Hered. 94: 111-114.

    Baker, C. S., M. L. Dalebout, S. Lavery, and H. A. Ross. (2003) www.DNA-surveillance: appliedmolecular taxonomy for species conservation and discovery. Trends Ecol. Evol.18: 271-272.

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    Origines et buts

    Origine : Identification des espèces de Cétacés chassées illégalement par l’analyse ADN d’échantillons achetés sur les marchés Coréens et Japonais

    Baker CS, Palumbi S (1994). Which whales are hunted - A molecular genetic approach to monitoring whaling. Science265: 1538-1539.

    Buts : Fournir une base de données de séquences d’ADN de référence afin d’identifier formellement les espèces de Cétacés à des fins taxonomiques et de conservation

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    Principe

    Échantillons « biologiques »

    Séquençage d’ADN (ex. gène du Cytochrome b)

    >inconnu cytb

    ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT

    Comparaison à la base de données de séquences de références

    obtenues à partir de spécimens formellement identifiés

    par construction d’un arbre phylogénétique

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    Exemple d’applications

    Découverte d’une nouvelle espèce de baleine à bec (Ziphiidae)

    à partir de l’analyse ADN de spécimens échoués

    Mesoplodon perrini

    >inconnu cytb

    ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT

    Dalebout ML, Mead JG, Baker CS, Baker AN & van Helden AL (2002). A new species of beakedwhale Mesoplodon perrini sp. n. (Cetacea: Ziphiidae) discovered through phylogenetic analyses of mitochondrial DNA sequences. Marine Mammal Science 18: 577-608.

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    « Barcoding Life » : une base de données pour inventorier la biodiversité par le séquençage de gènes « Code-barres »

    http://www.barcodinglife.org/

    Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes. Proc R Soc Lond BS 270:313-321.

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    Origines et buts

    Idée Originale : Utiliserla séquence d’un gène ubiquiste comme « code-barre » afin d’inventorier la diversité biologique par son séquençage chez toutes les espèces vivantes

    Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes.Proc R Soc Lond BS 270:313-321.

    Buts : Fournir une base de données permettant d’identifier chaque espèce animale par la séquence d’environ 600 nucléotides du gène mitochondrial de la Cytochrome Oxydase I et d’informations associées

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    Contenu de la base de données

    Hervé PHILIPPE – BIN1001


    Bases de donn es

    Exemple d’application

    Distinction de 10 espèces différentes correspondant à la spécialisation

    alimentaire des chenilles d’un papillon tropical (Astraptes fulgerator)

    Hebert PD, Penton EH, Burns JM, Janzen DH, Hallwachs W (2004). Ten species in one: DNA barcoding reveals cryptic species in the neotropical skipper butterfly Astraptes fulgerator.Proc Natl Acad Sci USA101:14812-14817.

    Hervé PHILIPPE – BIN1001


    Quelques exemples

    Quelques exemples

    Hervé PHILIPPE – BIN1001


    Gpcrdb

    GPCRDB

    Hervé PHILIPPE – BIN1001


  • Login