bases de donn es
Download
Skip this Video
Download Presentation
Bases de données

Loading in 2 Seconds...

play fullscreen
1 / 22

Bases de donn es - PowerPoint PPT Presentation


  • 87 Views
  • Uploaded on

Bases de données. Applications en biologie. Explosion des données. Croissance de Genbank. Nombreux Domaines d’application. http://www.infobiogen.fr/deambulum/index.php. Types de données. Les séquences GENBANK, methDb (DNA methylation database) , Human SNP Database

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Bases de donn es' - solada


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
bases de donn es

Bases de données

Applications en biologie

explosion des donn es
Explosion des données

Croissance de Genbank

Hervé PHILIPPE – BIN1001

nombreux domaines d application
Nombreux Domaines d’application

http://www.infobiogen.fr/deambulum/index.php

Hervé PHILIPPE – BIN1001

types de donn es
Types de données
  • Les séquences
    • GENBANK, methDb (DNA methylation database), Human SNP Database
  • Les données cartographiques
    • GENATLAS
  • Les données structurales
    • NDB (Nucleic Acids Database), PDB (Proteins Database)
  • Les données d\'expression
    • KEGG (Kyoto Encyclopedia of Genes and Genomes)
  • Les données génomiques
    • GNN (Genome News Network), ENSEMBL
  • Les données fonctionnelles
    • KEGG , UM-BBD (The University of Minnesota Biocatalysis/Biodegradation Database)

Hervé PHILIPPE – BIN1001

enjeux des bases de donn es
Enjeux des bases de données
  • Diffusion des connaissances :
    • rapidité d’accès à l’information
    • facilité d’interrogation
    • mise à jour régulière
  • Gestion de l’explosion des entrées
  • Gestion de l’hétérogénéité des données
  • Réponse à des besoins très divers

Hervé PHILIPPE – BIN1001

toujours plus de diffusion
Toujours plus de diffusion

1968

  • Atlas of Protein Sequences (Dayhoff)
      • mise à jour annuelle – 50 protéines
  • bandes magnétiques sur abonnement
  • CD sur abonnement
      • EMBL, genbank
  • serveurs FTP → bases de données locales
  • sites web
      • mise à jour quotidienne – plusieurs millions de séquences

≈1970

≈1980

≈1990

≈2000

2005

Hervé PHILIPPE – BIN1001

faiblesses des banques g n ralistes
Faiblesses des banques généralistes
  • Hétérogénéité dans la nature des séquences
      • ADN nucléaire ou mitochondrial, ARN (t, r, m, ….), génome
  • Variabilité de l’état des connaissances
      • caractérisation biologique beaucoup plus lente que le séquençage
  • Erreurs dans les séquences
      • origine du fragment
      • liées à la technologie : séquençage des extrémités difficile
      • liées à la méthodologie : 3% d’erreur lors du séquençage des EST
  • Biais d’échantillonnage
      • des espèces
      • des gènes
      • redondance des données

→ création de banques spécialisées

Hervé PHILIPPE – BIN1001

int gration des donn es
Intégration des données
  • données hétérogènes
    • interopérabilité : exploitation conjointe de différentes bases pour un besoin unique
    • représentation unifiée des données
    • détection de nouvelles corrélations
  • environnement informatique homogène
    • définition d’ontologies
    • thésaurus de nommage
    • interface répondant à une diversité de besoins

Hervé PHILIPPE – BIN1001

slide9
créée en 1988
    • 1982 : Genbank
  • faciliter l’utilisation des bases de données et des logiciels
  • accès unique à des données diverses
    • séquences
    • génomes
    • structures

Hervé PHILIPPE – BIN1001

int gration des donn es1
Intégration des données
  • Formats standards de sauvegarde
      • FASTA, NEXUS, PUZZLE …
  • Interrogation multi-bases
    • DBGET
      • EMBL, Genbank, Swissprot, PIR, PRF, LITDB, PDB, PDBSTR, EPD, Prosite, Ligand, PMD, AA-Index, OMIM
    • Entrez
      • Medline, GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB

Hervé PHILIPPE – BIN1001

slide11
créée en 1971
  • depuis 1998, gérée par le RCSB, Research Collaboratory for Structural Bioinformatics
  • base de données unifiée pour collecter et distribuer TOUTES les informations ayant trait à la structure tertiaire des protéines et des acides nucléiques
  • ≈ 30 000 structures
  • 2004 (par mois) :
    • 5 000 000 de fichiers téléchargés
    • 400 structures déposées

Hervé PHILIPPE – BIN1001

gpgrdb
GPGRDB

Hervé PHILIPPE – BIN1001

slide13

« CSI » Auckland : une base de données pour la conservation et l’identification des espèces de Cétacés par analyses ADN

http://www.dna-surveillance.auckland.ac.nz/

Ross, H. A., G. M. Lento, M. L. Dalebout, M. Goode, G. Ewing, P. McLaren, A. G. Rodrigo, S. Lavery, and C. S. Baker.(2003) DNA Surveillance: Web-based molecular identification of whales, dolphins and porpoises. J. Hered. 94: 111-114.

Baker, C. S., M. L. Dalebout, S. Lavery, and H. A. Ross. (2003) www.DNA-surveillance: appliedmolecular taxonomy for species conservation and discovery. Trends Ecol. Evol.18: 271-272.

Hervé PHILIPPE – BIN1001

slide14

Origines et buts

Origine : Identification des espèces de Cétacés chassées illégalement par l’analyse ADN d’échantillons achetés sur les marchés Coréens et Japonais

Baker CS, Palumbi S (1994). Which whales are hunted - A molecular genetic approach to monitoring whaling. Science265: 1538-1539.

Buts : Fournir une base de données de séquences d’ADN de référence afin d’identifier formellement les espèces de Cétacés à des fins taxonomiques et de conservation

Hervé PHILIPPE – BIN1001

slide15

Principe

Échantillons « biologiques »

Séquençage d’ADN (ex. gène du Cytochrome b)

>inconnu cytb

ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT

Comparaison à la base de données de séquences de références

obtenues à partir de spécimens formellement identifiés

par construction d’un arbre phylogénétique

Hervé PHILIPPE – BIN1001

slide16

Exemple d’applications

Découverte d’une nouvelle espèce de baleine à bec (Ziphiidae)

à partir de l’analyse ADN de spécimens échoués

Mesoplodon perrini

>inconnu cytb

ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT

Dalebout ML, Mead JG, Baker CS, Baker AN & van Helden AL (2002). A new species of beakedwhale Mesoplodon perrini sp. n. (Cetacea: Ziphiidae) discovered through phylogenetic analyses of mitochondrial DNA sequences. Marine Mammal Science 18: 577-608.

Hervé PHILIPPE – BIN1001

slide17

« Barcoding Life » : une base de données pour inventorier la biodiversité par le séquençage de gènes « Code-barres »

http://www.barcodinglife.org/

Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes. Proc R Soc Lond BS 270:313-321.

Hervé PHILIPPE – BIN1001

slide18

Origines et buts

Idée Originale : Utiliserla séquence d’un gène ubiquiste comme « code-barre » afin d’inventorier la diversité biologique par son séquençage chez toutes les espèces vivantes

Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes.Proc R Soc Lond BS 270:313-321.

Buts : Fournir une base de données permettant d’identifier chaque espèce animale par la séquence d’environ 600 nucléotides du gène mitochondrial de la Cytochrome Oxydase I et d’informations associées

Hervé PHILIPPE – BIN1001

slide19

Contenu de la base de données

Hervé PHILIPPE – BIN1001

slide20

Exemple d’application

Distinction de 10 espèces différentes correspondant à la spécialisation

alimentaire des chenilles d’un papillon tropical (Astraptes fulgerator)

Hebert PD, Penton EH, Burns JM, Janzen DH, Hallwachs W (2004). Ten species in one: DNA barcoding reveals cryptic species in the neotropical skipper butterfly Astraptes fulgerator.Proc Natl Acad Sci USA101:14812-14817.

Hervé PHILIPPE – BIN1001

quelques exemples
Quelques exemples

Hervé PHILIPPE – BIN1001

gpcrdb
GPCRDB

Hervé PHILIPPE – BIN1001

ad