1 / 48

Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004

Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004. répétitions et duplications intra-chromosomiques. Alain.Viari@inrialpes.fr. Plan. 1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis 4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques.

candid
Download Presentation

Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 répétitions et duplications intra-chromosomiques Alain.Viari@inrialpes.fr

  2. Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques

  3. Introduction -> duplications à différents niveaux

  4. niveaux de duplication dans les génomes (1) Ensemble du génome (polyploidie) Xenopus laevis: 36 chr  diploids Xenopus vestitus: 72 chr.  tetraploids Xenopus ruwenzoriensis: 108 chr.  hexaploids II X XII III VIII IV Segments de génome V Saccharomyces cerevisiae XIV • 12 Mb • 16 chromosomes • 5 800 gènes. XV XIII XVI -> 50% du génome

  5. niveaux de duplication dans les génomes (2) Satellites (mini, micro, alu) • répétitions multicopies en tandem • au niveau des centromères • 170 pb -> 7% du génome chez Cercopithecus aethiops Transposons Zea Mays 2,4 Gb 10 paires de chr > 60% de transposons

  6. niveaux de duplication dans les génomes (3) mais encore... Escherichia coli • • 4,6 Mb • 4 288 gènes • Séquences répétées : - 22 IS - 7 rDNA, 5 Rhs, 314 REP, etc. - 1 345 gènes dupliqués.

  7. Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques

  8. Repétitions dans les génomes • • nature de l’objet répété (structural, lexical) • • nature des copies (exact, approximatif) • • nombre de copies (r ≥ 2) • • aspect inattendu (taille minimale) • • aspect biologique (inter/intra espèce chromosome)

  9. Nature de l’objet répété : répétitions structurales Structures secondaires d’ARN A <-> T G <-> C exemple 2 : triple hélices picture missing... exemple 1 : tRNA pb recherche / inférence

  10. Répétitions lexicales : nombre de copies A= {A,C,G,T} répétitions lexicales nombre de copies (r = 2 ; r > 2) aspect algorithmique transitif / non transitif aspect statistique biais de comptage aspect biologique • explosion • suppression mécanismes 2 à 2

  11. Répétitions lexicales : nature de la copie aspect algorithmique exact : suffix-trees/arrays, KMR, oracle des facteurs semi-approché : KMR approché : exact + heuristique (prog. dynamique) aspect statistique exact : Karlin et al. 85 (Markov 0) -> Lmin = F(r,fi) approché : ?? répétition exacte ou approchée

  12. Répétitions lexicales : orientation de la copie répétition directe / « inverse » ATTTG CAAAT 5’ 3’ 5’ 3’ GTTTA TAAAG

  13. Répétitions lexicales : aspect biologiques Inter-espèces transfert horizontal Intra-espèce Inter-chromosomique • duplication géniques • elts mobiles Intra-espèce Intra-chromosomique

  14. Pourquoi chercher des répétitions ? • Aspect entomologique • Trace de l’évolution outil pour l’analyse de la dynamique des génomes

  15. Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques

  16. Montage expérimental copy 1 copy 2

  17. Densité de répétitions Rocha et al. MBE 99

  18. Distribution des répétitions

  19. Distribution des répétitions chez B. subtilis ARNr operons prophages (SPb et PBSX) other : ARNsb closely spaced repeats # répétitions distance entre occurences (Kb)

  20. Transfert horizontal chez B. subtilis (hypothèse) Horizontal transfert in B. subtilis (hypothesis)

  21. Inserted Elements (IE) in B. subtilis Transfert horizontal chez B. subtilis (hypothèse) • 17 elements ; 5% of the total size of genome • mean spacer size is 10.6 kb (10 kb expected) • >50% of genes in spacers does not exhibit B. subtilis codon usage • 2/3 of genes in spacers are UFO • mostly represented identified functions are : - production of antibiotics - detoxification - restriction/modification and DNA reparation - motility and transport

  22. Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques

  23. Objectif Les répétitions comme outil d’étude de la dynamique des génomes • Mouvements et évolution des génomes. • Observation directe impossible • rechercher des traces de son activité (répétitions). • Répétitions = générateur d’instabilités chromosomiques (recombinaison). Répétitions = traces et moteur de la dynamique des génomes.

  24. Un modèle (trop) simple mutations répétition récente mutations répétition ancienne duplication répétition stricte séquence unique

  25. Montage expérimental (1) -1- Répétitions maximales exactes (r=2, L≥Lmin) -> graines maximalité ... ... x a b b c y y y a b b c z difficultés avec les régions de faible complexité ... ... x a a a a y y y a a a a z -> répétitions approchées sur l’ADN heuristique

  26. Montage expérimental (2) -2- Extension des graines -> graines -3- Elimination des overlaps Alignement local (prog. dyn)

  27. Montage expérimental (résumé) Détection Lmin = 15 - 17 bp Filtre entropique & subtélomérique dans les subtélomères basse complexité CACACACA CACACACA Extension Longeur > 30 %Identité > 50% Filtre Répétitions particulières Ty, solos, ARNt, ARNr

  28. Paramètres spacer longueur % identité note : spacer > 0

  29. Résultats (1) Saccharomyces cerevisiae Répétitions inversées Répétitions directes 340 275 Génome aléatoire 25 24 Génome de la levure

  30. Spacer : distributions 50% 50% 40% 40% 30% 30% 20% 20% 10% 10% 0% 0% réel aléatoire (x 10) Répétitions inversées Répétitions directes % total % total 1bp 3bp 100bp 1kb 10kb 100kb 3.2Mb 1bp 3bp 100bp 1kb 10kb 100kb 3.2Mb spacer spacer CDR Les Close Direct Repeats (CDR) sont surreprésentés.

  31. Spacer : corrélation avec le %identité entre les copies Direct  = - 0.36p << 10-4 Inverted Les CDR présentent une corrélation négative avec le % identité

  32. Spacer : corrélation avec la longueur Direct  = + 0.26p ~ 3.10-6 Inverted Les CDR présentent une corrélation positive avec la taille

  33. Un modèle (moins) simple Autresrépétititons CDR  Longueur Identité (%)  Duplication Délétion Mutations Conversion La recombinaison est négativement corrélée à la taille du spacer.

  34. Données expérimentales (littérature) : recombinaison Recombinaison ectopiquequelconque • Positivement corrélée à la longeur • Positivement corrélée à l’identité Recombinaison intrachromosomique • Négativement corrélée au spacer pour des CDR uniquement (Bactéries)

  35. %identité et longueur : distributions % total % total 100 100 55 60 65 70 75 80 85 90 95 55 60 65 70 75 80 85 90 95 % identité % identité 40% 40% 35% 35% 80% 80% 30% 30% % total % total 25% 25% 60% 60% 20% 20% 15% 15% 40% 40% 10% 10% 20% 20% 5% 5% 0% 0% 0% 0% 30bp 100bp 1kb 4kb 30bp 100bp 1kb 4kb longueur longueur réel aléatoire Répétitions directes Répétitions inversées

  36. Un modèle (un peu plus) complet CDR Duplication Délétion Conversion Mutations Réarrangement(s) chromosomique(s) Pressions de sélection (fonction) ? CDS Conversion Mutations ? tectonique des répétitions

  37. Extension à d’autres eucaryotes Plasmodium falciparum 2 chromosomes: 2 Mb Arabidopsis thaliana 2 chromosomes: 37.2 Mb Caenorhabditis elegans 6 chromosomes: 95.2 Mb(génome complet) Drosophila melanogaster 6 bras chromosomiques : 114.4 Mb Saccharomyces cerevisiae 16 chromosomes: 12.1 Mb(génome complet) Homo sapiens 2 chromosomes: 67.3 Mb (Achaz et al., 2001)

  38. Distribution du spacer 700 35 50 600 30 40 500 25 30 400 20 300 15 20 200 10 10 100 5 0 0 0 0 0 0 0 0 0 1kb 1kb 10kb 1Mb 1Mb 10kb 10bp 10bp 1kb 1kb 100kb 1kb 1kb 100kb 100bp 1Mb 1Mb 1Mb 1Mb 100bp 10kb 10kb 10kb 10bp 10kb 10bp 10bp 10bp 10Mb 10Mb 10Mb 10Mb 100kb 100kb 100kb 100kb 100bp 100bp 100bp 100bp 100Mb 1000 1000 200 800 800 150 600 600 100 400 400 50 200 200 0 0 0 S. cerevisiae P. falciparum A. thaliana directes inversées Nombre C. elegans D. melanogaster H. sapiens Nombre

  39. Corrélations du spacer Espèces CDR Spacervs.Identité Spacervs.Longueur N De(/Mb) t p t p S. cerevisiae 60 5.0 -0.32 <10-3 0.45 <10-4 P. falciparum 100 49.8 -0.08 >0.05 0.06 >0.05 A. thaliana 889 23.9 -0.35 <10-4 0.39 <10-4 C. elegans 3,242 34.0 -0.31 <10-4 0.24 <10-4 D. melanogaster 546 4.7 -0.36 <10-4 0.41 <10-4 H. sapiens 1,042 15.5 -0.30 <10-4 0.33 <10-4

  40. Densité en bases S 1/N L D = i b i S. cerevisiae P. falciparum A. thaliana D. melanogaster H. sapiens Répétitions inversées (%du chromosome) 5 4 3 2 C. elegans 1 0 0 5 1 0 1 5 2 0 Répétitions directes (% du chromosome) Les répétitions directes sont (un peu) plus nombreuses que les inversées.

  41. Densité en évènements S. cerevisiae P. falciparum A. thaliana D. melanogaster H. sapiens n/N D = e Répétitions inversées (/Mb) 5 0 4 0 3 0 2 0 C. elegans 1 0 0 0 2 0 4 0 6 0 8 0 1 0 0 Répétitions directes (/Mb) Les chromosomes de la même espèce présentent une De similaire -> propriété nucléaire globale ?

  42. Conclusion CDR Duplication Délétion Conversion Mutations Réarrangement(s) chromosomique(s) Pressions de sélection (fonction) ? CDS Conversion Mutations ? • eucaryotes • idem procaryotes (50 génomes) les répétitions comme outil d’étude de la dynamique des génomes

  43. Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques

  44. Un problème algorithmique (classique) N A pb: trouver toutes les r-répétions (exactes) de la plus grande taille Suffix-tree KMR(*) Oracle des facteurs (**) time O(N) O(NlogN) O(N) O(N) O(N) O(N) space 12N 8N 10N (* Karp-Miller-Rosenberg) (** heuristique)

  45. En pratique... 5% ? pb pratique: trouver toutes les 2-répétions maximales de tailles ≥ Lmin note: en utilisation pratique Lmin est tel que n2 << N

  46. Vers des très grandes séquences Principe de KMR a a R relation d’équivalence sur l’ensemble des indices a i j Lemme a a i R j <=> i R j et i+b R j+b ; a ≥ b ≥ 1 a+b a a i j a b a b Algo (raffinement de partition) P1 -> P2 -> P4 -> P8 -> P16 .... time: O(NlogN) space: O(N) < 1N 8N 4N

  47. Remerciements Guillaume ACHAZ Frédéric BOYER Eric COISSAC Eduardo ROCHA Pierre NETTER

More Related