1 / 36

IFT3295 Démonstration

IFT3295 Démonstration. 16 novembre 2011 Arbres des suffixes. Plan. Applications des arbres des suffixes Reconnaissance de sites de restriction Alignement de génomes complets. Enzymes de restriction. Les enzymes sont des protéines qui catalysent des réactions chimiques dans les cellules

beck-patel
Download Presentation

IFT3295 Démonstration

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. IFT3295Démonstration 16 novembre 2011 Arbres des suffixes

  2. Plan • Applications des arbres des suffixes • Reconnaissance de sites de restriction • Alignement de génomes complets

  3. Enzymes de restriction • Les enzymes sont des protéines qui catalysent des réactions chimiques dans les cellules • Certaines molécules d'ARN peuvent aussi catalyser des réactions chimiques (ribozymes) • Presque toutes les réactions chimiques se produisant dans les cellules ont besoin d'enzymes pour atteindre une vitesse nécessaire à la survie

  4. Enzymes de restriction • Les enzymes de restriction, ou endonucléases de restriction, permettent de couper des molécules double brin d'ADN • Chaque enzyme de restriction coupe l'ADN à un site spécifique (site de restriction) • Deux coupures sont faites par l'enzyme, c'est-à-dire une sur chaque brin (pas nécessairement au même endroit)

  5. Enzymes de restriction • On retrouve des enzymes de restriction chez les bactéries • Elles jouent un rôle dans la défense des bactéries contre les virus  elles permettent de couper l'ADN étranger • L'ADN de la bactérie est méthylé afin de la protéger de l'action de ses propres enzymes de restriction

  6. Enzymes de restriction • Exemples : EcoRI BamHI GAATTC CTTAAG GGATCC CCTAGG SmaI HindIII CCCGGG GGGCCC AAGCTT TTCGAA

  7. Enzymes de restriction • Exemples : EcoRI Extrémités cohésives BamHI GAATTC CTTAAG GGATCC CCTAGG SmaI HindIII CCCGGG GGGCCC AAGCTT TTCGAA Extrémités franches

  8. Enzymes de restriction • Les enzymes de restriction sont des outils utilisés abondamment en biochimie • clonage de gènes • production de protéines recombinantes • clivage d'ADN avant de faire une électrophorèse sur gel • reconnaissance de SNPs

  9. Enzymes de restriction • Les enzymes de restriction sont des outils utilisés abondamment en biochimie • clonage de gènes • production de protéines recombinantes • clivage d'ADN avant de faire une électrophorèse sur gel • reconnaissance de SNPs

  10. Enzymes de restriction • Production de protéines recombinantes : • Les protéines recombinantes sont des protéines produites à partir d'ADN recombinant, c'est-à-dire de l'ADN qui est une combinaison de séquences provenant de différentes sources • Puisque l'ADN de toutes les espèces possèdent les même propriétés chimiques, il est possible de créer de l'ADN recombinant en utilisant les enzymes de restriction

  11. Enzymes de restriction • Production de protéines recombinantes : • Les extrémités cohésives de molécules d'ADN clivées par des enzymes de restriction peuvent être "recollées" avec n'importe quelle autre molécule clivée par la même enzyme • On va souvent utiliser des bactéries comme usines de production de protéines recombinantes • Les bactéries possèdent des chromosomes circulaires appelés "plasmides"

  12. Enzymes de restriction • Production de protéines recombinantes : plasmide

  13. Enzymes de restriction • Production de protéines recombinantes : plasmide

  14. Enzymes de restriction • Production de protéines recombinantes : plasmide

  15. Enzymes de restriction • Production de protéines recombinantes : gène étranger plasmide

  16. Enzymes de restriction • Production de protéines recombinantes : • Un bon exemple est celui de la production d'insuline pour traiter le diabète • Pendant longtemps, l'insuline était recueilli à partir de pancréas de porcs ou de bovins • Il est maintenant produit dans des bactéries (E. coli) ou des levures et prochainement dans des plantes

  17. Enzymes de restriction • Les sites de restriction forment des palindromes complémentaires BamHI GGA TCC GGATCC CCTAGG

  18. Enzymes de restriction • Les sites de restriction forment des palindromes complémentaires BamHI GGA TCC GGATCC CCTAGG complément inverse GGA

  19. Enzymes de restriction • Les sites de restriction forment des palindromes complémentaires • Les palindromes complémentaires sont de longueur paire BamHI GGA TCC GGATCC CCTAGG complément inverse GGA

  20. Reconnaissance de sites de restriction • Le problème revient à identifier tous les palindromes complémentaires maximaux (puisque les autres palindromes seront contenus à l'intérieur) • Une sous-séquence s[i..j] d'une séquence s de longueur n est un palindrome complémentaire maximal si • s[i..j] est un palindrome complémentaire et • s[i-1] n'est pas complémentaire à s[j+1] OU si i = 1 et j = n

  21. Reconnaissance de sites de restriction • Soit 2k, la longueur d'un palindrome, k est le rayon du palindrome • Le centre du palindrome se situe entre les positions k et k+1 du palindrome • Le nombre de centres possibles dans une séquence de taille n est égal à n-1 (équivalent au nombre total de palindromes maximaux possibles)

  22. Reconnaissance de sites de restriction • Tous les palindromes complémentaires maximaux peuvent être identifiés dans une séquence d'ADN en temps linéaire en utilisant un arbre des suffixes généralisé

  23. Reconnaissance de sites de restriction • Soit la séquence s et sr, la séquence complément inverse de s • On construit un arbre des suffixes généralisé pour les séquences s et sr • Prétraitement de l'arbre pour enregistrer les profondeurs de "strings" et pour trouver les lca en temps constant

  24. Reconnaissance de sites de restriction • Le rayon du palindrome complémentaire maximal centré entre s[i] et s[i+1] est donnée par la longueur du plus long préfixe entre suffi+1 de s et suffn-i+1 de sr • Ceci équivaut à la longueur de string du nœud lca((s, i+1), (sr, n-i+1)), qui peut être calculée en temps constant grâce au prétraitement

  25. Reconnaissance de sites de restriction • Tous les palindromes complémentaires maximaux sont identifiés en temps linéaire en regardant tous les centres possibles

  26. Reconnaissance de sites de restriction • s = TAGAGCTCA, sr = TGAGCTCTA S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

  27. Reconnaissance de sites de restriction • s = TAGAGCTCA, sr = TGAGCTCTA • Pour i = 5, lca((s, 6), (sr, 5)) = v S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

  28. Reconnaissance de sites de restriction • s = TAGAGCTCA, sr = TGAGCTCTA • Pour i = 5, lca((s, 6), (sr, 5)) = v S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

  29. Alignement de génomes complets • Aligner des séquences complètes de génomes est intéressant pour identifier les régions conservées entre différentes espèces • Étant donné que les séquences complètes sont très grandes, des algorithmes efficaces doivent exister pour réaliser un alignement global rapidement

  30. Alignement de génomes complets • Le logiciel MUMmer utilise une approche basée sur les arbres des suffixes pour aligner des génomes complets • MUMmer identifie d'abord les MUMs (maximal unique matches)

  31. Alignement de génomes complets • Un MUM entre deux séquences s1 et s2 est une paire de sous-séquences sans mismatch s1[i..i+k] = s2[i'..i'+k] qui ne peut pas être allongée dans aucune direction • De plus, chaque MUM doit être unique, c'est-à-dire qu'il doit se retrouver une seule fois dans s1 et dans s2

  32. Alignement de génomes complets • L'idée est qu'un long MUM fait probablement partie de l'alignement optimal des deux séquences • Étapes de MUMmer : 1) Identification de tous les MUMs 2) Identification des plus longues séquences de MUMs qui se retrouvent dans le même ordre dans les deux séquences 3) Alignement des régions entre ces MUMs

  33. Alignement de génomes complets • Un arbre des suffixes généralisé contenant les deux séquences complètes est utilisé pour identifier les MUMs

  34. Alignement de génomes complets • Lcp(suffi1, suffi'2) est un MUM s'il est unique dans les deux séquences et que s1[i-1] != s2[i'-1] • Soit v, le nœud interne dont le chemin correspond à Lcp(suffi1, suffi'2) • Le MUM est unique si v ne possède que 2 fils (un dans chaque séquence) • Tous les nœuds internes correspondant à des MUMs sont identifiés par un parcours de l'arbre

  35. Alignement de génomes complets • s1 = GATCG$1 et s2 = CTTCG$2 S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

  36. Alignement de génomes complets • s1 = GATCG$1 et s2 = CTTCG$2 S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

More Related