300 likes | 598 Views
Φυλογενετικά δέντρα. Φυλογενετική ανάλυση, γιατί ;. έχω οικογένεια πρωτεϊνών/ή α/α Πως προέκυψε εξελικτικά ; Οι ακολουθίες τοποθετούνται στο χαμηλότερο επίπεδο του δέντρου Οι εσωτερικοί κόμβοι απεικονίζουν το βαθμό συσχέτισης των ακολουθιών
E N D
Φυλογενετική ανάλυση, γιατί; • έχω οικογένεια πρωτεϊνών/ή α/α • Πως προέκυψε εξελικτικά; • Οι ακολουθίες τοποθετούνται στο χαμηλότερο επίπεδο του δέντρου • Οι εσωτερικοί κόμβοι απεικονίζουν το βαθμό συσχέτισης των ακολουθιών • Δύο σχετιζόμενες ακολουθίες θα βρίσκονται σε κοντινά κλαδιά • Φυλογενετική ανάλυση εύρεση κατασκευή του δένδρου & εύρεση βαρών συσχετίσεων
Φυλογενετική ανάλυση, πωςχρησιμοποιείται • σε οικογένεια γονιδίων, ποια έχουν παρόμοια δράση; • Στη συνέχεια ελέγχονται με πειραματικές μεθόδους. • Χρήση για παρακολούθηση αλλαγών σε ένα είδος που αλλάζει ταχύτατα (π.χ. Ιος) • Εφαρμογή στην επιδημιολογία • Μεγάλη συνάφεια με μεθόδους ευθυγράμμισης ακολουθιών
Σχέση γονιδιώματος και φυλογενετική πρόβλεψη • Το γονιδίωμα προέρχεται • Από κάθετη μεταφορά γενετικού υλικού (αναμένεται) • Οριζόντια μεταφορά μεταξύ ειδών (λόγω ιού, συμβίωσης κτλ.) • Αρχική υπόθεση (Woese, 1987) • Με tRNA • Αρχικά η ζωή διαιρέθηκε στα • Αρχαία, Βακτήρια, Ευκαριωτικούς οργανισμούς • Νεώτερες έρευνες δίνουν πολυπλοκότερα δέντρα
Μέθοδοι φυλογενετικής πρόβλεψης • Κάθε μέθοδος εισάγει σφάλματα • Πρέπει να γνωρίζουμε τις προϋποθέσεις κάθε μεθόδου • Πηγές προβλημάτων: • Διαφορετικός ρυθμός μεταβολής στις ακολουθίες • Ανάλυση μακρινών (εξελικτικά) ακολουθιών • Gene duplication: δημιουργία δύο πανομοιότυπων αντιγράφων • Τα αντίγραφα έχουν διαφορετική εξελικτική πορεία
Sequence A Sequence B Sequence C Sequence D Το φυλογενετικό δέντρο • Γράφος • Εξελικτική σχέση μεταξύ οργανισμών • Σχέση γονιδίων μεταξύ διαφορετικών οργανισμών. • A/B κόμβος ισαπέχει από Α και Β ίδιος ρυθμός μετάλλαξης • Μετά από κάθε κόμβο η εξέλιξη είναι ανεξάρτητη • Δεν είναι γνωστός ο χρόνος για τον πρόγονο, μόνο ο αριθμός μεταλλάξεων
Βάσει απόστασης (phenetic approach) Ιεραρχική ομαδοποίηση (hierarchical clustering) Βάσειεξελικτικού μοντέλου (cladistic approach) Maximum parsimony (μέγιστης συντήρησης) Maximum likelihood (μέγιστη πιθανοφάνεια) Τρόποι κατασκευής φυλογενετικών δέντρων
Ιεραρχική ομαδοποίηση, παράδειγμαα΄ • Έστω οι ακολουθίες ATCC, ΑTGC, TTGC και ΤCGG • Λαμβάνουμε τις αποστάσεις για την κατασκευή δέντρου • Αρχικά πίνακας αποστάσεων:
Ιεραρχική ομαδοποίηση, παράδειγμαβ΄ • Οι κοντινότερες είναι οι {ATCC, ATGC}. ATCC ATGC • Ο Πίνακας γειτνίασης γίνεται Κοντινότερες (TCGG, TTCG)
Ιεραρχική ομαδοποίηση, παράδειγμαγ΄ Ενώνουμε τα δύο εναπομείναντα clusters
Ιεραρχική ομαδοποίηση, παράδειγμαγ΄ 1.5 1.5 0.5 0.5 1 1 ATCC ATGC TTCG TCGG • To δέντρο προκύπτει ανάλογα με τη σειρά ομαδοποιήσεων • Οι αριθμοί στα κλαδιά, είναι ο μέσος όρος των αποστάσεων που αντιστοιχούν στα παιδιά τους • Υπόθεση, ίση απόσταση από πατέρα
Ιεραρχική ομαδοποίηση • Η μέθοδος είναι γνωστή ως UPGMA (Unweighted Pair Group Method with Arithmetic mean) • Χρησιμοποιείται από το πρόγραμμα CLUSTALW ως πρώτο βήμα για multiple sequence alignment. • Υπάρχει παραλλαγή, γνωστή ως Neighbour Joining που λαμβάνει υπ’όψιν διαφορετικούς ρυθμούς εξέλιξης και συνεπώς διαφοροποιεί τα βάρη στο δέντρο.
Ιεραρχική ομαδοποίηση • Σημαντικό ρόλο παίζουν οι αποστάσεις ανάμεσα στα clusters • dist(a, cluster) • min{dist(a, cluster_members)} • max{dist(a, cluster_members)} • average{dist(a,cluster_members)} • Αν μεταβάλλουμε τον τρόπο μέτρησης απόστασης, μεταβάλλεται το δέντρο;
Cladistic Methods • Κατασκευή δέντρου, βάσει εξελικτικού μοντέλου • Γνωστότερες: maximum parsimony, maximum likelihood
Maximum parsimony • Φυλογενετικό δέντρο • Ελαχιστοποίηση των βημάτων για να φτάσουμε στις παρατηρούμενες ακολουθίες • Μέθοδος: • Αρχικά ξεκινούμε με msa των ακολουθιών • Ποιες θέσεις είναι αντίστοιχες • Για κάθε θέση παράγεται φυλογενετικό δέντρο • Παράγει όλα τα δέντρα μέχρι να καταλήξει στο βέλτιστο (υψηλό κόστος)
Maximum parsimony • Κατασκευή βέλτιστου δέντρου • Βέλτιστο= ελάχιστες μεταλλάξεις • Έστω οι ATCG, ATGG, TCCA, TTCA • 3 πιθανά φυλογενετικά δέντρα • ((1,2),(3,4)), ((1,3),(2,4)), ((1,4),(2,3)) Βάσει ευθυγράμμισης η 1 και 2 είναι κοντά, όπως και 3 και η 4
Cladistic Methods| maximum parsimony • Κατασκευή βέλτιστου δέντρου • Βέλτιστο= ελάχιστες μεταλλάξεις • Έστω οι ATCG, ATGG, TCCA, TTCA ATCA A T A G ATCG TTCA C G T C ATCG ATGG TCCA TTCA
Cladistic Methods| maximum parsimony Δεν είναι το βέλτιστο, έχει περισσότερες μεταλλάξεις από το προηγούμενο ATCG A T G A ATCA TTCG T A CG G A A G AT, TC ATCG TCCA ATGG TTCA
Cladistic methods/maximum likelihood • αναθέτει πιθανότητες στις μεταλλάξεις • τα βάρη των κλαδιών απεικονίζουν αυτές τις πιθανότητες • Παρόμοια μέθοδος με την maximum parsimony • Κατασκευάζονται όλα τα δέντρα δαπανηρή υπολογιστικά • Προϋποθέτει την ύπαρξη εξελικτικού μοντέλου (Jukes-Cantor, Kimura) • Δυνατότητα εύρεσηςσχέσεων μεταξύ μακρινών ακολουθιών
Maximum parsimony Οι περιοχές με μπλε ευνοούν κάποιο δέντρο σε σχέση με άλλο μεταφέρουν πληροφορία προτιμητέες
Maximum parsimony • Από τη θέση 5 • Έχω ((1,2), (3,4)) • ((1,3),(2,4)) • ((1,4),(2,1)) • Παρόμοια φτιάχνω δέντρα για τις άλλες θέσεις.
Αλγόριθμος εφαρμογής φυλογενετικών μεθόδων Ευθυγράμμιση των ακολουθιών (MSA) Υπάρχει σημαντική ομοιότητα; Maximum parsimony methods Επιλογή των σχετιζομένων ακολουθιών Ναι Όχι Υπάρχει αναγνωρίσιμη ομοιότητα; Ναι Ιεραρχική ομαδοποίηση Όχι Μέθοδοι Μέγιστης Πιθανοφάνειας Έλεγχος δεδομένων
Προβλήματα με διαφορετικούς ρυθμούς εξέλιξηςα’ a b c d
Προβλήματα με διαφορετικούς ρυθμούς εξέλιξηςβ’ • Aς υποθέσουμε ότι το είδος D αλλάζει γρήγορα, αν και η εξελικτική σχέση παραμένει η ίδια Το οποίο δεν είναι σωστό a b c d
Aξιολόγηση φυλογενετικών μεθόδων • Όλες οι μέθοδοι παρουσιάζουν τέτοια προβλήματα • Πιθανή λύσηγια έλεγχο διαφορετικών ρυθμών εξέλιξης: • Σύγκριση των ακολουθιών με μία διαφορετική (αρκετά μακρινή εξελικτικά). • Παράδειγμα: αν έχουμε ακολουθίες από πρωτεύοντα, ένα μη πρωτεύων είδος θα συγκριθεί. • Αν έχουμε το ίδιο βαθμό διαφοράς από την ξένη ακολουθία, τότε δεν έχουμε διαφορετικούς βαθμούς απόκλισης.
Υπολογιστική πολυπλοκότητα • Cladistic methods • Ακριβέστερες • Υπολογιστικά πολύπλοκες • Μπορούν να δώσουν προσεγγιστικές απαντήσεις • Απαραίτητη η αξιολόγηση:
Αξιολόγηση 2 • 1. Σύγκριση διαφορετικών φυλογενετικών μεθόδων (έχουν κοινό υπο-δέντρο) πιθανώς καλή πρόβλεψη • Στατιστικός έλεγχος (jackknifing/ bootstrapping) • jackknifing • Επιλογή διαφορετικών υποσυνόλων από τα αρχικά δεδομένα • Διαφορετικά υποσύνολα των θέσεων ευθυγράμμισης • Αν όλα τα υποσύνολα ίδιο δένδρο αξιόπιστη μέθοδος • Bootstrapping • Ίδιο με jackknifing, αλλά με πολλά αντίγραφα της ίδιας θέσης, για τη διατήρηση στατιστ. ιδιοτήτων
Web • Phylogeny Inference Package (PHYLIP) • http://evolution.genetics.washington.edu/phylip.html