1 / 30

Βασίλης Πολυχρονόπουλος

Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων. Βασίλης Πολυχρονόπουλος. Βιολογικά Δεδομένα και Ακολουθίες. Το DNA περιέχει όλη τη γενετική πληροφορία ενός οργανισμού.

Download Presentation

Βασίλης Πολυχρονόπουλος

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος

  2. Βιολογικά Δεδομένα και Ακολουθίες • ΤοDNA περιέχει όλη τη γενετική πληροφορία ενός οργανισμού. • Οι πρωτεΐνες αποτελούν τα βασικά κατασκευαστικά μέρη των κυττάρων. • Σε μόριαRNAαντιγράφεται η πληροφορία για την κατασκευή των πρωτεϊνών. • Δυνατότητα αναπαράστασης αυτών των βιομορίων ως ακολουθίες. • Βιολογικά συμπεράσματα με τη χρήση αλγορίθμων αναζήτησης και επεξεργασίας ακολουθιακών δεδομένων.

  3. Ευρετήρια για ταχύτερες αναζητήσεις • Ανάγκη για πολλές, συχνές αναζητήσεις ακολουθιών. • Επιτακτική η δημιουργία ευρετηρίων για ταχύτερη αναζήτηση προτύπων • Δημοφιλέστερα ευρετήρια για ακολουθιακά δεδομένα: • Δένδρα επιθεμάτων(suffix trees) • Πίνακες επιθεμάτων (suffix arrays)

  4. Ευρετήρια πολύ μεγάλου μεγέθους • Διαρκής αύξηση του όγκου των βιολογικών δεδομένων. • Τα ευρετήρια δεν χωρούν στην μνήμη (ακόμα και αν τα δεδομένα χωρούν). • Μεγάλη Ι/Ο συμφόρηση και πτώση απόδοσης κατά την κατασκευή. • Ερευνητικό ενδιαφέρον για το πρόβλημα ήδη από τις αρχές της δεκαετίας του ‘00

  5. Αντικείμενο της διπλωματικής • Βιβλιογραφική μελέτη των τεχνικών αποδοτικής κατασκευής για δένδρα επιθεμάτων που δεν χωρούν στην μνήμη. • Υλοποίηση αλγορίθμων αποτίμησης ερωτημάτων πάνω στα δένδρα που κατασκευάζονται με τον αλγόριθμο TRELLIS. • Πειράματα και σύγκριση αποτελεσμάτων με αυτά μεθόδων χωρίς ευρετήριο

  6. b a a n n a a n a $ n n $ a n 6 a 5 a $ $ $ $ 1 4 2 3 Το δένδρο επιθεμάτων • Το δένδρο επιθεμάτων είναι ένα trie που περιέχει όλα τα επιθέματα της ακολουθίας σύνδεσμος επιθέματος αναζήτηση προτύπου με απλή διάσχιση από ρίζα

  7. Βιβλιογραφική μελέτη

  8. Μέθοδος κατακερματισμού στην βάση προθεμάτων [ΗΑΙ01] • Κατακερματισμός σε υποδένδρα με βάση προθέματα σταθερού μήκους. • Αναζήτηση κατάλληλου μήκους ώστε όλα τα δένδρα να χωρούν στην μνήμη. • Μειονεκτήματα • Υποδένδρα με μεγάλες διαφορές μεγέθους, σπατάλη πόρων. • Ανάγκη για bin-packing τεχνικές. • Εγκατάλειψη συνδέσμων επιθέματος.

  9. DynaCluster [CYH05] και TOP-Q[BH04] • DynaCluster • Δυναμική δημιουργία συστάδων με μεγάλη τοπικότητα αναφοράς • Αποθήκευση στο δίσκο μια συστάδα κάθε φορά • TOP-Q • Παραμονή στην μνήμη των κόμβων που εκτιμάται ότι θα προσπελαστούν συχνότερα • Διατήρηση συνδέσμων επιθέματος • Μείωση της σπατάλης πόρων, καλή απόδοση για ακολουθίες επιπέδου χρωμοσώματος

  10. Αλγόριθμος TDD [THP04] • Κατακερματισμός στην βάση προθεμάτων αντίστοιχα με αλγόριθμο Hunt. • Χρήση του αλγορίθμου wotdeagerγια κατασκευή των υποδένδρων. • Αλγόριθμος wotdeager: • Κατασκευή από πάνω προς τα κάτω για μεγάλη τοπικότητα αναφοράς • Εξοικονόμηση χώρου • Βuffering στρατηγική για τις δομές δεδομένων του αλγορίθμου που εξασφαλίζει αποδοτική χρήση του cache • Δυνατότητα αποδοτικής παραγωγής ευρετηρίου για το σύνολο του γονιδιώματος.

  11. TRELLIS [PZ07]

  12. Υλοποιήσεις & Πειράματα

  13. Ενδεικτικές βελτιστοποιήσεις στο σύστημα TRELLIS • Χρήση δομής trieγια την αποδοτική ανάκτηση των προθεμάτων • Υλοποίηση LCA προεπεξεργασίας υποδένδρων: • Ανάκτηση όλων των απαραίτητων πληροφοριών για εφαρμογή του αλγορίθμου σταθερού χρόνου για το LCA • Κατάλληλη δεικτοδότηση των επιθεμάτων για αναγωγή στην εύρεση του LCE

  14. Πειράματα • Υλοποιήσειςσε C++. • Πραγματικά βιολογικά δεδομένα από το ανθρώπινο γονιδίωμα (από βάση του NCBI) • Πειράματα: • Ακριβής ταύτιση προτύπου. • Προσομοίωση στοίχισης. • Προσεγγιστική ταύτιση προτύπου. • Εύρεση προθεματικών ταυτίσεων.

  15. Πειράματα για ακριβή ταύτιση • Πειράματα: • Σταθερό μήκος query. • Σταθερό μήκος data. • Μέθοδοι: • Διάσχιση δένδρου επιθεμάτων. • Knuth-Morris-Pratt • Boyer-Moore

  16. Πειράματα για ακριβή ταύτιση (σταθερό μήκος query)

  17. Πειράματα για ακριβή ταύτιση (σταθερό μήκος ακολουθίας εισόδου)

  18. Πειράματα για προσομοίωση στοίχισης • Πειράματα: • Σταθερό μήκος query. • Σταθερό μήκος data. • Μέθοδοι: • Χωρίς χρήση συνδέσμων επιθέματος. • Με χρήση συνδέσμων επιθέματος.

  19. Πειράματα για προσομοίωση στοίχισης (σταθερό μήκος query)

  20. Πειράματα για προσομοίωση στοίχισης (σταθερό μήκος ακολουθίας εισόδου)

  21. Πειράματα για προσεγγιστική ταύτιση • Πειράματα: • query 40 bytes • πλήθος διαφορών k=3 • Μέθοδοι: • Υβριδικός δυναμικός προγραμματισμός (δυναμικός προγραμματισμός + δένδρο επιθεμάτων). • Δυναμικός προγραμματισμός με cut-off heuristic.

  22. Πειράματα για προσεγγιστική ταύτιση

  23. Πειράματα για εύρεση προθεματικών ταυτίσεων • Πειράματα: • κάτω φράγμα 8 σύμβολα • Μέθοδοι: • Με χρήση δένδρου επιθεμάτων • Χωρίς δένδρο επιθεμάτων με τη brute-force μέθοδο.

  24. Πειράματα για εύρεση προθεματικών ταυτίσεων

  25. Συμπεράσματα (1) • Ακριβής ταύτιση προτύπου • Πλεονεκτημα της χρήσης ευρετηρίου στον δίσκο σε όλες τις περιπτώσεις • Ικανοποιητική απόδοση του Boyer-Moore, συγκρίσιμη με του ευρετηρίου,για μικρό query και μικρό dataset • Μεγάλο άνοιγμα της ψαλίδας υπέρ του ευρετηρίου όσο το dataset μεγαλώνει • Προσομοίωση στοίχισης • Αισθητή υπεροχή της χρήσης των συνδέσμων για μεγάλο μέγεθος query

  26. Συμπεράσματα (2) • Προσεγγιστική ταύτιση • Μεγάλη υπεροχή της αναζήτησης χωρίς την χρήση ευρετηρίου κατευθείαν στην μνήμη • Δυσκινησία του αλγορίθμου υβριδικού δυναμικού προγραμματισμού λόγω έλλειψης τοπικότητας αναφοράς και Ι/Ο συμφόρησης • Καθολικό LCE • Δυνατότητα για πολύ γρήγορη ανάκτηση του LCE με χρήση του αλγορίθμου σταθερού χρόνου πάνω στα προεπεξεργασμένα δένδρα

  27. Επεκτάσεις • Επέκταση του TRELLIS για άλλα αλφάβηταπέραν του DNA • Συμπίεση των κόμβων των δένδρων για μείωση της μεγάλης σπατάλης χώρου που είναι ένα μειονέκτημα του TRELLIS (27 bytes/σύμβολο) • Υλοποίηση στα δένδρα άλλων αλγορίθμων που χρησιμοποιούν τους συνδέσμους επιθέματος ή τα ερωτήματα LCE (εύρεση παλινδρόμων, δίδυμες επαναλήψεις κλπ) • Αναζήτηση εναλλακτικών τρόπων σελιδοποίησης για μείωση της συμφόρησης κατά την εκτέλεση αλγορίθμων όπως του υβριδικού δυναμικού προγραμματισμού

  28. Βιβλιογραφία [BH04] Bedathur S., Haritsa J., Engineering a fast online persistent suffix tree construction, 20th International Conference on Data Engineering, 2004. [CYL05] Cheung C., Yu J., Lu H., Constructing suffix tree for gigabyte sequences with megabyte memory, IEEE Transactions on Knowledge and Data Engineering, 17(1):90–105, 2005. [HAI01] Hunt E., Atkinson Μ., Irving R., A database index to large biological sequences, 27th International Conference on Very Large Data Bases, 2001. [PZ07] Phophakdee B., Zaki M., Genome-scale Disk-based Suffix Tree Indexing, ACM SIGMOD International Conference on Management of Data, 2007. [THP04] Tata S., Hankins R., Patel J., Practical suffix tree construction, 30th International Conference on VLDB, 2004.

  29. Τέλος.. Ερωτήσεις;

  30. Υβριδικός δυναμικός προγραμματισμός • Φραγμένο πλήθος διαφορών • Ο δυναμικός προγραμματισμός απαιτεί Ο(nm) χώρο με χρήση ενός πίνακα n X m στοιχείων • Ο υβριδικός απαιτεί μόνο Ο(n+m) χώρο αφού προσομειώνει τον υπολογισμό με χρήση μόνο των διαγωνίων • Κάθε επέκταση γίνεται με υπολογισμό του LCE προτύπου και κειμένου σε διάφορες θέσεις • Πολυπλοκότητα χρόνου του υβριδικού Ο(kn) όπου k το μέγιστο πλήθος των διαφορών, η πολυπλοκότητα του δυναμικού είναι πάντα Ο(mn) ανεξάρτητα από το μέγιστο πλήθος διαφορών που μας ενδιαφέρει

More Related