1 / 35

Εισαγωγή στη Βιοπληροφορική

Εισαγωγή στη Βιοπληροφορική. Εισαγωγικό Φροντιστήριο. Τι είναι Βιοπληροφορική. Βιο μοριακή βιολογία Πληροφορική επιστήμη των υπολογιστών

lulu
Download Presentation

Εισαγωγή στη Βιοπληροφορική

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Εισαγωγή στη Βιοπληροφορική Εισαγωγικό Φροντιστήριο

  2. Τι είναι Βιοπληροφορική • Βιο μοριακή βιολογία • Πληροφορική επιστήμη των υπολογιστών • Βιοπληροφορική επιλύει προβλήματα που προκύπτουν από τη βιολογία χρησιμοποιώντας μεθοδολογία από την επιστήμη υπολογιστών

  3. Βιοπληροφορικήκαι συναφείς επιστήμες • Επιστήμη των υπολογιστών • Μαθηματικά και Στατιστική • Βιολογία • Ιατρική • Χημεία • Φυσική

  4. Η Βιοπληροφορική σχετίζεται με: • Εξαγωγή ακολουθιών DNA από το γενετικό υλικό • Σχολιασμός ακολουθιών (π.χ. με πληροφορίες από πειράματα) • Κατανόηση του ελέγχου της έκφρασης των γονιδίων (δηλαδή κάτω από ποιες συνθήκες δημιουργούνται οι πρωτεΐνες από το DNA • Τη σχέση μεταξύ την αλληλουχία αμινοξέων των πρωτεϊνών και τη δομή τους

  5. Στόχος της έρευνας στη Βιοπληροφορική • Η κατανόηση της λειτουργίας των ζωντανών όντων • Σχεδιασμός φαρμάκων • Αναγνώριση γενετικών παραγόντων κινδύνου • Γονιδιακή θεραπεία • Γενετική τροποποίηση φυτών και ζώων • Βελτίωση μέσων βιολογικού πολέμου

  6. Βασικές Έννοιες • Βιοπληροφορικήείναι η διαχείριση της Βιολογίας σε όρους μορίων (με την έννοια της Φυσικής Χημείας) και η εφαρμογή “τεχνικών πληροφορικής” (εφαρμοσμένα μαθηματικά, επιστήμη των υπολογιστών και στατιστική) για την κατανόηση και οργάνωση πληροφορίας που σχετίζεται με τα μόρια σε μεγάλη κλίμακα. Figure from “Bioinformatics, from Genomes to Drugs”. T. Lengauer

  7. DNA • Το DNA αποτελείται από 1 διπλή έλικα βάσεων. • Οι βάσεις ενώνονται σε συγκεκριμένη σειρά και αποθηκεύουν τη γενετική πληροφορία κάθε οργανισμού: Α (αδενίνη), Τ (θυμίνη), C (κυτοσίνη), G (γουανίνη) • Κάθε μόριο του DNA μπορεί να θεωρηθεί ως μία συμβολοσειρά με αλφάβητο {A,C,T,G} • Διπλή έλικα, η γνώση της μίας έλικας συνεπάγεται και τη γνώση της άλλης (Α-Τ, C-G)

  8. DNA

  9. Γονιδιώματα (Genomes) • Ο όρος γονιδίωµα-genome, αναφέρεται σε ολόκληρη την ακολουθία DNA ενός ζωντανού οργανισµού, • Το ανθρώπινο γονιδίωµα αποτελείται από 46 χρωµοσώµατα, • Κάθε κύτταρο περιλαµβάνει ολόκληρο το γονιδίωµα ενός οργανισµού (διαφοροποίηση ευκαρυωτικών από προκαρυωτικά κύτταρα)

  10. Human Genome Project • Παγκόσμια προσπάθεια χαρτογράφησης του ανθρώπινου DNA • To project άρχισε το 1990 και ολοκληρώθηκε το 2003 • Στόχος να αναγνωριστούν και τα 30000 περίπου γονίδια του ανθρώπινου οργανισμού και να διαβαστούν όλες οι ακολουθίες DNA • Στόχος επίσης να τοποθετηθεί όλη η πληροφορία σε βάσεις δεδομένων και να βελτιωθούν τα εργαλεία για την ανάλυσή της

  11. Ακολουθία βάσεων DNA

  12. Γονίδιο • Βασική μονάδα κληρονομικότητας • Ακολουθία βάσεων η οποία μεταφέρει την πληροφορία που απαιτείται για να δημιουργηθεί μια συγκεκριμένη πρωτεΐνη. • Ένα γονίδιο κωδικοποιεί μια πρωτεΐνη ή ένα μόριο RNA

  13. Από το γονίδιο στην πρωτεΐνη

  14. Πρωτεΐνες - Proteins • Οι πρωτεΐνες είναι µόρια που αποτελούνται από ένα ή περισσότερα πολυπεπτίδια, • Ένα πολυπεπτίδιο, είναι ένα πολυµερές που δοµείται από αμινοξέα, • Τα κύτταρα κατασκευάζουν τις πρωτεΐνες τους από 20 διαφορετικά αμινοξέα, • Μια ακολουθία πρωτεΐνης μπορεί να θεωρηθεί ως µια συμβολοσειρά, από ένα αλφάβητο 20 χαρακτήρων, Σ= {Ala, Arg, Asp, Asn, Cys, Glu, Gln, Gly, Hsi,Ile, Leu, Lys, Met, Phe, Pro, Ser, Thr, Trp, Tyr, Val}.

  15. Δομή Πρωτεΐνης • Η λειτουργία των πρωτεϊνών καθορίζεται από τη δομή τους. • Η δομή τους καθορίζεται από την αλληλουχία των αμινοξέων.

  16. Επίπεδα δομής πρωτεϊνών • Πρωτογενής δομή (γραμμική ακολουθία αμινοξέων) • Δευτερογενής δομή • Τριτογενής δομή δομές αμινοξέων στο • Τεταρτογενής δομή χώρο ολοένα και πιο σύνθετες

  17. Επίπεδα δομής πρωτεϊνών

  18. Στόχοι Μοριακής Βιολογίας • Ακολουθιοποίηση και σύγκριση των γονιδιωµάτωνδιαφορετικών οργανισµών (εξελικτική πορεία, επακριβής συσχέτιση). • Αναγνώριση γονιδίων και καθορισµός των λειτουργιών που ρυθµίζουν (αναγνώριση σημείων πρόσδεσης πρωτεινών, και από εκεί αναγνώριση γονιδίων). • Κατανόηση της γονιδιακής έκφρασης (κάθε γονίδιο δραστηριοποιείται μετά την παραγωγή της αντίστοιχης έκφρασης, μελέτη της διαδικασίας δραστηριοποίησης). • Κατανόηση Γενετικών Ασθενειών (μετάλλαξη γονιδίων).

  19. Τομείς Έρευνας Βιοπληροφορικής • Στόχοι της Βιοπληροφορικής: • Αποδοτική οργάνωση των δεδομένων ώστε να είναι δυνατή η αποθήκευση, ανάκτηση και ενημέρωσή τους. • Παράδειγμα: ProteinDataBank.

  20. Τομείς Έρευνας Βιοπληροφορικής • Υλοποίηση και Σχεδιασµός υπολογιστικών εργαλείων για αυτόµατη ανάκτηση γνώσης από Βάσεις Βιολογικών ∆εδοµένων. • Ανάλυση Ακολουθιών Βιολογικών∆εδοµένων • Κατηγοριοποίηση Βιολογικών ∆εδοµένων • Μοριακή Μοντελοποίηση • Ανάλυση Πρωτεϊνών • ΣχεδιασµόςΦαρµάκων µε χρήση Η/Υ

  21. Διάγραμμα Ύλης Α’ Μέρος • Κεφάλαιο 1: Εισαγωγή στη χρήση αλγορίθµων για αποτελεσµατική διαχείριση και αποθήκευση συµβολοσειρών (strings) και ακολουθιών βιολογικών δεδοµένων. • Κεφάλαιο2: Αλγόριθµοι ακριβούς ταιριάσµατος προτύπου (Boyer-Moore, Knuth-Morris-Pratt, Shift-Or, Πολλαπλών Προτύπων). • Κεφάλαιο 3: Εισαγωγή στο δέντρο επιθεµάτων (suffixtree) και στις εφαρµογές του. • Κεφάλαιο 4:Αλγόριθµοι προσεγγιστικού ταιριάσµατος προτύπου και στοίχισης συµβολοσειρών/ακολουθιών (SequenceAlignment). • Κεφάλαιο 5: Αλγόριθµοι αναζήτησης σε Βάσεις ∆εδοµένων ακολουθιών (FASTA, BLAST, PROSITE)

  22. Διάγραμμα Ύλης Β’ Μέρος • Η Θεωρητική Βάση του Μοριακού Σχεδιασµού • Μοριακά Μοντέλα και Βιοχηµική Πληροφορία • Η Βασιζόµενη στη ∆οµή Σχεδίαση Φαρµάκων • Ανοικτά Προβλήµατα Γ’ Μέρος • Τεχνικές ομαδοποίησης και κατηγοριοποίησης βιολογικών δεδοµένων (clustering and categorization techniques) µε σκοπό την πρόβλεψη της συµπεριφοράς βιολογικών µορίων.

  23. Εξέταση Μαθήματος • Η εξέταση του μαθήματος συνίσταται: • Στην παράδοση µιας εργασίας από οµάδες 1-2 ατόµων → 30% βαθµού • Παρουσίαση & Προφορική Εξέταση πάνω στις σηµειώσεις του µαθήµατος καισε μία επιπλέον εργασία → 70% βαθµού

  24. Προτεινόμενη Βιβλιογραφία • Πανεπιστημιακές Σημειώσεις: Α. Περδικούρη, Α. Τσακαλίδη,  με τίτλο "Εισαγωγή στη Βιοπληροφορική" • Dan Gusfield, “Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology”

  25. Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου Απλοϊκή Προσέγγιση • Η απλοϊκή προσέγγιση αναζήτησης ενός προτύπου- pattern P μήκους n σε ένα κείμενο ή βιολογική ακολουθία X μήκους m, στοιχίζει το πρότυπο στην πρώτη θέση της ακολουθίας και εξετάζει έναν προς έναν τους χαρακτήρες του προτύπου • Σε περίπτωση μη ταιριάσματος- mismatch, η σύγκριση ξαναρχίζει με μετατόπιση του προτύπου κατά μια θέση. Η απλοϊκή αυτή προσέγγιση στοιχίζει O(n*m) χρόνο.

  26. Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου Απλοϊκή Προσέγγιση

  27. ΑλγόριθμοιΑκριβούς Εύρεσης Προτύπου • Αλγόριθμοι που χρησιμοποιούν διάφορες τεχνικές επιτάχυνσης της διαδικασίας αναζήτησης. • Boyer-Moore, συγκρίνει τους χαρακτήρες του προτύπου (pattern) ως προς την ακολουθία από δεξιά προς τα αριστερά, • Knuth-Morris-Pratt, αποτελεί το πιο σημαντικό αλγόριθμο γραμμικής πολυπλοκότητας • Shift-Or, χρησιμοποιεί αριθμητικές μεθόδους.

  28. Suffix Trees • Δέντρο Επιθεμάτων (SuffixTree) και • Γενικευμένο Δέντρο Επιθεμάτων (GeneralizedSuffixTree) • Επιτρέπουν την αποδοτική αποθήκευση και διαχείριση συμβολοσειρών. • Εφαρμογές

  29. Suffix Trees • Το Δέντρο Επιθεμάτων (SuffixTree), αποθηκεύει όλα τα δυνατά επιθέματα της συμβολοσειράς S, όπως φαίνεται και στο ακόλουθο σχήμα.

  30. Γενικευμένο Δέντρο Επιθεμάτων • Το Γενικευμένο Δέντρο Επιθεμάτων (GeneralizedSuffixTree), αποτελεί ένα Γενικευμένο Δέντρο Επιθεμάτων το οποίο αποθηκεύει όλα τα δυνατά επιθέματα ενός συνόλου συμβολοσειρών S={S1,S2,…Sn}

  31. Αλγόριθμοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συμβολοσειρών. • Επιτρέπεται η ύπαρξη διαφοροποιήσεων στις εμφανίσεις του προτύπου, που προκύπτουν από την • αντικατάσταση, • προσθήκη ή • διαγραφή συμβόλων. • Τοπική - local sequence alignment • Ολική - global sequence alignment

  32. Μέθοδος του Δυναμικού Προγραμματισμού • Αναδρομική μέθοδος, η οποία μας επιτρέπει να υπολογίσουμε την απόσταση μετασχηματισμού μεταξύ 2 ακολουθιών και ταυτόχρονα την ακολουθία μετασχηματισμού ή κάτω από ένα διαφορετικό πρίσμα τη στοίχιση-ομοιότητα 2 ακολουθιών.

  33. Αλγόριθμοι Κατηγοριοποίησης Βιολογικών Δεδομένων • Ξεκινώντας από ένα σύνολο δεδομένων, επιχειρεί να το οργανώσει σε ομάδεςομοειδώνστοιχείων που ονομάζουμε συστάδες (clusters). • Οι ομάδες αυτές δεν είναι εκ των προτέρων γνωστές αλλά προκύπτουν δυναμικά. • Αντίθετα σε μια διαδικασία ταξινόμησης ή επιβλεπόμενης μάθησης (supervisedlearning), οι κλάσεις/ κατηγορίες στις οποίες αντιστοιχίζονται τα δεδομένα, είναι εκ των προτέρων γνωστές και αποτελούν είσοδο στην αντίστοιχη μέθοδο.

  34. Ιεραρχικές Μέθοδοι Ομαδοποίησης • Ιεραρχική Συσσωρευτική Κατηγοριοποίηση- Hierarchical Agglomerative Clustering • Ιεραρχική Διαιρετική Κατηγοριοποίηση- Hierarchical Divisive Clustering

  35. Επαναληπτική Διαιρετική Κατηγοριοποίηση- IterativeDivisivePartitioning • Ξεκινάμε διαχωρίζοντας το σύνολο των δεδομένων σε έναν αριθμό συστάδων και υπολογίζουμε τα κέντρα βάρους τους. • Στη συνέχεια κάθε στοιχείο αντιστοιχίζεται στη συστάδα με το κοντινότερο κέντρο βάρους και υπολογίζουμε εκ νέου τα νέα κέντρα βάρους. • Η διαδικασία επαναλαμβάνεται έως ότου τα στοιχεία δεν αλλάζουν συστάδα. • Ο πιο αντιπροσωπευτικός αλγόριθμος αυτής της κατηγορίας είναι ο k-means.

More Related