slide1
Download
Skip this Video
Download Presentation
Εισαγωγή στη Βιοπληροφορική

Loading in 2 Seconds...

play fullscreen
1 / 35

Εισαγωγή στη Βιοπληροφορική - PowerPoint PPT Presentation


  • 131 Views
  • Uploaded on

Εισαγωγή στη Βιοπληροφορική. Εισαγωγικό Φροντιστήριο. Τι είναι Βιοπληροφορική. Βιο μοριακή βιολογία Πληροφορική επιστήμη των υπολογιστών

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Εισαγωγή στη Βιοπληροφορική' - lulu


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Εισαγωγή στη Βιοπληροφορική

Εισαγωγικό Φροντιστήριο

slide2
Τι είναι Βιοπληροφορική
  • Βιο μοριακή βιολογία
  • Πληροφορική επιστήμη των υπολογιστών
  • Βιοπληροφορική επιλύει προβλήματα που προκύπτουν από τη βιολογία χρησιμοποιώντας μεθοδολογία από την επιστήμη υπολογιστών
slide3
Βιοπληροφορικήκαι συναφείς επιστήμες
  • Επιστήμη των υπολογιστών
  • Μαθηματικά και Στατιστική
  • Βιολογία
  • Ιατρική
  • Χημεία
  • Φυσική
slide4
Η Βιοπληροφορική σχετίζεται με:
  • Εξαγωγή ακολουθιών DNA από το γενετικό υλικό
  • Σχολιασμός ακολουθιών (π.χ. με πληροφορίες από πειράματα)
  • Κατανόηση του ελέγχου της έκφρασης των γονιδίων (δηλαδή κάτω από ποιες συνθήκες δημιουργούνται οι πρωτεΐνες από το DNA
  • Τη σχέση μεταξύ την αλληλουχία αμινοξέων των πρωτεϊνών και τη δομή τους
slide5
Στόχος της έρευνας στη Βιοπληροφορική
  • Η κατανόηση της λειτουργίας των ζωντανών όντων
  • Σχεδιασμός φαρμάκων
  • Αναγνώριση γενετικών παραγόντων κινδύνου
  • Γονιδιακή θεραπεία
  • Γενετική τροποποίηση φυτών και ζώων
  • Βελτίωση μέσων βιολογικού πολέμου
slide6
Βασικές Έννοιες
  • Βιοπληροφορικήείναι η διαχείριση της Βιολογίας σε όρους μορίων (με την έννοια της Φυσικής Χημείας) και η εφαρμογή “τεχνικών πληροφορικής” (εφαρμοσμένα μαθηματικά, επιστήμη των υπολογιστών και στατιστική) για την κατανόηση και οργάνωση πληροφορίας που σχετίζεται με τα μόρια σε μεγάλη κλίμακα.

Figure from “Bioinformatics, from Genomes to Drugs”. T. Lengauer

slide7
DNA
  • Το DNA αποτελείται από 1 διπλή έλικα βάσεων.
  • Οι βάσεις ενώνονται σε συγκεκριμένη σειρά και αποθηκεύουν τη γενετική πληροφορία κάθε οργανισμού: Α (αδενίνη), Τ (θυμίνη), C (κυτοσίνη), G (γουανίνη)
  • Κάθε μόριο του DNA μπορεί να θεωρηθεί ως μία συμβολοσειρά με αλφάβητο {A,C,T,G}
  • Διπλή έλικα, η γνώση της μίας έλικας συνεπάγεται και τη γνώση της άλλης (Α-Τ, C-G)
genomes
Γονιδιώματα (Genomes)
  • Ο όρος γονιδίωµα-genome, αναφέρεται σε ολόκληρη την ακολουθία DNA ενός ζωντανού οργανισµού,
  • Το ανθρώπινο γονιδίωµα αποτελείται από 46 χρωµοσώµατα,
  • Κάθε κύτταρο περιλαµβάνει ολόκληρο το γονιδίωµα ενός οργανισµού (διαφοροποίηση ευκαρυωτικών από προκαρυωτικά κύτταρα)
human genome project
Human Genome Project
  • Παγκόσμια προσπάθεια χαρτογράφησης του ανθρώπινου DNA
  • To project άρχισε το 1990 και ολοκληρώθηκε το 2003
  • Στόχος να αναγνωριστούν και τα 30000 περίπου γονίδια του ανθρώπινου οργανισμού και να διαβαστούν όλες οι ακολουθίες DNA
  • Στόχος επίσης να τοποθετηθεί όλη η πληροφορία σε βάσεις δεδομένων και να βελτιωθούν τα εργαλεία για την ανάλυσή της
slide12
Γονίδιο
  • Βασική μονάδα κληρονομικότητας
  • Ακολουθία βάσεων η οποία μεταφέρει την πληροφορία που απαιτείται για να δημιουργηθεί μια συγκεκριμένη πρωτεΐνη.
  • Ένα γονίδιο κωδικοποιεί μια πρωτεΐνη ή ένα μόριο RNA
proteins
Πρωτεΐνες - Proteins
  • Οι πρωτεΐνες είναι µόρια που αποτελούνται από ένα ή περισσότερα πολυπεπτίδια,
  • Ένα πολυπεπτίδιο, είναι ένα πολυµερές που δοµείται από αμινοξέα,
  • Τα κύτταρα κατασκευάζουν τις πρωτεΐνες τους από 20 διαφορετικά αμινοξέα,
  • Μια ακολουθία πρωτεΐνης μπορεί να θεωρηθεί ως µια συμβολοσειρά, από ένα αλφάβητο 20 χαρακτήρων,

Σ= {Ala, Arg, Asp, Asn, Cys, Glu, Gln, Gly, Hsi,Ile, Leu, Lys, Met, Phe, Pro, Ser, Thr, Trp, Tyr, Val}.

slide15
Δομή Πρωτεΐνης
  • Η λειτουργία των πρωτεϊνών καθορίζεται από τη δομή τους.
  • Η δομή τους καθορίζεται από την αλληλουχία των αμινοξέων.
slide16
Επίπεδα δομής πρωτεϊνών
  • Πρωτογενής δομή (γραμμική ακολουθία αμινοξέων)
  • Δευτερογενής δομή
  • Τριτογενής δομή δομές αμινοξέων στο
  • Τεταρτογενής δομή χώρο ολοένα και πιο

σύνθετες

slide18
Στόχοι Μοριακής Βιολογίας
  • Ακολουθιοποίηση και σύγκριση των γονιδιωµάτωνδιαφορετικών οργανισµών (εξελικτική πορεία, επακριβής συσχέτιση).
  • Αναγνώριση γονιδίων και καθορισµός των λειτουργιών που ρυθµίζουν (αναγνώριση σημείων πρόσδεσης πρωτεινών, και από εκεί αναγνώριση γονιδίων).
  • Κατανόηση της γονιδιακής έκφρασης (κάθε γονίδιο δραστηριοποιείται μετά την παραγωγή της αντίστοιχης έκφρασης, μελέτη της διαδικασίας δραστηριοποίησης).
  • Κατανόηση Γενετικών Ασθενειών (μετάλλαξη γονιδίων).
slide19
Τομείς Έρευνας Βιοπληροφορικής
  • Στόχοι της Βιοπληροφορικής:
    • Αποδοτική οργάνωση των δεδομένων ώστε να είναι δυνατή η αποθήκευση, ανάκτηση και ενημέρωσή τους.
  • Παράδειγμα: ProteinDataBank.
slide20
Τομείς Έρευνας Βιοπληροφορικής
  • Υλοποίηση και Σχεδιασµός υπολογιστικών εργαλείων για αυτόµατη ανάκτηση γνώσης από Βάσεις Βιολογικών ∆εδοµένων.
  • Ανάλυση Ακολουθιών Βιολογικών∆εδοµένων
  • Κατηγοριοποίηση Βιολογικών ∆εδοµένων
  • Μοριακή Μοντελοποίηση
  • Ανάλυση Πρωτεϊνών
  • ΣχεδιασµόςΦαρµάκων µε χρήση Η/Υ
slide21
Διάγραμμα Ύλης

Α’ Μέρος

  • Κεφάλαιο 1: Εισαγωγή στη χρήση αλγορίθµων για αποτελεσµατική διαχείριση και αποθήκευση συµβολοσειρών (strings) και ακολουθιών βιολογικών δεδοµένων.
  • Κεφάλαιο2: Αλγόριθµοι ακριβούς ταιριάσµατος προτύπου (Boyer-Moore, Knuth-Morris-Pratt, Shift-Or, Πολλαπλών Προτύπων).
  • Κεφάλαιο 3: Εισαγωγή στο δέντρο επιθεµάτων (suffixtree) και στις εφαρµογές του.
  • Κεφάλαιο 4:Αλγόριθµοι προσεγγιστικού ταιριάσµατος προτύπου και στοίχισης συµβολοσειρών/ακολουθιών (SequenceAlignment).
  • Κεφάλαιο 5: Αλγόριθµοι αναζήτησης σε Βάσεις ∆εδοµένων ακολουθιών (FASTA, BLAST, PROSITE)
slide22
Διάγραμμα Ύλης

Β’ Μέρος

  • Η Θεωρητική Βάση του Μοριακού Σχεδιασµού
  • Μοριακά Μοντέλα και Βιοχηµική Πληροφορία
  • Η Βασιζόµενη στη ∆οµή Σχεδίαση Φαρµάκων
  • Ανοικτά Προβλήµατα

Γ’ Μέρος

  • Τεχνικές ομαδοποίησης και κατηγοριοποίησης βιολογικών δεδοµένων (clustering and categorization techniques) µε σκοπό την πρόβλεψη της συµπεριφοράς βιολογικών µορίων.
slide23
Εξέταση Μαθήματος
  • Η εξέταση του μαθήματος συνίσταται:
    • Στην παράδοση µιας εργασίας από οµάδες 1-2 ατόµων → 30% βαθµού
    • Παρουσίαση & Προφορική Εξέταση πάνω στις σηµειώσεις του µαθήµατος καισε μία επιπλέον εργασία → 70% βαθµού
slide24
Προτεινόμενη Βιβλιογραφία
  • Πανεπιστημιακές Σημειώσεις: Α. Περδικούρη, Α. Τσακαλίδη,  με τίτλο "Εισαγωγή στη Βιοπληροφορική"
  • Dan Gusfield, “Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology”
slide25
Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου

Απλοϊκή Προσέγγιση

  • Η απλοϊκή προσέγγιση αναζήτησης ενός προτύπου- pattern P μήκους n σε ένα κείμενο ή βιολογική ακολουθία X μήκους m, στοιχίζει το πρότυπο στην πρώτη θέση της ακολουθίας και εξετάζει έναν προς έναν τους χαρακτήρες του προτύπου
  • Σε περίπτωση μη ταιριάσματος- mismatch, η σύγκριση ξαναρχίζει με μετατόπιση του προτύπου κατά μια θέση. Η απλοϊκή αυτή προσέγγιση στοιχίζει O(n*m) χρόνο.
slide26
Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου

Απλοϊκή Προσέγγιση

slide27
ΑλγόριθμοιΑκριβούς Εύρεσης Προτύπου
  • Αλγόριθμοι που χρησιμοποιούν διάφορες τεχνικές επιτάχυνσης της διαδικασίας αναζήτησης.
  • Boyer-Moore, συγκρίνει τους χαρακτήρες του προτύπου (pattern) ως προς την ακολουθία από δεξιά προς τα αριστερά,
  • Knuth-Morris-Pratt, αποτελεί το πιο σημαντικό αλγόριθμο γραμμικής πολυπλοκότητας
  • Shift-Or, χρησιμοποιεί αριθμητικές μεθόδους.
suffix trees
Suffix Trees
  • Δέντρο Επιθεμάτων (SuffixTree) και
  • Γενικευμένο Δέντρο Επιθεμάτων (GeneralizedSuffixTree)
    • Επιτρέπουν την αποδοτική αποθήκευση και διαχείριση συμβολοσειρών.
    • Εφαρμογές
suffix trees1
Suffix Trees
  • Το Δέντρο Επιθεμάτων (SuffixTree), αποθηκεύει όλα τα δυνατά επιθέματα της συμβολοσειράς S, όπως φαίνεται και στο ακόλουθο σχήμα.
slide30
Γενικευμένο Δέντρο Επιθεμάτων
  • Το Γενικευμένο Δέντρο Επιθεμάτων (GeneralizedSuffixTree), αποτελεί ένα Γενικευμένο Δέντρο Επιθεμάτων το οποίο αποθηκεύει όλα τα δυνατά επιθέματα ενός συνόλου συμβολοσειρών S={S1,S2,…Sn}
slide31
Αλγόριθμοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συμβολοσειρών.
  • Επιτρέπεται η ύπαρξη διαφοροποιήσεων στις εμφανίσεις του προτύπου, που προκύπτουν από την
    • αντικατάσταση,
    • προσθήκη ή
    • διαγραφή συμβόλων.
  • Τοπική - local sequence alignment
  • Ολική - global sequence alignment
slide32
Μέθοδος του Δυναμικού Προγραμματισμού
  • Αναδρομική μέθοδος, η οποία μας επιτρέπει να υπολογίσουμε την απόσταση μετασχηματισμού μεταξύ 2 ακολουθιών και ταυτόχρονα την ακολουθία μετασχηματισμού ή κάτω από ένα διαφορετικό πρίσμα τη στοίχιση-ομοιότητα 2 ακολουθιών.
slide33
Αλγόριθμοι Κατηγοριοποίησης Βιολογικών Δεδομένων
  • Ξεκινώντας από ένα σύνολο δεδομένων, επιχειρεί να το οργανώσει σε ομάδεςομοειδώνστοιχείων που ονομάζουμε συστάδες (clusters).
  • Οι ομάδες αυτές δεν είναι εκ των προτέρων γνωστές αλλά προκύπτουν δυναμικά.
  • Αντίθετα σε μια διαδικασία ταξινόμησης ή επιβλεπόμενης μάθησης (supervisedlearning), οι κλάσεις/ κατηγορίες στις οποίες αντιστοιχίζονται τα δεδομένα, είναι εκ των προτέρων γνωστές και αποτελούν είσοδο στην αντίστοιχη μέθοδο.
slide34
Ιεραρχικές Μέθοδοι Ομαδοποίησης
  • Ιεραρχική Συσσωρευτική Κατηγοριοποίηση- Hierarchical Agglomerative Clustering
  • Ιεραρχική Διαιρετική Κατηγοριοποίηση- Hierarchical Divisive Clustering
iterative divisive partitioning
Επαναληπτική Διαιρετική Κατηγοριοποίηση- IterativeDivisivePartitioning
  • Ξεκινάμε διαχωρίζοντας το σύνολο των δεδομένων σε έναν αριθμό συστάδων και υπολογίζουμε τα κέντρα βάρους τους.
  • Στη συνέχεια κάθε στοιχείο αντιστοιχίζεται στη συστάδα με το κοντινότερο κέντρο βάρους και υπολογίζουμε εκ νέου τα νέα κέντρα βάρους.
  • Η διαδικασία επαναλαμβάνεται έως ότου τα στοιχεία δεν αλλάζουν συστάδα.
  • Ο πιο αντιπροσωπευτικός αλγόριθμος αυτής της κατηγορίας είναι ο k-means.
ad