Εισαγωγή στη Βιοπληροφορική
Download
1 / 35

???????? ??? ?????????????? - PowerPoint PPT Presentation


  • 131 Views
  • Uploaded on

Εισαγωγή στη Βιοπληροφορική. Εισαγωγικό Φροντιστήριο. Τι είναι Βιοπληροφορική. Βιο μοριακή βιολογία Πληροφορική επιστήμη των υπολογιστών

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '???????? ??? ??????????????' - lulu


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
1900382

Εισαγωγή στη Βιοπληροφορική

Εισαγωγικό Φροντιστήριο


1900382
Τι είναι Βιοπληροφορική

  • Βιο μοριακή βιολογία

  • Πληροφορική επιστήμη των υπολογιστών

  • Βιοπληροφορική επιλύει προβλήματα που προκύπτουν από τη βιολογία χρησιμοποιώντας μεθοδολογία από την επιστήμη υπολογιστών


1900382
Βιοπληροφορικήκαι συναφείς επιστήμες

  • Επιστήμη των υπολογιστών

  • Μαθηματικά και Στατιστική

  • Βιολογία

  • Ιατρική

  • Χημεία

  • Φυσική


1900382
Η Βιοπληροφορική σχετίζεται με:

  • Εξαγωγή ακολουθιών DNA από το γενετικό υλικό

  • Σχολιασμός ακολουθιών (π.χ. με πληροφορίες από πειράματα)

  • Κατανόηση του ελέγχου της έκφρασης των γονιδίων (δηλαδή κάτω από ποιες συνθήκες δημιουργούνται οι πρωτεΐνες από το DNA

  • Τη σχέση μεταξύ την αλληλουχία αμινοξέων των πρωτεϊνών και τη δομή τους


1900382
Στόχος της έρευνας στη Βιοπληροφορική

  • Η κατανόηση της λειτουργίας των ζωντανών όντων

  • Σχεδιασμός φαρμάκων

  • Αναγνώριση γενετικών παραγόντων κινδύνου

  • Γονιδιακή θεραπεία

  • Γενετική τροποποίηση φυτών και ζώων

  • Βελτίωση μέσων βιολογικού πολέμου


1900382
Βασικές Έννοιες Βιοπληροφορική

  • Βιοπληροφορικήείναι η διαχείριση της Βιολογίας σε όρους μορίων (με την έννοια της Φυσικής Χημείας) και η εφαρμογή “τεχνικών πληροφορικής” (εφαρμοσμένα μαθηματικά, επιστήμη των υπολογιστών και στατιστική) για την κατανόηση και οργάνωση πληροφορίας που σχετίζεται με τα μόρια σε μεγάλη κλίμακα.

Figure from “Bioinformatics, from Genomes to Drugs”. T. Lengauer


1900382
DNA Βιοπληροφορική

  • Το DNA αποτελείται από 1 διπλή έλικα βάσεων.

  • Οι βάσεις ενώνονται σε συγκεκριμένη σειρά και αποθηκεύουν τη γενετική πληροφορία κάθε οργανισμού: Α (αδενίνη), Τ (θυμίνη), C (κυτοσίνη), G (γουανίνη)

  • Κάθε μόριο του DNA μπορεί να θεωρηθεί ως μία συμβολοσειρά με αλφάβητο {A,C,T,G}

  • Διπλή έλικα, η γνώση της μίας έλικας συνεπάγεται και τη γνώση της άλλης (Α-Τ, C-G)


1900382
DNA Βιοπληροφορική


Genomes
Γονιδιώματα Βιοπληροφορική (Genomes)

  • Ο όρος γονιδίωµα-genome, αναφέρεται σε ολόκληρη την ακολουθία DNA ενός ζωντανού οργανισµού,

  • Το ανθρώπινο γονιδίωµα αποτελείται από 46 χρωµοσώµατα,

  • Κάθε κύτταρο περιλαµβάνει ολόκληρο το γονιδίωµα ενός οργανισµού (διαφοροποίηση ευκαρυωτικών από προκαρυωτικά κύτταρα)


Human genome project
Human Genome Project Βιοπληροφορική

  • Παγκόσμια προσπάθεια χαρτογράφησης του ανθρώπινου DNA

  • To project άρχισε το 1990 και ολοκληρώθηκε το 2003

  • Στόχος να αναγνωριστούν και τα 30000 περίπου γονίδια του ανθρώπινου οργανισμού και να διαβαστούν όλες οι ακολουθίες DNA

  • Στόχος επίσης να τοποθετηθεί όλη η πληροφορία σε βάσεις δεδομένων και να βελτιωθούν τα εργαλεία για την ανάλυσή της


1900382
Ακολουθία βάσεων ΒιοπληροφορικήDNA


1900382
Γονίδιο Βιοπληροφορική

  • Βασική μονάδα κληρονομικότητας

  • Ακολουθία βάσεων η οποία μεταφέρει την πληροφορία που απαιτείται για να δημιουργηθεί μια συγκεκριμένη πρωτεΐνη.

  • Ένα γονίδιο κωδικοποιεί μια πρωτεΐνη ή ένα μόριο RNA



Proteins
Πρωτεΐνες - ΒιοπληροφορικήProteins

  • Οι πρωτεΐνες είναι µόρια που αποτελούνται από ένα ή περισσότερα πολυπεπτίδια,

  • Ένα πολυπεπτίδιο, είναι ένα πολυµερές που δοµείται από αμινοξέα,

  • Τα κύτταρα κατασκευάζουν τις πρωτεΐνες τους από 20 διαφορετικά αμινοξέα,

  • Μια ακολουθία πρωτεΐνης μπορεί να θεωρηθεί ως µια συμβολοσειρά, από ένα αλφάβητο 20 χαρακτήρων,

    Σ= {Ala, Arg, Asp, Asn, Cys, Glu, Gln, Gly, Hsi,Ile, Leu, Lys, Met, Phe, Pro, Ser, Thr, Trp, Tyr, Val}.


1900382
Δομή Πρωτεΐνης Βιοπληροφορική

  • Η λειτουργία των πρωτεϊνών καθορίζεται από τη δομή τους.

  • Η δομή τους καθορίζεται από την αλληλουχία των αμινοξέων.


1900382
Επίπεδα δομής πρωτεϊνών Βιοπληροφορική

  • Πρωτογενής δομή (γραμμική ακολουθία αμινοξέων)

  • Δευτερογενής δομή

  • Τριτογενής δομή δομές αμινοξέων στο

  • Τεταρτογενής δομή χώρο ολοένα και πιο

    σύνθετες


1900382
Επίπεδα δομής πρωτεϊνών Βιοπληροφορική


1900382
Στόχοι Μοριακής Βιολογίας Βιοπληροφορική

  • Ακολουθιοποίηση και σύγκριση των γονιδιωµάτωνδιαφορετικών οργανισµών (εξελικτική πορεία, επακριβής συσχέτιση).

  • Αναγνώριση γονιδίων και καθορισµός των λειτουργιών που ρυθµίζουν (αναγνώριση σημείων πρόσδεσης πρωτεινών, και από εκεί αναγνώριση γονιδίων).

  • Κατανόηση της γονιδιακής έκφρασης (κάθε γονίδιο δραστηριοποιείται μετά την παραγωγή της αντίστοιχης έκφρασης, μελέτη της διαδικασίας δραστηριοποίησης).

  • Κατανόηση Γενετικών Ασθενειών (μετάλλαξη γονιδίων).


1900382
Τομείς Έρευνας ΒιοπληροφορικήΒιοπληροφορικής

  • Στόχοι της Βιοπληροφορικής:

    • Αποδοτική οργάνωση των δεδομένων ώστε να είναι δυνατή η αποθήκευση, ανάκτηση και ενημέρωσή τους.

  • Παράδειγμα: ProteinDataBank.


1900382
Τομείς Έρευνας ΒιοπληροφορικήΒιοπληροφορικής

  • Υλοποίηση και Σχεδιασµός υπολογιστικών εργαλείων για αυτόµατη ανάκτηση γνώσης από Βάσεις Βιολογικών ∆εδοµένων.

  • Ανάλυση Ακολουθιών Βιολογικών∆εδοµένων

  • Κατηγοριοποίηση Βιολογικών ∆εδοµένων

  • Μοριακή Μοντελοποίηση

  • Ανάλυση Πρωτεϊνών

  • ΣχεδιασµόςΦαρµάκων µε χρήση Η/Υ


1900382
Διάγραμμα Ύλης Βιοπληροφορική

Α’ Μέρος

  • Κεφάλαιο 1: Εισαγωγή στη χρήση αλγορίθµων για αποτελεσµατική διαχείριση και αποθήκευση συµβολοσειρών (strings) και ακολουθιών βιολογικών δεδοµένων.

  • Κεφάλαιο2: Αλγόριθµοι ακριβούς ταιριάσµατος προτύπου (Boyer-Moore, Knuth-Morris-Pratt, Shift-Or, Πολλαπλών Προτύπων).

  • Κεφάλαιο 3: Εισαγωγή στο δέντρο επιθεµάτων (suffixtree) και στις εφαρµογές του.

  • Κεφάλαιο 4:Αλγόριθµοι προσεγγιστικού ταιριάσµατος προτύπου και στοίχισης συµβολοσειρών/ακολουθιών (SequenceAlignment).

  • Κεφάλαιο 5: Αλγόριθµοι αναζήτησης σε Βάσεις ∆εδοµένων ακολουθιών (FASTA, BLAST, PROSITE)


1900382
Διάγραμμα Ύλης Βιοπληροφορική

Β’ Μέρος

  • Η Θεωρητική Βάση του Μοριακού Σχεδιασµού

  • Μοριακά Μοντέλα και Βιοχηµική Πληροφορία

  • Η Βασιζόµενη στη ∆οµή Σχεδίαση Φαρµάκων

  • Ανοικτά Προβλήµατα

    Γ’ Μέρος

  • Τεχνικές ομαδοποίησης και κατηγοριοποίησης βιολογικών δεδοµένων (clustering and categorization techniques) µε σκοπό την πρόβλεψη της συµπεριφοράς βιολογικών µορίων.


1900382
Εξέταση Μαθήματος Βιοπληροφορική

  • Η εξέταση του μαθήματος συνίσταται:

    • Στην παράδοση µιας εργασίας από οµάδες 1-2 ατόµων → 30% βαθµού

    • Παρουσίαση & Προφορική Εξέταση πάνω στις σηµειώσεις του µαθήµατος καισε μία επιπλέον εργασία → 70% βαθµού


1900382
Προτεινόμενη Βιβλιογραφία Βιοπληροφορική

  • Πανεπιστημιακές Σημειώσεις: Α. Περδικούρη, Α. Τσακαλίδη,  με τίτλο "Εισαγωγή στη Βιοπληροφορική"

  • Dan Gusfield, “Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology”


1900382
Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου

Απλοϊκή Προσέγγιση

  • Η απλοϊκή προσέγγιση αναζήτησης ενός προτύπου- pattern P μήκους n σε ένα κείμενο ή βιολογική ακολουθία X μήκους m, στοιχίζει το πρότυπο στην πρώτη θέση της ακολουθίας και εξετάζει έναν προς έναν τους χαρακτήρες του προτύπου

  • Σε περίπτωση μη ταιριάσματος- mismatch, η σύγκριση ξαναρχίζει με μετατόπιση του προτύπου κατά μια θέση. Η απλοϊκή αυτή προσέγγιση στοιχίζει O(n*m) χρόνο.


1900382
Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου

Απλοϊκή Προσέγγιση


1900382
Αλγόριθμοι ΠροτύπουΑκριβούς Εύρεσης Προτύπου

  • Αλγόριθμοι που χρησιμοποιούν διάφορες τεχνικές επιτάχυνσης της διαδικασίας αναζήτησης.

  • Boyer-Moore, συγκρίνει τους χαρακτήρες του προτύπου (pattern) ως προς την ακολουθία από δεξιά προς τα αριστερά,

  • Knuth-Morris-Pratt, αποτελεί το πιο σημαντικό αλγόριθμο γραμμικής πολυπλοκότητας

  • Shift-Or, χρησιμοποιεί αριθμητικές μεθόδους.


Suffix trees
Suffix Trees Προτύπου

  • Δέντρο Επιθεμάτων (SuffixTree) και

  • Γενικευμένο Δέντρο Επιθεμάτων (GeneralizedSuffixTree)

    • Επιτρέπουν την αποδοτική αποθήκευση και διαχείριση συμβολοσειρών.

    • Εφαρμογές


Suffix trees1
Suffix Trees Προτύπου

  • Το Δέντρο Επιθεμάτων (SuffixTree), αποθηκεύει όλα τα δυνατά επιθέματα της συμβολοσειράς S, όπως φαίνεται και στο ακόλουθο σχήμα.


1900382
Γενικευμένο Δέντρο Επιθεμάτων Προτύπου

  • Το Γενικευμένο Δέντρο Επιθεμάτων (GeneralizedSuffixTree), αποτελεί ένα Γενικευμένο Δέντρο Επιθεμάτων το οποίο αποθηκεύει όλα τα δυνατά επιθέματα ενός συνόλου συμβολοσειρών S={S1,S2,…Sn}


1900382
Αλγόριθμοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συμβολοσειρών.

  • Επιτρέπεται η ύπαρξη διαφοροποιήσεων στις εμφανίσεις του προτύπου, που προκύπτουν από την

    • αντικατάσταση,

    • προσθήκη ή

    • διαγραφή συμβόλων.

  • Τοπική - local sequence alignment

  • Ολική - global sequence alignment


1900382
Μέθοδος του Δυναμικού Προγραμματισμού

  • Αναδρομική μέθοδος, η οποία μας επιτρέπει να υπολογίσουμε την απόσταση μετασχηματισμού μεταξύ 2 ακολουθιών και ταυτόχρονα την ακολουθία μετασχηματισμού ή κάτω από ένα διαφορετικό πρίσμα τη στοίχιση-ομοιότητα 2 ακολουθιών.


1900382
Αλγόριθμοι Κατηγοριοποίησης Βιολογικών Δεδομένων

  • Ξεκινώντας από ένα σύνολο δεδομένων, επιχειρεί να το οργανώσει σε ομάδεςομοειδώνστοιχείων που ονομάζουμε συστάδες (clusters).

  • Οι ομάδες αυτές δεν είναι εκ των προτέρων γνωστές αλλά προκύπτουν δυναμικά.

  • Αντίθετα σε μια διαδικασία ταξινόμησης ή επιβλεπόμενης μάθησης (supervisedlearning), οι κλάσεις/ κατηγορίες στις οποίες αντιστοιχίζονται τα δεδομένα, είναι εκ των προτέρων γνωστές και αποτελούν είσοδο στην αντίστοιχη μέθοδο.


1900382
Ιεραρχικές Μέθοδοι Ομαδοποίησης

  • Ιεραρχική Συσσωρευτική Κατηγοριοποίηση- Hierarchical Agglomerative Clustering

  • Ιεραρχική Διαιρετική Κατηγοριοποίηση- Hierarchical Divisive Clustering


Iterative divisive partitioning
Επαναληπτική Διαιρετική Κατηγοριοποίηση- IterativeDivisivePartitioning

  • Ξεκινάμε διαχωρίζοντας το σύνολο των δεδομένων σε έναν αριθμό συστάδων και υπολογίζουμε τα κέντρα βάρους τους.

  • Στη συνέχεια κάθε στοιχείο αντιστοιχίζεται στη συστάδα με το κοντινότερο κέντρο βάρους και υπολογίζουμε εκ νέου τα νέα κέντρα βάρους.

  • Η διαδικασία επαναλαμβάνεται έως ότου τα στοιχεία δεν αλλάζουν συστάδα.

  • Ο πιο αντιπροσωπευτικός αλγόριθμος αυτής της κατηγορίας είναι ο k-means.


ad