170 likes | 326 Views
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία Επιβλέπων Καθηγητής: Βλαχάβας Ιωάννης. Θέματα Παρουσίασης. Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Βιοπληροφορική Σημείο Έναρξης Μετάφρασης
E N D
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία Επιβλέπων Καθηγητής: Βλαχάβας Ιωάννης
Θέματα Παρουσίασης • Ανακάλυψη Γνώσης από Βάσεις Δεδομένων • Βιοπληροφορική • Σημείο Έναρξης Μετάφρασης • Υλοποίηση • Συγκρίσεις - Συμπεράσματα
Ανακάλυψη Γνώσης από Βάσεις Δεδομένων • Πρότυπα Πληροφόρησης από μάθηση χωρίς επίβλεψη. • Κανόνες Συσχέτισης • Ομαδοποίηση • Πρότυπα Πρόβλεψηςαπό μάθηση με επίβλεψη • Κατηγοριοποίηση • Παλινδρόμηση (Γραμμική - Νευρωνικά Δίκτυα) • Bayes
Βιοπληροφορική Είναι η νέα επιστημονική περιοχή, αφοσιωμένη στη διαχείριση, ανάλυση, οργάνωση και ερμηνεία των βιολογικών δεδομένων με τη χρήση προηγμένων υπολογιστικών τεχνικών. • Γενωμική • Πρωτεωμική • Μικροσυστοιχίες • Τεχνική SAGE • Τράπεζες Δεδομένων
Πρόβλεψη των TIS • Με Νευρωνικά Δίκτυα • Pedersen και Nielsen • Χατζηγεωργίου • Με Μηχανές Διανυσμάτων Υποστήριξης • Zien et al. • Με Δημιουργία και Επιλογή Χαρακτηριστικών • Zeng et al. • Liu et al.
Δημιουργία Χαρακτηριστικών Εφαρμόζεται σε κάθε υποψήφιο TIS ένα παράθυρο 203 θέσεων κεντραρισμένο στο TIS και αριθμούνται οι βάσεις. A C C G T A C ATG G G C A T -7 -6 -5 -4 -3 -2 -1 1 2 3 4 5 6 7 8 • Θέσεις νουκλεοτιδικών βάσεων • k-grams (k=1…5) • In-frame 3-grams
Επιλογή Χαρακτηριστικών • Επιλογή χαρακτηριστικών βασισμένη στη συσχέτιση (CFS) με 3-fold cross validation. • Κρίνονται σημαντικά 9 χαρακτηριστικά. • pos –3 • in-frame upstream ATG • in-frame downstream TAA, TAG, TGA, CTG, GAC,GAG, GCC • Ακολουθία Kozak GCC[A/G]CCATGG
Εκπαίδευση-Δοκιμή Ακολουθιών • Μετά την επιλογή των χαρακτηριστικών, γίνεται η κατηγοριοποίηση με NB, SVM και C4.5 και υπολογισμός των • Ευαισθησία (sensitivity) • Ειδικότητα (specificity) • Ορθότητα (precision) • Ακρίβεια (accuracy)
Υλοποίηση Ακολουθήθηκε η προσέγγιση των Zeng et al. Χρησιμοποιήθηκαν 3312 ακολουθίες με 13503 ATGs. Στα δεδομένα εφαρμόζεται παράθυρο των 21, 33, 69, 201 θέσεων. • Δημιουργία Χαρακτηριστικών • Διαφορές μεταξύ των βάσεων • Θέση μιας βάσης σε ένα κωδικόνιο • Ύπαρξη Α ή G στη θέση –3 • Απόσταση ATG από την αρχή της ακολουθίας και αύξουσα σειρά του ΑTG • Απόσταση κωδικονίου λήξης από το ATG • Συνολικά 524 χαρακτηριστικά
Υλοποίηση Για την επιλογή των χαρακτηριστικών εφαρμόζεται ο εκτιμητής Information Gain με αναζήτηση ταξινόμησης. Η πρόβλεψη γίνεται με κατηγοριοποίηση (C4.5) και 10-fold cross validation. Τα αποτελέσματα της ακρίβειας των προβλέψεων σε παράθυρο των 33 είναι 78,22%, των 69 είναι 80,99% και των 201 θέσεων είναι 89,98%.
Υλοποίηση Η προσθήκη του χαρακτηριστικού της απόστασης, της σειράς του ATG στην ακολουθία και η ύπαρξη κωδικονίου λήξης βελτιώνει τα αποτελέσματα. down 1G up ATG in down TGA pos –3 up down A-G difference down 2T up down C-T difference pos –1 down 3C • Ευαισθησία (Sensitivity)= 0,944. • Ειδικότητα (Specificity)= 0,738. • Ορθότητα (Precision)= 0,917. • Ακρίβεια (Accuracy)= 0,894.
Μελλοντική Εργασία • Μεγαλύτερα παράθυρα • Περισσότερα σύνολα δεδομένων • Περισσότερα χαρακτηριστικά που δε μελετήθηκαν
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Ευχαριστώ