1 / 30

השוואת רצפים

השוואת רצפים. השוואה בין שני רצפים ביולוגיים: מדוע משווים?

Download Presentation

השוואת רצפים

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. השוואת רצפים

  2. השוואה בין שני רצפים ביולוגיים: מדוע משווים? 1. התאמה של רצף אחד שלגביו לא ידוע לנו דבר (למשל רצף חלבון שבודדנו במעבדה), לרצף שני שידוע שהוא "שייך" שלגביו ידועים פרטים נוספים. ההנחה היא שמאופן הדמיון בין הרצפים נוכל להשליך מהידע לגבי תיפקודו של החלבון המוכר לגבי תיפקודו של החלבון הלא-מוכר. 2. שני רצפים מוכרים כאשר מפרטי ההשוואה נרצה ללמוד על מה דומה ומה שונה בינהם. שימו לב: כאשר יש רצף נתון ורוצים לבדוק האם קיים לו בכלל רצף דומה במאגר המידע, משתמשים בכלים אחרים שנועדו לחיפושים במאגרי מידע, למשל ב BLAST

  3. השוואה בין שני רצפים ביולוגיים: מי משווים? גנום או רצף של יחידה בודדת (גן או חלבון) דנ"א או חלבון איך משווים? השוואה ישירה: (לספור אותיות דומות) T H E R E W A S A S M A L L G A P | | | | | H E R E I S A S M A L L E R G A P 5/17

  4. שיטה כמותית להשוואה בין רצפים: התאמת רצפים Sequence Alignment הצגת הרצפים זה מעל זה באופן שיבליט את האותיות והאיזורים הדומים ברצפים. בדר"כ יש צורך לפתוח רווחים בשני הרצפים ע"מ להגיע למצב שבו מקסימום האותיות הזהות או הדומות יופיעו זו מעל זו. למשל עבור הרצפים AACGTAGATA ו ATACGGAGAAהתאמה אפשרית היא: A-ACGTAGATA ATACGGAGA-A

  5. שיטה כמותית להשוואה בין רצפים: התאמת רצפים Sequence Alignment כאשר עוסקים בהתאמת רצפים יש להתייחס לשלוש שאלות: א. כימות המדד לאיכות ההתאמה. כלומר אם נתונות שתי התאמות שונות בין זוג רצפים איך נדע מי טובה יותר? אינטואיטיבית ניתן ציון טוב יותר להתאמה שבה על ידי הוספה של מינימום רווחים נקבל מקסימום של אותיות זהות הנמצאות זו מעל זו. צריך להפוך אינטואיציה זו למדד כמותי. ב. השיטה (האלגוריתם) לחישוב ההתאמה האופטימלית: נניח שהחלטנו בסעיף א' על מדד כמותי לאיכות ההתאמה, כלומר אם ההתאמה כבר נתונה אנו יודעים איך לחשב את ערכה המספרי. עדיין קיימת השאלה המרכזית, כאשר נתונים זוג רצפים מהי השיטה שבה נבנה את ההתאמה הטובה ביותר? ברור שיש מספר עצום של אפשרויות שונות לפתוח רווחים בתוך כל רצף ועל ידי כך ליצור התאמות שונות. אנו מחפשים אלגוריתם יעיל שיאפשר למצוא את ההתאמה האופטימלית בזמן חישוב סביר. ג. לאחר חישוב ההתאמה האופטימלית, מהי הדרך המקובלת להציג את ההתאמה?

  6. מה המספר המינימלי של פעולות עריכה הנדרש ע"מ להגיע מרצף אחד לשני? פעולות עריכה: הוספת אות, הורדת אות, החלפת אות. המרחק נקרא מרחק עריכה (EDIT-DISTANCE) T H E R E W A S A S M A L L G A P T H E R E W A S A S M A L L G A P H E R E W A S A S M A L L G A P H E R E A S A S M A L L*G A P H E R E A S A S M A L L E*G A P H E R E A S A S M A L L E R G A P H E R E I S A S M A L L E R G A P

  7. אם בונים התאמה שמשקפת את רצף הפעולות שבצענו, רואים שהדמיון עולה

  8. את הבעיה פותרים בתהליך חישובי המכונה תיכנות דינמי (תיכנון דינמי)(DP-Dynamic Programming) (למעשה השם הנכון הוא תיכנון דינמי אבל המינוח תיכנות דינמי השתרש). בתיכנות דינמי, פותרים בעיות מסובכות שלא ניתן לפתור אותן ישירות, על ידי פיצול הבעיה לבעיות חלקיות ההולכות וגדלות. אלגוריתם התיכנות הדינמי פותר את הבעיות החלקיות ושומר את התשובות בטבלה, והפתרון לבעיות החלקיות הגדולות מסתמך על הפתרונות לבעיות החלקיות הקטנות יותר שכבר נפתרו. בסיום התהליך מגיעים לפתרון הבעיה הראשית. את העבודה בשיטת התכנון הדינמי להתאמת רצפים נחלק טכנית לשלושה שלבים: שלב א - איתחול: מילוי שורת ועמודת האפס שלב ב-מילוי המטריצה: מילוי כל תא ע"ס הערך של שלושה תאים שכבר חושבו שלב ג-סיום: שיחזור לאחור של המסלול לפי השלבים שיצרו את הפתרון האופטימלי ובניית ההתאמהלפי המסלול

  9. למילוי כל משבצת יש שלוש אפשרויות: • להגיע מלמעלה (שקול למחיקת אות) יש להוסיף מחיר מחיקה • להגיע מצד שמאל (שקול להוספת אות) יש להוסיף מחיר הוספה • להגיע מהאלכסון : • אם האותיות המותאמות שונות (שקול להחלפת אות) להוסיף מחיר החלפה • אם האותיות זהות – אין צורך בתשלום נוסף • (נניח בשלב ראשון שמחיר כל הפעולות (מחיקה, הוספה, החלפה) זהה ושווה ל 1 ) • אנו בודקים את כל האפשרויות ובוחרים בזולה ביותר

  10. תת הטבלה המסומנת נותנת את מרחק העריכה בין תתי המחרוזות הרלונטיות: למשל המרחק WAS S _ Iשווה ל 2 ולכן עם נמשיך את התהליך עד למילוי הטבלה כולה נקבל את מרחק העריכה הגלובלי

  11. מונחים: רצפים הומולגיים, פראלוגיים, אורטולוגיים, רצפים דומים. Homologous, Paralogous, orthologous ,similar , רצפים הומולוגיים הם רצפים שהתפתחו מרצף אב קדמון משותף. רצפים אורטלוגיים – רצפים ביצורים שונים שהתפתחו מרצף אב משותף, רצפים פרלוגיים – רצפים בתוך אותו גנום שהתפתחו כתוצאה מהעתקתגנים (gene duplication) יש להקפיד על ההבחנה בין רצפים דומים ורצפים הומולוגיים. לשני רצפים יש אב משותף או שאין להם, ולכן הם הומולוגים או שהם אינם הומולוגים, בשום מקרה הם אינם יכולים להיות "הומולוגים ב-70%". לעומת זאת, רצפים יכולים להיות דומים בדרגות דמיון שונות, למשל "דומים ב-70%". בדר"כ ניתן להסיק ששני רצפים הינם הומולוגים אם קיימת דרגת דימיון גבוהה ביניהם.

  12. עד עכשיו עסקנו במרחק בין שני רצפים וחיפשנו את המרחק המינימלי למעשה מקובל יותר בתוכנות הביו-אינפורמטיות לדבר על דמיון בין רצפים ולחפש את המקסימום. שיטת העבודה של התיכנות הדינמי דומה מאד:אבל יש לשנות את פרטי האתחול ערכי מילוי המטריצה לעבוד על מקסימום ולא מינימום

  13. איתחול: שורה ועמודה של אפסים - מילוי: מקסימום על ערכים משלושת התאים הקודמים כאשר W הוא הקנס על הוספה/הורדה: במקרה שלנו 0 ן si,jהוא הניקוד של התאמת האות במקום ה I במחרוזת האחת לאות במקום ה J במחרוזת השניה. במקרה שלנו קנס של 0 אם האותיות שונות ופרס של 1 אם הן זהות.

  14. בכל תא יש לשמור את המצביע(ים)שהביאו לחישוב הערך באותו תא. כך ניתן בסיום החישוב לשחזר אתהמסלול ולבנות את ההתאמה. G A A T T C A G T T A | | | | | | G G A _ T C _ G _ _ A

  15. ניתן לשנות את פונקצית המחיר: W = -2 הוספה/הורדה si,j= +2 כאשר האותיות דומותsi,j= -1כאשר האותיות שונות

  16. הערך המספרי יצא כמובן שונהאבל ההתאמה שנוצרה זהה. כאשר ההתאמה זהה בפונקציותהתאמה שונות, מתחזקת ההנחהשמדובר בהתאמה אמיתית. G A A T T C A G T T A | | | | | | G G A _ T C _ G _ _ A

  17. זמני ריצה וגודל זכרון נדרש צריך למלא מטריצה בגודל n*m ( כאשר n,mאורך הרצפים) נניח שהרצפים באותו אורך ונקבל גודל ריבועי ( של n2) זמן: השוואה של שלושה ערכים לכל תא כלומר 3* n2 שימו לב: אם האורך גדל פי שנים הזמן גדל פי ארבע ! עבור השוואה בודדת אין כאן מגבלה, עבור השוואה של גןמול כל מאגר הנתונים בהחלט יש. שיפורים: זכרון: אין צורך לזכור את כל המטריצה, מספיקות שתי שורות מתחלפות, צריך לדאוג לחישוב מחדש של המצביעים אחורה. זמן: אם מוכנים להסתפק בתשובה מספרית כאשר המחרוזות דומות, ותשובה שלילית כללית כאשר הם אינן, ניתן לחשב רק ערכים ב "צינור " יחסית צר מסביב לאלכסון ולחסוך בזמן.

  18. התאמה לוקלית: מציאת האזור המתאים ביותרבין שני רצפים. שוב אותה פונקצית התאמה W = -2הוספה/הורדה si,j= +2 כאשר האותיות דומותsi,j= -1כאשר האותיות שונות השינויים: בשלב איתחול המטריצה הקנס בשורת ועמודת ה אפס לא מצטבר והערך המוכנס שווה ל 0. בשלב המילוי נדרוש שהציון המצטבר על ההתאמה, בכל שלב, לא ירד מתחת לאפס. אם הציון בתא מסויים יורד מתחת לאפס מאפסים אותו. את השיחזור לאחור מתחילים בתא בעל הערך הגבוה ביותר בכל המטריצה ומשחזרים לאחור עד שמגיעים לתא שערכו 0. את המסלול מציגים כהתאמה לפי החוקים שפרטנו. GAATTCAGTTA | || | GGATCGA

  19. הרחבות למודל הבסיסי ניקוד משתנה בהתאם לסוג ההתאמה קנס משתנה בהתאם לאורך ההוספה / הכנסה affine gap penalty ההרחבות תקפות הן להתאמה גלובלית והן להתאמה לוקלית ניתן באותו זמן ריצה (פחות או יותר) לחשב את ההתאמה גם תחתההרחבות האלו. אבל האלגוריתמים הופכים ליותר מסובכים ולא ניכנס אליהם בקורס זה.

  20. שיטת הניקוד שהשתמשנו בה עד כה אינה מתחשבת בסוגים השונים של אי-התאמות שיכולים לנבוע מסוגים שונים של מוטציות. ב-DNA למשל נמצא ש-Transitions מתרחשים בתדירות גבוהה בהרבה מ-Transversions. (Transitions- סוג של מוטציות שבהן בסיס מסוג מסויים מוחלף בבסיס אחר מאותו סוגלמשל פורין המוחלף בפורין אחר, או פירימידין בפירימידין אחר. כלומר קיים שימור של המבנה הטבעתי של הבסיס. Transversions - סוג של מוטציות שבהן פורין מוחלף לפירימידין ולהיפך. (פורין: Adenine, Guanine פירימידין Cytosine, Thymine ) בחלבונים, המצב מורכב יותר מאחר ויש תת קבוצות רבות יותר של חומצות אמיניות: ארומטיות, אליפטיות, בעלות מטען חיובי, בעלות מטען שלילי, הידרופוביות, הידרופיליות וכו' והסיכוי והמשמעות של המוטציות שונות יכולה להיות שונה מאד. נחפש ניקוד שישקף את רמת "הדימיון" בין האלמנטים המוחלפים.

  21. מחיר משתנה להכנסת רווחים (AFFINE GAP PANALTY) GATCAACTAGGATCAACTAG ||| | | || ||||| || GA-G-A-TAGGA---ACTAG עד כה שתי ההתאמות קיבלו קנס זהה על פתיחת רווחים. ביולוגית לא נכון לעשות כךמאחר שאיבוד חלק מרצף הוא ארוע נדיר אבל כאשר הוא קורה יתכן שתורד יותרמאשר אות אחת. ולכן ההתאמה בצד שמאל סבירה יותר מאשר ההתאמה בצד ימין. כדי שהפונקציה תשקף מציאות ביולוגית זו ניתן לחלק את הקנס הניתן על החסרה לשני חלקים. ניקוד מסויים ניתן על עצם פתיחת הרווח וערך אחר ניתן לכל רווח נוסף. נוכל להגדיר את הקנס באופן הבא: w=p+nk כאשר p הוא הקנס על עצם פתיחת הרווח k הוא הקנס על כל החסרה n הוא מספר הרווחים אם נקבע p=3 ו k=1 נקבל בצד שמאל 3 +3 = 6 ואילו בימין 3+1+3+1+3+1=12

More Related