1 / 67

ביו-אנפורמטיקה של חלבונים Proteomics

ביו-אנפורמטיקה של חלבונים Proteomics. פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם בגישה שיטתית ומערכתית ועבודה ב High throughput מהם החלבונים שהאורגניזם מייצר? מהו המבנה המרחבי של חלבונים אלו?: Structural Genomics מהו התפקיד של חלבונים אלו?

Download Presentation

ביו-אנפורמטיקה של חלבונים Proteomics

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ביו-אנפורמטיקה של חלבונים Proteomics • פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם • בגישה שיטתית ומערכתית ועבודה ב High throughput • מהם החלבונים שהאורגניזם מייצר? • מהו המבנה המרחבי של חלבונים אלו?: Structural Genomics • מהו התפקיד של חלבונים אלו? • מהי תבנית הביטוי של חלבונים אלו?: Expression pattern • מהו מנגנון פעולתם? למשל אינטראקציות בין חלבונים. • איך החלבונים עוברים מודיפיקציה (פוספורילציה, גליקוליזציה וכו') • איך החלבונים מתפרקים וממוחזרים?

  2. Why do we need Proteomics?

  3. DNA

  4. Protein Structure • Each protein is folded into a specific three dimension structure. • The structure is determined by the sequence, but the process is not well understood. • Knowing the structure is a key to understanding the function. • The structure of about 5,000 proteins is experimentally known. • Computing the structure from the sequence is a grand challenge.

  5. Proteomics in Israel Israel has a long and distinguished tradition in Protein Science Peptide Research: Katzir, Sela, Arnon  Teva : | Copaxone Physical chemistry of proteins: Lifson, Levitt Ribosome structure: Yonat Protein Modifications: Sharon  Glycodata, Glycominds Protein degradation:, Hershko, Ciechanover P53 regulation: Oren and Rotter Growth factor receptors: Schlessinger, Yarden  PrediX

  6. מציאת החלבונים של אורגניזם בעיה ניסויית קשה: הפרדת חלבונים, ניקוי, ריצוף. קשיים באיתור חלבונים נדירים המתבטאים בכמויות קטנות. באופן חישובי: סריקת הגנום לאיתור חלבונים ע"י זיהוי סיגנלים לאזורים מקודדים, פרומוטורים, תחילת וסיום קידוד, אקסונים ואינטרונים, וכו. למשל : Genscan עד כמה מוצלחות תוכניות אלו: 95% באיתור האזורים הרלונטיים אבל יותר מ30% מהחלבונים שמזוהים מכילים טעויות בזהוי המדויק של התוצר החלבוני

  7. Structural bioinformaticsביואינפורמטיקה מבנית • התמחות בשיטות ממוחשבות לאנליזה של מבנה חלבונים וDNA. • יכולת "לנבא" אינפורמציה מבנית ובכך לחסוך בניסוים ארוכים ויקרים. • יכולת לתכנן מבנים מולקולרים.

  8. מקור המידע המבניPDB מאגר המבניםכעת ב: www.rcsb.org • קריסטלוגרפיה 1. גיבוש החלבון ויצירת מספר עצום של מולקולות בעלות אורינטציה דומה. 2. הקרנת הגביש בקרני X 3. רישום תבנית הדיפראקציה 4. בתהליך של חישוב הפוך מוצאים את המבנה בעל אותה תבנית הטכניקה מאוד מדויקת לחלבונים בעלי מבנה מקובע. לא יעילה לחלבונים ממברנליים.

  9. NMRתהודה גרעינית מגנטית • חלבון בתמיסה • ערעור גרעין מסוים ומדידת שינוי בתכונות המגנטיות של אטומים סמוכים. • הערכת מרחקים בין זוגות של אטומים. • חישוב אוסף מבנים, ומבנה ממוצע המקיימים את אילוצי המרחקים. מידע (לא מאד מדויק) על מבנה "גמיש", יעיל למבנים לא גדולים.

  10. כלי הצגה וניתוח • כלי הצגה:תוכנות לתצוגה מולקולרית: Rasmol, CHIME,Swiss PDB viewer • אנליזה ויזואלית: QUANTA, DISCOVER • וריפיקציה מבנית: WHATIF, .PROCHECK . אתגרים חישוביים: איכות תמונה, (למשל הצללה) מניפלציה ב REAL TIME בעיקר ב CPK תמונה תלת-מימדית (סטריו) אנימציה

  11. ניבוי המבנה השניוני של חלבונים Alpha Helix Beta-strand (sheet) Turns ישנה חלוקה ל4 מצבים ל Alpha, Beta, Turns, Random Coil ישנה חלוקה המאחדת את Turn ואת Random Coil ואז יש שלושה מצבים ישנן חלוקות מפורטות יותר (למשל ל DSSP יש 7 מצבים)

  12. איך קובעים את המבנה השניוני כאשר המבנה התלת מימדי ידוע? המבנה השניוני אינו "נמדד" בניסוי. אמנם בדרך כלל קל לאתר מבנים שניוניים בתוךהמבנה התלת-מימדי אבל לא תמיד הקביעה היא חד-משמעית. הבעיה חמורה במיוחדבקצוות של המבנים. התוכנית DSSP משתמשת ברגולריות של קשרי מימן בתוך החלבון לקביעת המבנים. The DSSP code (www.sander.ebi.ac.uk/dssp/ ) H = alpha helix B = residue in isolated beta-bridge E = extended strand, participates in beta ladder G = 3-helix (3/10 helix) I = 5 helix (pi helix) T = hydrogen bonded turn S = bend Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Kabsch and Sander Biopolymers 22:2577-2637, 1983

  13. איך מנבאים את המבנה השניוני כאשר המבנה התלת מימדי לא ידוע? הרעיון הבסיסי: מסתבר שלחומצות אמיניות שונות יש נטיה שונה להמצא בכל מבנה שניוני H indicates high propensity,h intermediate propensity,i is inhibitory, b is a intermediate breaker, B is a significant breaker בנוסף חשוב לזכור שלמבנים שניוניים יש אורך טיפוסי, ולכן הניבוי צריך להיות קונסיסטנטי למשך קטע

  14. רמזים נוספים מחזוריות של חומצות הידרופוביות / הידרופיליות Helix: Beta sheet נוכחות של חומצות פולריות קטנות (A,S,T) ובעיקר G אופיינית ל TURNSP : בעל שרשרת ראשית מיוחדת ולכן יוצר kink , לא מתאים למשל למרכז של מבני Helix מאד מתאים לקצה ה N-terminal של Helices

  15. איך קובעים הצלחה בניבוי המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment

  16. איך קובעים צלחה בניבוי המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment Q3 is 18/30 = 0.6 SOV נותן משקל חזק יותר לחומצות במרכז מאשר לחומצות בקצוות. MCC מחשב את הקורלציות בין הניבוי למבנה הנכון.

  17. בשנות ה 70 הופיעו תוכנות שנבנו על סמך עיקרונות אלו: Nagano 1973 – Interactions of residues in a window of 6. The interactions were linearly combined to calculate interacting residue propensities for each SSE type (H, E or C) over 95 crystallographically determined protein tertiary structures. Lim 1974 – Predictions are based on a set of complicated stereochemical prediction rules for a-helices and b-sheets based on their observed frequencies in globular proteins. Chou-Fasman 1974 - Predictions are based on differences in residue type composition for three states of secondary structure: a-helix, b-strand and turn Neighbouring residues were checked for helices and strands and predicted types were selected according to the higher scoring preference and extended as long as unobserved residues were not detected (e.g. proline) and the scores remained high. The GOR 1978 method relies on the frequencies observed for residues in a 17- residue window (i.e. eight residues N-terminal and eight C-terminal of the central window position) for each of the three structural states. The performance of these methods ranged between 55-65% for Q3.

  18. The amino acid frequencies are converted to secondary structure propensities for the central window position using an information function based on conditional probabilities. As it is not feasible to sample all possible 17-residue fragments directly from the PDB (there are 2017 possibilities) increasingly complex approximations have been applied. In GOR I and GOR II, the 17 positions in the window were treated as being independent, and so single-position information could be summed over the 17-residue window. In GOR III, this approach was refined by including pair frequencies derived from 16 pairs between each non-central and the central residue in the 17-residue window. The current version, GOR IV combines pair-wise information over all possible paired positions in a window .

  19. השיפורים שהוצעו ב שנות ה 80 מסדי נתונים גדולים בהרבה שימוש בהתאמה מרובת רצפים (אם יש Helix באזור מסוים ברוב הגדול של החלבונים במשפחה סביר שזה יהיה המצב גם בחלבון נוסף השייך למשפחה) שימוש באלגוריתמים מתוחכמים יותר (כמו רשתות נוירונים או HMM ) לשיקלולהתרומה של מרכיבים שונים בתהליך ההחלטה.

  20. Example Neural Network Training pattern One of n inputs, each with 21 bits From Bioinformatics by David W. Mount, p. 453

  21. How PHD works Step 1. BLAST search with input sequence Step 2. Perform multiple seq. alignment and calculate aa frequencies for each position

  22. How PHD works Step 3. First Level: “Sequence to structure net” Input: alignment profile, Output: units for H, E, L Similar to GORIII method (window size =13). Calculate “occurrences” of any of the residues to be present in either an a-helix, b-strand, or loop. 1 2 3 4 5 6 7 H = 0.05 E = 0.18 L= 0.67 N=0.2, S=0.4, A=0.4

  23. How PHD works Step 3. Second Level: “Structure to structure net” Input: First Level values, Output: units for H, E, L Window size = 17 H = 0.59 E = 0.0.9 L= 0.31 E=0.18 Step 4. Decision level

  24. הדיוק בניבוי שיפור נוסף של PHD הוא מתן ניקוד לאזורים בהם צפוי להיות אמין יותר ולאזורים אמינים פחות. באזורים האמינים מגיע PHD לכמעט 80%.

  25. בשנים האחרונות נבדקת הצלחת הניבויים כחלק מתחרויות CASP הבודקת באופןאוביקטיבי את יכולות הניבוי של מבנים שניוניים ושל המבנה התלת מימדי. התחרות כוללת תת-תחרות הנקראת CAFASP ניבוי ע"י שרתים אוטומטיים

  26. התפתחה תופעה של Meta-servers העושים החלטה משותפת (מעין ממוצע משוקלל) מתוך התוצאות של השרתים הבודדים. שיטות אלו הביאו לשיפור איטי ביכולת הניבוי שעומדת כיום על כ 75-78 %

  27. מה גבול הניבוי האפשרי? צריך לקחת בחשבון את הנקודות הבאות: יש גבול לרמה שבה הרצף הלוקלי קובע את המבנה התלת-מימדי יש בחלבונים איזורים רבים שאינם בעלי מבנה שניוני יציב יש בעיה בהגדרה חד-משמעית של המבנים במיוחד בקצוות. כתוצאה מכך מקובל להניח שגבול הניבוי האפשרי הוא כ 90%

  28. בשביל מה אנו צריכים את הניבוי הזה? • בדרך כלל אין חשיבות לניבוי המבנה השניוני בלבד, אבל הואנחשב כשלב חשוב בניבוים אחרים. • לביצוע יותר מוצלח של התאמה מרובת רצפים (שימו לב לטיעון המעגלי) וזאת לצורך הבלטת האיזורים המשותפים שהם בדרך כלל האיזורים החשובים פונקציונלית. • בתור שלב ראשון לביצוע Modeling : ניבוי המבנה התלת מימדי ע"ס הדמיון למבנה ידוע של חלבון דומה ברצף. • בתור שלב ראשון בתהליך ניבוי מבנה שלישוני, קודם ננבא את המבנה השניוני, ואח"כ נחליט איך מסדרים את האלמנטים האלה לצורך קביעת מבנה תלת-מימדי.

  29. ניבוי מבנה שניוני • קביעת אזורי המבנה השניוני ממבנה ידוע:dssp, stride • ניבוי מרצף בודד : psa, sscp, sosui • ניבוי ע”ס התאמה מרובת מבנים: PHD, PRIDCT עקרונות מדעיים: • לחומצות שונות יש נטיה שונה להיות באלמנטי מבנה שניוני. • למבנים שניוניים יש רציפות ואורך אופיני • במשפחות חלבונים יש נטיה לשימור המבנה השניוני. אחוז ההצלחה בניבוי: 70-75%.

  30. הרצף: וריאציה של Myoglobin (בערך 40% מוטציות) הפלט : מאד מפורט :::::

  31. PDB: Structural Protein Database www.pdb.org Many entries are redundant,actually between 3000-5000 unique proteinsare included.

  32. PDB is growing fast

  33. The number of NEW folds discovered is not growing fast

  34. PDB: The actual information::::::

  35. Why classify proteins Number of solved structures grow rapidly Generate overview of structure types Detect similarities (evolutionary relationships) Build model of a protein based on proteinsfrom the same class Set up prediction benchmarks

  36. When are two structures similar? RMS of 6 Ang. – not related RMS of 3-6 Ang – related RMS less than 3 Ang – similar Two structures are of the same fold if theyhave RMS < 3 Ang over 70% of their length

  37. When are two structures similar? Use the RMS measure (root mean square) for superpositionof corresponding residues

  38. Classification schemes SCOP Manual classification (A Murzin) CATH Semi manual classification (C orengo) FSSP Automatic classification (L Holm)

  39. Levels in SCOP Class 10 Folds 648 Superfamilies 1007 Families 1699 Murzin et al., 1995 http://scop.mrc-lmb.cam.ac.uk/scop/

  40. Major classes in scop Classes All alpha proteins Alpha and beta proteins (a/b) Alpha and beta proteins (a+b) Multi-domain proteins Membrane and cell surface proteins Small proteins

  41. All alpha: Hemoglobin (1bab)

  42. All beta: Immunoglobulin (8fab)

  43. Alpha/beta: Triosephosphate isomerase (1hti)

  44. Alpha+beta: Lysozyme (1jsf)

  45. Folds* Each Class may be divided into one or more folds Proteins which have the same (>~50%) secondary structure elements arranged the in the same order in the protein chain and in three dimensions are classified as having the same fold *confusingly also called fold classes

  46. Superfamilies Superfamilies are a subdivisions of folds A superfamily contains proteins which are thought to be evolutionarily related due to Sequence Function Special structural features Relationships between members of a superfamily may not be readily recognizable from the sequence alone

  47. Families Subdivision of supefamilies Contains members whose relationship is readily recognizable from the sequence (>~25% sequence identity) Families are further subdivided in to Proteins Proteins are divided into Species The same protein may be found in several species

  48. Families

More Related