ביו-אנפורמטיקה של חלבונים Proteomics

ביו-אנפורמטיקה של חלבונים Proteomics • פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם • בגישה שיטתית ומערכתית ועבודה ב High throughput • מהם החלבונים שהאורגניזם מייצר? • מהן התכונות הפיזיקליות תלויות הרצף של חלבונים אלו? • מהו המבנה השניוני של חלבונים אלו? • מהו המבנה המרחבי של חלבונים אלו?: Structural Genomics • מהו התפקיד של חלבונים אלו? • מהי תבנית הביטוי של חלבונים אלו?: Expression pattern • מהו מנגנון פעולתם? למשל אינטראקציות בין חלבונים. • איך החלבונים עוברים מודיפיקציה (פוספורילציה, גליקוליזציה וכו') • איך החלבונים מתפרקים וממוחזרים?

מציאת החלבונים של אורגניזם בעיה ניסויית קשה: הפרדת חלבונים, ניקוי, ריצוף. קשיים באיתור חלבונים נדירים המתבטאים בכמויות קטנות. באופן חישובי: סריקת הגנום לאיתור חלבונים ע"י זיהוי סיגנלים לאזורים מקודדים, פרומוטורים, תחילת וסיום קידוד, אקסונים ואינטרונים, וכו. למשל : Genscan עד כמה מוצלחות תוכניות אלו: 95% באיתור האזורים הרלונטיים אבל יותר מ30% מהחלבונים שמזוהים מכילים טעויות בזהוי המדויק של התוצר החלבוני

מה אפשר ללמוד מהרצף הראשוני ? משקל מולקולרי ערכי PI אזורים הידרופוביים/הידרופיליים איזורי טרנסממברנליים המצאות מוטיבים The best source: the Expasy server www.expasy.ch/tools/

ניבוי המבנה השניוני של חלבונים Alpha Helix Beta-strand (sheet) Turns ישנה חלוקה ל4 מצבים ל Alpha, Beta, Turns, Random Coil ישנה חלוקה המאחדת את Turn ואת Random Coil ואז יש שלושה מצבים ישנן חלוקות מפורטות יותר (למשל ל DSSP יש 7 מצבים)

איך קובעים את המבנה השניוני כאשר המבנה התלת מימדי ידוע? המבנה השניוני אינו "נמדד" בניסוי. אמנם בדרך כלל קל לאתר מבנים שניוניים בתוךהמבנה התלת-מימדי אבל לא תמיד הקביעה היא חד-משמעית. הבעיה חמורה במיוחדבקצוות של המבנים. התוכנית DSSP משתמשת ברגולריות של קשרי מימן בתוך החלבון לקביעת המבנים. The DSSP code (www.sander.ebi.ac.uk/dssp/ ) H = alpha helix B = residue in isolated beta-bridge E = extended strand, participates in beta ladder G = 3-helix (3/10 helix) I = 5 helix (pi helix) T = hydrogen bonded turn S = bend Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Kabsch and Sander Biopolymers 22:2577-2637, 1983

איך מנבאים את המבנה השניוני כאשר המבנה התלת מימדי לא ידוע? הרעיון הבסיסי: מסתבר שלחומצות אמיניות שונות יש נטיה שונה להמצא בכל מבנה שניוני H indicates high propensity,h intermediate propensity,i is inhibitory, b is a intermediate breaker, B is a significant breaker בנוסף חשוב לזכור שלמבנים שניוניים יש אורך טיפוסי, ולכן הניבוי צריך להיות קונסיסטנטי למשך קטע

רמזים נוספים מחזוריות של חומצות הידרופוביות / הידרופיליות Helix: Beta sheet נוכחות של חומצות פולריות קטנות (A,S,T) ובעיקר G אופיינית ל TURNSP : בעל שרשרת ראשית מיוחדת ולכן יוצר kink , לא מתאים למשל למרכז של מבני Helix מאד מתאים לקצה ה N-terminal של Helices

איך קובעים הצלחה בניבוי המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment

איך קובעים צלחה בניבוי המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment Q3 is 18/30 = 0.6 SOV נותן משקל חזק יותר לחומצות במרכז מאשר לחומצות בקצוות. MCC מחשב את הקורלציות בין הניבוי למבנה הנכון.

בשנות ה 70 הופיעו תוכנות שנבנו על סמך עיקרונות אלו: Nagano 1973 – Interactions of residues in a window of 6. The interactions were linearly combined to calculate interacting residue propensities for each SSE type (H, E or C) over 95 crystallographically determined protein tertiary structures. Lim 1974 – Predictions are based on a set of complicated stereochemical prediction rules for a-helices and b-sheets based on their observed frequencies in globular proteins. Chou-Fasman 1974 - Predictions are based on differences in residue type composition for three states of secondary structure: a-helix, b-strand and turn Neighbouring residues were checked for helices and strands and predicted types were selected according to the higher scoring preference and extended as long as unobserved residues were not detected (e.g. proline) and the scores remained high. The GOR 1978 method relies on the frequencies observed for residues in a 17- residue window (i.e. eight residues N-terminal and eight C-terminal of the central window position) for each of the three structural states. The performance of these methods ranged between 55-65% for Q3.

The amino acid frequencies are converted to secondary structure propensities for the central window position using an information function based on conditional probabilities. As it is not feasible to sample all possible 17-residue fragments directly from the PDB (there are 2017 possibilities) increasingly complex approximations have been applied. In GOR I and GOR II, the 17 positions in the window were treated as being independent, and so single-position information could be summed over the 17-residue window. In GOR III, this approach was refined by including pair frequencies derived from 16 pairs between each non-central and the central residue in the 17-residue window. The current version, GOR IV combines pair-wise information over all possible paired positions in a window .

השיפורים שהוצעו ב שנות ה 80 מסדי נתונים גדולים בהרבה שימוש בהתאמה מרובת רצפים (אם יש Helix באזור מסוים ברוב הגדול של החלבונים במשפחה סביר שזה יהיה המצב גם בחלבון נוסף השייך למשפחה) שימוש באלגוריתמים מתוחכמים יותר (כמו רשתות נוירונים או HMM ) לשיקלולהתרומה של מרכיבים שונים בתהליך ההחלטה.

Example Neural Network Training pattern One of n inputs, each with 21 bits From Bioinformatics by David W. Mount, p. 453

How PHD works Step 1. BLAST search with input sequence Step 2. Perform multiple seq. alignment and calculate aa frequencies for each position

How PHD works Step 3. First Level: “Sequence to structure net” Input: alignment profile, Output: units for H, E, L Similar to GORIII method (window size =13). Calculate “occurrences” of any of the residues to be present in either an a-helix, b-strand, or loop. 1 2 3 4 5 6 7 H = 0.05 E = 0.18 L= 0.67 N=0.2, S=0.4, A=0.4

How PHD works Step 3. Second Level: “Structure to structure net” Input: First Level values, Output: units for H, E, L Window size = 17 H = 0.59 E = 0.0.9 L= 0.31 E=0.18 Step 4. Decision level

הדיוק בניבוי שיפור נוסף של PHD הוא מתן ניקוד לאזורים בהם צפוי להיות אמין יותר ולאזורים אמינים פחות. באזורים האמינים מגיע PHD לכמעט 80%.

בשנים האחרונות נבדקת הצלחת הניבויים כחלק מתחרויות CASP הבודקת באופןאוביקטיבי את יכולות הניבוי של מבנים שניוניים ושל המבנה התלת מימדי. התחרות כוללת תת-תחרות הנקראת CAFASP ניבוי ע"י שרתים אוטומטיים

התפתחה תופעה של Meta-servers העושים החלטה משותפת (מעין ממוצע משוקלל) מתוך התוצאות של השרתים הבודדים. שיטות אלו הביאו לשיפור איטי ביכולת הניבוי שעומדת כיום על כ 75-78 %

מה גבול הניבוי האפשרי? צריך לקחת בחשבון את הנקודות הבאות: יש גבול לרמה שבה הרצף הלוקלי קובע את המבנה התלת-מימדי יש בחלבונים איזורים רבים שאינם בעלי מבנה שניוני יציב יש בעיה בהגדרה חד-משמעית של המבנים במיוחד בקצוות. כתוצאה מכך מקובל להניח שגבול הניבוי האפשרי הוא כ 90%

בשביל מה אנו צריכים את הניבוי הזה? • בדרך כלל אין חשיבות לניבוי המבנה השניוני בלבד, אבל הואנחשב כשלב חשוב בניבוים אחרים. • לביצוע יותר מוצלח של התאמה מרובת רצפים (שימו לב לטיעון המעגלי) וזאת לצורך הבלטת האיזורים המשותפים שהם בדרך כלל האיזורים החשובים פונקציונלית. • בתור שלב ראשון לביצוע Modeling : ניבוי המבנה התלת מימדי ע"ס הדמיון למבנה ידוע של חלבון דומה ברצף. • בתור שלב ראשון בתהליך ניבוי מבנה שלישוני, קודם ננבא את המבנה השניוני, ואח"כ נחליט איך מסדרים את האלמנטים האלה לצורך קביעת מבנה תלת-מימדי.

ניבוי מבנה שניוני • קביעת אזורי המבנה השניוני ממבנה ידוע:dssp, stride • ניבוי מרצף בודד : psa, sscp, sosui • ניבוי ע”ס התאמה מרובת מבנים: PHD, PRIDCT עקרונות מדעיים: • לחומצות שונות יש נטיה שונה להיות באלמנטי מבנה שניוני. • למבנים שניוניים יש רציפות ואורך אופיני • במשפחות חלבונים יש נטיה לשימור המבנה השניוני. אחוז ההצלחה בניבוי: 70-75%.

Structural bioinformaticsביואינפורמטיקה מבנית • התמחות בשיטות ממוחשבות לאנליזה של מבנה חלבונים וDNA. • יכולת "לנבא" אינפורמציה מבנית ובכך לחסוך בניסוים ארוכים ויקרים. • יכולת לתכנן מבנים מולקולרים.

מקור המידע המבניPDB מאגר המבניםכעת ב: www.rcsb.org • קריסטלוגרפיה 1. גיבוש החלבון ויצירת מספר עצום של מולקולות בעלות אורינטציה דומה. 2. הקרנת הגביש בקרני X 3. רישום תבנית הדיפראקציה 4. בתהליך של חישוב הפוך מוצאים את המבנה בעל אותה תבנית הטכניקה מאוד מדויקת לחלבונים בעלי מבנה מקובע. לא יעילה לחלבונים ממברנליים.

NMRתהודה גרעינית מגנטית • חלבון בתמיסה • ערעור גרעין מסוים ומדידת שינוי בתכונות המגנטיות של אטומים סמוכים. • הערכת מרחקים בין זוגות של אטומים. • חישוב אוסף מבנים, ומבנה ממוצע המקיימים את אילוצי המרחקים. מידע (לא מאד מדויק) על מבנה "גמיש", יעיל למבנים לא גדולים.

PDB: מאגר המבנים החלבוניים

Why classify proteins Number of solved structures grow rapidly Generate overview of structure types Detect similarities (evolutionary relationships) Build model of a protein based on proteinsfrom the same class Set up prediction benchmarks

When are two structures similar? RMS of 6 Ang. – not related RMS of 3-6 Ang – related RMS less than 3 Ang – similar Two structures are of the same fold if theyhave RMS < 3 Ang over 70% of their length

When are two structures similar? Use the RMS measure (root mean square) for superpositionof corresponding residues When the two molecules are not of the same size, i.e. there are insertions and deletions in one relative to the other, the problem is much more complicated.

Classification schemes SCOP Manual classification (A Murzin) CATH Semi manual classification (C orengo) FSSP Automatic classification (L Holm)

Levels in SCOP Class 10 Folds 648 Superfamilies 1007 Families 1699 Murzin et al., 1995 http://scop.mrc-lmb.cam.ac.uk/scop/

Major classes in scop Classes All alpha proteins Alpha and beta proteins (a/b) Alpha and beta proteins (a+b) Multi-domain proteins Membrane and cell surface proteins Small proteins

All alpha: Hemoglobin (1bab)

All beta: Immunoglobulin (8fab)

Alpha/beta: Triosephosphate isomerase (1hti)

Alpha+beta: Lysozyme (1jsf)

Families

ניבוי מבנה תלת-מימדי יש בעיקרון שלוש רמות של עבודה בנושא זה • כאשר לחלבון שעבורו רוצים לנבא מבנה יש חלבון הומולוגי שעבורוהמבנה ידוע Modeling • כאשר אין חלבון מסוים ידוע אבל סביר להניח שהחלבון שייךלמשפחה ידועה Fold recognition • כאשר כמעט דבר לא ידוע על החלבון או כאשר סביר להניח שמדובר במבנה חדש Ab-initio prediction

ניבוי מבנה תלת-מימדישיטות ביו-אינפורמטיות העקרון המנחה: יש הרבה יותר רצפים ממבנים (כמה אלפי מבנים). לכן: יש סיכוי סביר שהמבנה המבוקש כבר ידוע. • אם קיים דמיון גבוה (מעל % 25-30 ) לחלבון בעל מבנה ידוע, ניתן להשתמש בו כבסיס לחלבון החדש. (Swissmodel ) • אם הדמיון נמוך (אזור הדימדומים % 15-25 ) יש להעזר בשיטות של פרופילים ו Threading )

Modeling מציאת החלבון, בעל מבנה ידוע, הדומה ביותר לחלבון הנתון. בצוע התאמה בין החלבון הנתון לחלבון הידוע. לגבי האזורים המותאמים: להעתיק את השרשרת הראשית, לחשב מחדש את השרשראותהצדדיות. לגבי האזורים החסרים: לבצע Loop Building לבצע refinement של המבנה המתקבל.

כל עוד הדמיון בין החלבון החדש לחלבון התבנית הוא מאד גבוה (למעלה מ50%) ניתן לקבל ניבוי סביר (אם כי לא מושלם)ע"י תוכנות קיימות. מתחת לרמת דמיון זו האמינות יורדת משמעותית, אבל כדאי בכל זאת לנסות עבורדמיון מעל 25-30% למשל Swissmodel http://www.expasy.org/swissmod/SWISS-MODEL.html

כאשר הדמיון ברצף נמוך יותר המטרה אינה לקבל מבנה מדויק אלא לזהותאת ה Fold

פרופילים • עבור כל מבנה ידוע בונים פרופיל מבני: לכל עמדה מאפינים פרמטרים מבניים למשל: פנים / חוץ מבנה שניוני פולריות. אוספים מה PDBסטטיסטיקות לגבי ההתאמה של כל סוג של חומצה למאפינים אלו. מבצעים התאמה (string matching) בין הרצף החדש למחרוזת האפיון של המבנה הקיים.

THREADING אוספים מה PDBסטטיסטיקות לגבי המרחקים האופיניים בין כל זוג אפשרי של סוגי חומצות ונטייתם להמצא בפנים או בחוץ. שוזרים את הרצף החדש ע”ג המבנה הידוע ומחשבים את “האנרגיה “ של ההתאמה. מאחר שיש צורך ביצירת רוחים, ומדובר השוואת רצף למבנה הבעיה החישובית קשה! THREADER, 123D

ניבוי מבנה תלת-מימדישיטות ישירות • חישובי מינימום אנרגיה (CHARMM, Amber) • דינמיקה מולקולרית (Discover, Gromos ) • ניבוי מבנה שניוני והרכבת האלמנטים השניוניים למבנה תלת ממדי. • ניבוי מבנים לוקליים עבור רצפים קצרים (Building Blocks) תוך בחירת כמה אפשרויות לכל רצף, חיבור המבנים הקצרים למבנים מלאים באופנים שונים תהליך היוצר עשרות אלפי מבנים אפשריים, סינון המבנים תוך שימוש בפונקציות אנרגיה ע"מ לקבל מספר קטן של ניבויים סופיים.

קביעת הפונקציה של החלבון • שאלת השאלות בביולוגיה מודרנית. • ההגדרה של "פונקציה של חלבון" היא בעייתית. • באופן ניסויי: • עבודה ביו-כימית • Knock-out • RNAi

ביו-אנפורמטיקה של חלבונים Proteomics

ביו-אנפורמטיקה של חלבונים Proteomics

Presentation Transcript

Improving Sensitivity by Combining Results from Multiple Search Methodologies

Encyclopedia of Genetics, Genomics, Proteomics and Bioinformatics

Statistical Bioinformatics

High-throughput Proteomics

Molecular Cell Biology of the Yeast Saccharomyces cerevisiae

2-D Electrophoresis

Proteomics Informatics –

Proteogenomics

Quantitative Proteomics: Applications and Strategies

Principles of Shotgun Proteomics and Proteogenomics

Protein Identification by Sequence Database Search

Quantitative proteomics

From Washington to Beijing

Structural proteomics lecture 4: Biophysical dissection of protein complexes

Lecture 9.2: Homology and Structural Similarity (What do when you have no structure ...)

Interpreting MS/MS Proteomics Results

醫學新知導論 Mass Spectrometry in Biotechnology/Proteomics

Biomedical informatics for proteomics

Proteomics Informatics – Protein identification III: de novo sequencing (Week 6)

ביו-אנפורמטיקה של חלבונים Proteomics

Lecture 5 Why computer science needs philosophy

Orbitrap Mass Analyser - Overview and Applications in Proteomics