ביו-אנפורמטיקה של חלבונים
Sponsored Links
This presentation is the property of its rightful owner.
1 / 52

ביו-אנפורמטיקה של חלבונים Proteomics PowerPoint PPT Presentation


  • 114 Views
  • Uploaded on
  • Presentation posted in: General

ביו-אנפורמטיקה של חלבונים Proteomics. פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם בגישה שיטתית ומערכתית ועבודה ב High throughput מהם החלבונים שהאורגניזם מייצר? מהן התכונות הפיזיקליות תלויות הרצף של חלבונים אלו? מהו המבנה השניוני של חלבונים אלו?

Download Presentation

ביו-אנפורמטיקה של חלבונים Proteomics

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


ביו-אנפורמטיקה של חלבונים Proteomics

  • פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם

  • בגישה שיטתית ומערכתית ועבודה ב High throughput

  • מהם החלבונים שהאורגניזם מייצר?

  • מהן התכונות הפיזיקליות תלויות הרצף של חלבונים אלו?

  • מהו המבנה השניוני של חלבונים אלו?

  • מהו המבנה המרחבי של חלבונים אלו?: Structural Genomics

  • מהו התפקיד של חלבונים אלו?

  • מהי תבנית הביטוי של חלבונים אלו?: Expression pattern

  • מהו מנגנון פעולתם? למשל אינטראקציות בין חלבונים.

  • איך החלבונים עוברים מודיפיקציה (פוספורילציה, גליקוליזציה וכו')

  • איך החלבונים מתפרקים וממוחזרים?


מציאת החלבונים של אורגניזם

בעיה ניסויית קשה: הפרדת חלבונים, ניקוי, ריצוף.

קשיים באיתור חלבונים נדירים המתבטאים בכמויות קטנות.

באופן חישובי: סריקת הגנום לאיתור חלבונים ע"י זיהוי סיגנלים

לאזורים מקודדים, פרומוטורים, תחילת וסיום קידוד, אקסונים ואינטרונים, וכו.

למשל : Genscan

עד כמה מוצלחות תוכניות אלו:

95% באיתור האזורים הרלונטיים

אבל יותר מ30% מהחלבונים שמזוהים מכילים טעויות בזהוי המדויק של התוצר החלבוני


מה אפשר ללמוד מהרצף הראשוני ?

משקל מולקולרי

ערכי PI

אזורים הידרופוביים/הידרופיליים

איזורי טרנסממברנליים

המצאות מוטיבים

The best source: the Expasy server

www.expasy.ch/tools/


ניבוי המבנה השניוני של חלבונים

Alpha Helix Beta-strand (sheet) Turns

ישנה חלוקה ל4 מצבים ל Alpha, Beta, Turns, Random Coil

ישנה חלוקה המאחדת את Turn ואת Random Coil ואז יש שלושה מצבים

ישנן חלוקות מפורטות יותר (למשל ל DSSP יש 7 מצבים)


איך קובעים את המבנה השניוני כאשר המבנה התלת מימדי ידוע?

המבנה השניוני אינו "נמדד" בניסוי. אמנם בדרך כלל קל לאתר מבנים שניוניים בתוךהמבנה התלת-מימדי אבל לא תמיד הקביעה היא חד-משמעית. הבעיה חמורה במיוחדבקצוות של המבנים.

התוכנית DSSP משתמשת ברגולריות של קשרי מימן בתוך החלבון לקביעת המבנים.

The DSSP code (www.sander.ebi.ac.uk/dssp/ )

H = alpha helix

B = residue in isolated beta-bridge

E = extended strand, participates in beta ladder

G = 3-helix (3/10 helix)

I = 5 helix (pi helix)

T = hydrogen bonded turn

S = bend

Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features.

Kabsch and Sander Biopolymers 22:2577-2637, 1983


איך מנבאים את המבנה השניוני כאשר המבנה התלת מימדי לא ידוע?

הרעיון הבסיסי: מסתבר שלחומצות אמיניות שונות יש נטיה שונה להמצא בכל מבנה שניוני

H indicates high propensity,h intermediate propensity,i is inhibitory, b is a intermediate breaker, B is a significant breaker

בנוסף חשוב לזכור שלמבנים שניוניים יש אורך טיפוסי, ולכן הניבוי צריך להיות קונסיסטנטי למשך קטע


רמזים נוספים

מחזוריות של חומצות הידרופוביות / הידרופיליות

Helix:

Beta sheet

נוכחות של חומצות פולריות קטנות (A,S,T) ובעיקר G אופיינית ל TURNSP : בעל שרשרת ראשית מיוחדת ולכן יוצר kink , לא מתאים למשל למרכז של מבני Helix מאד מתאים לקצה ה N-terminal של Helices


איך קובעים הצלחה בניבוי

המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי

MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction

TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment


איך קובעים צלחה בניבוי

המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי

MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction

TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment

Q3 is 18/30 = 0.6

SOV נותן משקל חזק יותר לחומצות במרכז מאשר לחומצות בקצוות.

MCC מחשב את הקורלציות בין הניבוי למבנה הנכון.


בשנות ה 70 הופיעו תוכנות שנבנו על סמך עיקרונות אלו:

Nagano 1973 – Interactions of residues in a window of 6. The interactions were linearly combined to calculate interacting residue propensities for each SSE type (H, E or C) over 95 crystallographically determined protein tertiary structures.

Lim 1974 – Predictions are based on a set of complicated stereochemical prediction rules for a-helices and b-sheets based on their observed frequencies in globular proteins.

Chou-Fasman 1974 - Predictions are based on differences in residue type composition for three states of secondary structure: a-helix, b-strand and turn Neighbouring residues were checked for helices and strands and predicted types were selected according to the higher scoring preference and extended as long as unobserved residues were not detected (e.g. proline) and the scores remained high.

The GOR 1978 method relies on the frequencies observed for residues in a 17- residue window (i.e. eight residues N-terminal and eight C-terminal of the central window position) for each of the three structural states.

The performance of these methods ranged between 55-65% for Q3.


The amino acid frequencies are converted to secondary structure propensities for the central window position using an information function based on conditional probabilities. As it is not feasible to sample all possible 17-residue fragments directly from the PDB (there are 2017 possibilities) increasingly complex approximations have been applied.

In GOR I and GOR II, the 17 positions in the window were treated as being independent, and so single-position information could be summed over the 17-residue window.

In GOR III, this approach was refined by including pair frequencies derived from 16 pairs between each non-central and the central residue in the 17-residue window.

The current version, GOR IV combines pair-wise information over all possible paired positions in a window .


השיפורים שהוצעו ב שנות ה 80

מסדי נתונים גדולים בהרבה

שימוש בהתאמה מרובת רצפים (אם יש Helix באזור מסוים ברוב הגדול של החלבונים במשפחה סביר שזה יהיה המצב גם בחלבון נוסף השייך למשפחה)

שימוש באלגוריתמים מתוחכמים יותר (כמו רשתות נוירונים או HMM ) לשיקלולהתרומה של מרכיבים שונים בתהליך ההחלטה.


Example Neural Network

Training pattern

One of n inputs, each with 21 bits

From Bioinformatics by David W. Mount, p. 453


How PHD works

Step 1. BLAST search with input sequence

Step 2. Perform multiple seq. alignment and calculate aa frequencies for each position


How PHD works

Step 3. First Level: “Sequence to structure net”

Input: alignment profile, Output: units for H, E, L

Similar to GORIII method (window size =13). Calculate “occurrences” of any of the residues to be present in either an a-helix, b-strand, or loop.

1

2

3

4

5

6

7

H = 0.05

E = 0.18

L= 0.67

N=0.2, S=0.4, A=0.4


How PHD works

Step 3. Second Level: “Structure to structure net”

Input: First Level values, Output: units for H, E, L

Window size = 17

H = 0.59

E = 0.0.9

L= 0.31

E=0.18

Step 4. Decision level


הדיוק בניבוי

שיפור נוסף של PHD הוא מתן ניקוד לאזורים בהם צפוי להיות אמין יותר ולאזורים אמינים פחות. באזורים האמינים מגיע PHD לכמעט 80%.


בשנים האחרונות נבדקת הצלחת הניבויים כחלק מתחרויות CASP הבודקת באופןאוביקטיבי את יכולות הניבוי של מבנים שניוניים ושל המבנה התלת מימדי.

התחרות כוללת תת-תחרות הנקראת CAFASP ניבוי ע"י שרתים אוטומטיים


התפתחה תופעה של Meta-servers העושים החלטה משותפת (מעין ממוצע משוקלל)

מתוך התוצאות של השרתים הבודדים.

שיטות אלו הביאו לשיפור איטי ביכולת הניבוי שעומדת כיום על כ 75-78 %


מה גבול הניבוי האפשרי?

צריך לקחת בחשבון את הנקודות הבאות:

יש גבול לרמה שבה הרצף הלוקלי קובע את המבנה התלת-מימדי

יש בחלבונים איזורים רבים שאינם בעלי מבנה שניוני יציב

יש בעיה בהגדרה חד-משמעית של המבנים במיוחד בקצוות.

כתוצאה מכך מקובל להניח שגבול הניבוי האפשרי הוא כ 90%


  • בשביל מה אנו צריכים את הניבוי הזה?

  • בדרך כלל אין חשיבות לניבוי המבנה השניוני בלבד, אבל הואנחשב כשלב חשוב בניבוים אחרים.

  • לביצוע יותר מוצלח של התאמה מרובת רצפים (שימו לב לטיעון המעגלי) וזאת לצורך הבלטת האיזורים המשותפים שהם בדרך כלל האיזורים החשובים פונקציונלית.

  • בתור שלב ראשון לביצוע Modeling : ניבוי המבנה התלת מימדי ע"ס הדמיון למבנה ידוע של חלבון דומה ברצף.

  • בתור שלב ראשון בתהליך ניבוי מבנה שלישוני, קודם ננבא את המבנה השניוני, ואח"כ נחליט איך מסדרים את האלמנטים האלה לצורך קביעת מבנה תלת-מימדי.


ניבוי מבנה שניוני

  • קביעת אזורי המבנה השניוני ממבנה ידוע:dssp, stride

  • ניבוי מרצף בודד : psa, sscp, sosui

  • ניבוי ע”ס התאמה מרובת מבנים: PHD, PRIDCT

    עקרונות מדעיים:

  • לחומצות שונות יש נטיה שונה להיות באלמנטי מבנה שניוני.

  • למבנים שניוניים יש רציפות ואורך אופיני

  • במשפחות חלבונים יש נטיה לשימור המבנה השניוני.

    אחוז ההצלחה בניבוי: 70-75%.


Structural bioinformaticsביואינפורמטיקה מבנית

  • התמחות בשיטות ממוחשבות לאנליזה של מבנה חלבונים וDNA.

  • יכולת "לנבא" אינפורמציה מבנית ובכך לחסוך בניסוים ארוכים ויקרים.

  • יכולת לתכנן מבנים מולקולרים.


מקור המידע המבניPDB מאגר המבניםכעת ב: www.rcsb.org

  • קריסטלוגרפיה

    1. גיבוש החלבון ויצירת מספר עצום של מולקולות

    בעלות אורינטציה דומה.

    2. הקרנת הגביש בקרני X

    3. רישום תבנית הדיפראקציה

    4. בתהליך של חישוב הפוך מוצאים את המבנה

    בעל אותה תבנית

    הטכניקה מאוד מדויקת לחלבונים בעלי מבנה מקובע.

    לא יעילה לחלבונים ממברנליים.


NMRתהודה גרעינית מגנטית

  • חלבון בתמיסה

  • ערעור גרעין מסוים ומדידת שינוי בתכונות המגנטיות של אטומים סמוכים.

  • הערכת מרחקים בין זוגות של אטומים.

  • חישוב אוסף מבנים, ומבנה ממוצע המקיימים את אילוצי המרחקים.

    מידע (לא מאד מדויק) על מבנה "גמיש", יעיל למבנים לא גדולים.


PDB: מאגר המבנים החלבוניים


Why classify proteins

Number of solved structures grow rapidly

Generate overview of structure types

Detect similarities (evolutionary relationships)

Build model of a protein based on proteinsfrom the same class

Set up prediction benchmarks


When are two structures similar?

RMS of 6 Ang. – not related

RMS of 3-6 Ang – related

RMS less than 3 Ang – similar

Two structures are of the same fold if theyhave RMS < 3 Ang over 70% of their length


When are two structures similar?

Use the RMS measure (root mean square) for superpositionof corresponding residues

When the two molecules are not of the same size, i.e. there are insertions and deletions in one relative to the other, the problem is much more complicated.


Classification schemes

SCOP

Manual classification (A Murzin)

CATH

Semi manual classification (C orengo)

FSSP

Automatic classification (L Holm)


Levels in SCOP

Class10

Folds648

Superfamilies1007

Families1699

Murzin et al., 1995

http://scop.mrc-lmb.cam.ac.uk/scop/


Major classes in scop

Classes

All alpha proteins

Alpha and beta proteins (a/b)

Alpha and beta proteins (a+b)

Multi-domain proteins

Membrane and cell surface proteins

Small proteins


All alpha: Hemoglobin (1bab)


All beta: Immunoglobulin (8fab)


Alpha/beta: Triosephosphate isomerase (1hti)


Alpha+beta: Lysozyme (1jsf)


Families


ניבוי מבנה תלת-מימדי

יש בעיקרון שלוש רמות של עבודה בנושא זה

  • כאשר לחלבון שעבורו רוצים לנבא מבנה יש חלבון הומולוגי שעבורוהמבנה ידוע Modeling

  • כאשר אין חלבון מסוים ידוע אבל סביר להניח שהחלבון שייךלמשפחה ידועה Fold recognition

  • כאשר כמעט דבר לא ידוע על החלבון או כאשר סביר להניח שמדובר במבנה חדש Ab-initio prediction


ניבוי מבנה תלת-מימדישיטות ביו-אינפורמטיות

העקרון המנחה: יש הרבה יותר רצפים ממבנים (כמה אלפי מבנים).

לכן: יש סיכוי סביר שהמבנה המבוקש כבר ידוע.

  • אם קיים דמיון גבוה (מעל % 25-30 ) לחלבון בעל מבנה ידוע, ניתן להשתמש בו כבסיס לחלבון החדש. (Swissmodel )

  • אם הדמיון נמוך (אזור הדימדומים % 15-25 ) יש להעזר בשיטות של פרופילים ו Threading )


Modeling

מציאת החלבון, בעל מבנה ידוע, הדומה ביותר לחלבון הנתון.

בצוע התאמה בין החלבון הנתון לחלבון הידוע.

לגבי האזורים המותאמים: להעתיק את השרשרת הראשית, לחשב מחדש את השרשראותהצדדיות.

לגבי האזורים החסרים: לבצע Loop Building

לבצע refinement של המבנה המתקבל.


כל עוד הדמיון בין החלבון החדש לחלבון התבנית הוא מאד גבוה (למעלה מ50%)

ניתן לקבל ניבוי סביר (אם כי לא מושלם)ע"י תוכנות קיימות. מתחת לרמת דמיון זו האמינות יורדת משמעותית, אבל כדאי בכל זאת לנסות עבורדמיון מעל 25-30%

למשל Swissmodel

http://www.expasy.org/swissmod/SWISS-MODEL.html


כאשר הדמיון ברצף נמוך יותר המטרה אינה לקבל מבנה מדויק אלא לזהותאת ה Fold


פרופילים

  • עבור כל מבנה ידוע בונים פרופיל מבני:

    לכל עמדה מאפינים פרמטרים מבניים למשל:

    פנים / חוץ

    מבנה שניוני

    פולריות.

    אוספים מה PDBסטטיסטיקות לגבי ההתאמה של כל סוג של חומצה למאפינים אלו.

    מבצעים התאמה (string matching) בין הרצף החדש למחרוזת האפיון של המבנה הקיים.


THREADING

אוספים מה PDBסטטיסטיקות לגבי המרחקים האופיניים בין כל זוג אפשרי של סוגי חומצות ונטייתם להמצא בפנים או בחוץ.

שוזרים את הרצף החדש ע”ג המבנה הידוע ומחשבים את “האנרגיה “ של ההתאמה.

מאחר שיש צורך ביצירת רוחים, ומדובר השוואת רצף למבנה הבעיה החישובית קשה!

THREADER, 123D


ניבוי מבנה תלת-מימדישיטות ישירות

  • חישובי מינימום אנרגיה (CHARMM, Amber)

  • דינמיקה מולקולרית (Discover, Gromos )

  • ניבוי מבנה שניוני והרכבת האלמנטים השניוניים למבנה תלת ממדי.

  • ניבוי מבנים לוקליים עבור רצפים קצרים (Building Blocks) תוך בחירת כמה אפשרויות לכל רצף, חיבור המבנים הקצרים למבנים מלאים באופנים שונים תהליך היוצר עשרות אלפי מבנים אפשריים, סינון המבנים תוך שימוש בפונקציות אנרגיה ע"מ לקבל מספר קטן של ניבויים סופיים.


קביעת הפונקציה של החלבון

  • שאלת השאלות בביולוגיה מודרנית.

  • ההגדרה של "פונקציה של חלבון" היא בעייתית.

  • באופן ניסויי:

  • עבודה ביו-כימית

  • Knock-out

  • RNAi


קביעת הפונקציה של החלבון

  • באופן חישובי:

  • דימיון ברצף

  • דימיון מבני

  • שיטות אלו פחות או יותר מאפשרות הצעת פונקציה של כ 60% מהחלבונים. לא כל ההצעות האלו נכונות.

  • יש להיזהר מ"גרירת התיפקוד"

A

B

C

A דומה ל B , B דומה ל C , אבל ל A אין שום קשר ל C


קביעת הפונקציה של החלבון

שיטות נוספות:

בחיידקים: גנים הנמצאים על אופרונים משותפים

גנים הנמצאים תחת בקרת פרומוטרים דומים

גנים המתבטאים יחד :Gene Array

גנים המצויים בדיוק באותם גנומים


  • Login