ביו-אנפורמטיקה של חלבונים
This presentation is the property of its rightful owner.
Sponsored Links
1 / 52

ביו-אנפורמטיקה של חלבונים Proteomics PowerPoint PPT Presentation


  • 100 Views
  • Uploaded on
  • Presentation posted in: General

ביו-אנפורמטיקה של חלבונים Proteomics. פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם בגישה שיטתית ומערכתית ועבודה ב High throughput מהם החלבונים שהאורגניזם מייצר? מהן התכונות הפיזיקליות תלויות הרצף של חלבונים אלו? מהו המבנה השניוני של חלבונים אלו?

Download Presentation

ביו-אנפורמטיקה של חלבונים Proteomics

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Proteomics

ביו-אנפורמטיקה של חלבונים Proteomics

  • פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם

  • בגישה שיטתית ומערכתית ועבודה ב High throughput

  • מהם החלבונים שהאורגניזם מייצר?

  • מהן התכונות הפיזיקליות תלויות הרצף של חלבונים אלו?

  • מהו המבנה השניוני של חלבונים אלו?

  • מהו המבנה המרחבי של חלבונים אלו?: Structural Genomics

  • מהו התפקיד של חלבונים אלו?

  • מהי תבנית הביטוי של חלבונים אלו?: Expression pattern

  • מהו מנגנון פעולתם? למשל אינטראקציות בין חלבונים.

  • איך החלבונים עוברים מודיפיקציה (פוספורילציה, גליקוליזציה וכו')

  • איך החלבונים מתפרקים וממוחזרים?


Proteomics

מציאת החלבונים של אורגניזם

בעיה ניסויית קשה: הפרדת חלבונים, ניקוי, ריצוף.

קשיים באיתור חלבונים נדירים המתבטאים בכמויות קטנות.

באופן חישובי: סריקת הגנום לאיתור חלבונים ע"י זיהוי סיגנלים

לאזורים מקודדים, פרומוטורים, תחילת וסיום קידוד, אקסונים ואינטרונים, וכו.

למשל : Genscan

עד כמה מוצלחות תוכניות אלו:

95% באיתור האזורים הרלונטיים

אבל יותר מ30% מהחלבונים שמזוהים מכילים טעויות בזהוי המדויק של התוצר החלבוני


Proteomics

מה אפשר ללמוד מהרצף הראשוני ?

משקל מולקולרי

ערכי PI

אזורים הידרופוביים/הידרופיליים

איזורי טרנסממברנליים

המצאות מוטיבים

The best source: the Expasy server

www.expasy.ch/tools/


Proteomics

ניבוי המבנה השניוני של חלבונים

Alpha Helix Beta-strand (sheet) Turns

ישנה חלוקה ל4 מצבים ל Alpha, Beta, Turns, Random Coil

ישנה חלוקה המאחדת את Turn ואת Random Coil ואז יש שלושה מצבים

ישנן חלוקות מפורטות יותר (למשל ל DSSP יש 7 מצבים)


Proteomics

איך קובעים את המבנה השניוני כאשר המבנה התלת מימדי ידוע?

המבנה השניוני אינו "נמדד" בניסוי. אמנם בדרך כלל קל לאתר מבנים שניוניים בתוךהמבנה התלת-מימדי אבל לא תמיד הקביעה היא חד-משמעית. הבעיה חמורה במיוחדבקצוות של המבנים.

התוכנית DSSP משתמשת ברגולריות של קשרי מימן בתוך החלבון לקביעת המבנים.

The DSSP code (www.sander.ebi.ac.uk/dssp/ )

H = alpha helix

B = residue in isolated beta-bridge

E = extended strand, participates in beta ladder

G = 3-helix (3/10 helix)

I = 5 helix (pi helix)

T = hydrogen bonded turn

S = bend

Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features.

Kabsch and Sander Biopolymers 22:2577-2637, 1983


Proteomics

איך מנבאים את המבנה השניוני כאשר המבנה התלת מימדי לא ידוע?

הרעיון הבסיסי: מסתבר שלחומצות אמיניות שונות יש נטיה שונה להמצא בכל מבנה שניוני

H indicates high propensity,h intermediate propensity,i is inhibitory, b is a intermediate breaker, B is a significant breaker

בנוסף חשוב לזכור שלמבנים שניוניים יש אורך טיפוסי, ולכן הניבוי צריך להיות קונסיסטנטי למשך קטע


Proteomics

רמזים נוספים

מחזוריות של חומצות הידרופוביות / הידרופיליות

Helix:

Beta sheet

נוכחות של חומצות פולריות קטנות (A,S,T) ובעיקר G אופיינית ל TURNSP : בעל שרשרת ראשית מיוחדת ולכן יוצר kink , לא מתאים למשל למרכז של מבני Helix מאד מתאים לקצה ה N-terminal של Helices


Proteomics

איך קובעים הצלחה בניבוי

המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי

MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction

TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment


Proteomics

איך קובעים צלחה בניבוי

המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי

MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction

TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment

Q3 is 18/30 = 0.6

SOV נותן משקל חזק יותר לחומצות במרכז מאשר לחומצות בקצוות.

MCC מחשב את הקורלציות בין הניבוי למבנה הנכון.


Proteomics

בשנות ה 70 הופיעו תוכנות שנבנו על סמך עיקרונות אלו:

Nagano 1973 – Interactions of residues in a window of 6. The interactions were linearly combined to calculate interacting residue propensities for each SSE type (H, E or C) over 95 crystallographically determined protein tertiary structures.

Lim 1974 – Predictions are based on a set of complicated stereochemical prediction rules for a-helices and b-sheets based on their observed frequencies in globular proteins.

Chou-Fasman 1974 - Predictions are based on differences in residue type composition for three states of secondary structure: a-helix, b-strand and turn Neighbouring residues were checked for helices and strands and predicted types were selected according to the higher scoring preference and extended as long as unobserved residues were not detected (e.g. proline) and the scores remained high.

The GOR 1978 method relies on the frequencies observed for residues in a 17- residue window (i.e. eight residues N-terminal and eight C-terminal of the central window position) for each of the three structural states.

The performance of these methods ranged between 55-65% for Q3.


Proteomics

The amino acid frequencies are converted to secondary structure propensities for the central window position using an information function based on conditional probabilities. As it is not feasible to sample all possible 17-residue fragments directly from the PDB (there are 2017 possibilities) increasingly complex approximations have been applied.

In GOR I and GOR II, the 17 positions in the window were treated as being independent, and so single-position information could be summed over the 17-residue window.

In GOR III, this approach was refined by including pair frequencies derived from 16 pairs between each non-central and the central residue in the 17-residue window.

The current version, GOR IV combines pair-wise information over all possible paired positions in a window .


Proteomics

השיפורים שהוצעו ב שנות ה 80

מסדי נתונים גדולים בהרבה

שימוש בהתאמה מרובת רצפים (אם יש Helix באזור מסוים ברוב הגדול של החלבונים במשפחה סביר שזה יהיה המצב גם בחלבון נוסף השייך למשפחה)

שימוש באלגוריתמים מתוחכמים יותר (כמו רשתות נוירונים או HMM ) לשיקלולהתרומה של מרכיבים שונים בתהליך ההחלטה.


Proteomics

Example Neural Network

Training pattern

One of n inputs, each with 21 bits

From Bioinformatics by David W. Mount, p. 453


How phd works

How PHD works

Step 1. BLAST search with input sequence

Step 2. Perform multiple seq. alignment and calculate aa frequencies for each position


How phd works1

How PHD works

Step 3. First Level: “Sequence to structure net”

Input: alignment profile, Output: units for H, E, L

Similar to GORIII method (window size =13). Calculate “occurrences” of any of the residues to be present in either an a-helix, b-strand, or loop.

1

2

3

4

5

6

7

H = 0.05

E = 0.18

L= 0.67

N=0.2, S=0.4, A=0.4


How phd works2

How PHD works

Step 3. Second Level: “Structure to structure net”

Input: First Level values, Output: units for H, E, L

Window size = 17

H = 0.59

E = 0.0.9

L= 0.31

E=0.18

Step 4. Decision level


Proteomics

הדיוק בניבוי

שיפור נוסף של PHD הוא מתן ניקוד לאזורים בהם צפוי להיות אמין יותר ולאזורים אמינים פחות. באזורים האמינים מגיע PHD לכמעט 80%.


Proteomics

בשנים האחרונות נבדקת הצלחת הניבויים כחלק מתחרויות CASP הבודקת באופןאוביקטיבי את יכולות הניבוי של מבנים שניוניים ושל המבנה התלת מימדי.

התחרות כוללת תת-תחרות הנקראת CAFASP ניבוי ע"י שרתים אוטומטיים


Proteomics

התפתחה תופעה של Meta-servers העושים החלטה משותפת (מעין ממוצע משוקלל)

מתוך התוצאות של השרתים הבודדים.

שיטות אלו הביאו לשיפור איטי ביכולת הניבוי שעומדת כיום על כ 75-78 %


Proteomics

מה גבול הניבוי האפשרי?

צריך לקחת בחשבון את הנקודות הבאות:

יש גבול לרמה שבה הרצף הלוקלי קובע את המבנה התלת-מימדי

יש בחלבונים איזורים רבים שאינם בעלי מבנה שניוני יציב

יש בעיה בהגדרה חד-משמעית של המבנים במיוחד בקצוות.

כתוצאה מכך מקובל להניח שגבול הניבוי האפשרי הוא כ 90%


Proteomics

  • בשביל מה אנו צריכים את הניבוי הזה?

  • בדרך כלל אין חשיבות לניבוי המבנה השניוני בלבד, אבל הואנחשב כשלב חשוב בניבוים אחרים.

  • לביצוע יותר מוצלח של התאמה מרובת רצפים (שימו לב לטיעון המעגלי) וזאת לצורך הבלטת האיזורים המשותפים שהם בדרך כלל האיזורים החשובים פונקציונלית.

  • בתור שלב ראשון לביצוע Modeling : ניבוי המבנה התלת מימדי ע"ס הדמיון למבנה ידוע של חלבון דומה ברצף.

  • בתור שלב ראשון בתהליך ניבוי מבנה שלישוני, קודם ננבא את המבנה השניוני, ואח"כ נחליט איך מסדרים את האלמנטים האלה לצורך קביעת מבנה תלת-מימדי.


Proteomics

ניבוי מבנה שניוני

  • קביעת אזורי המבנה השניוני ממבנה ידוע:dssp, stride

  • ניבוי מרצף בודד : psa, sscp, sosui

  • ניבוי ע”ס התאמה מרובת מבנים: PHD, PRIDCT

    עקרונות מדעיים:

  • לחומצות שונות יש נטיה שונה להיות באלמנטי מבנה שניוני.

  • למבנים שניוניים יש רציפות ואורך אופיני

  • במשפחות חלבונים יש נטיה לשימור המבנה השניוני.

    אחוז ההצלחה בניבוי: 70-75%.


Structural bioinformatics

Structural bioinformaticsביואינפורמטיקה מבנית

  • התמחות בשיטות ממוחשבות לאנליזה של מבנה חלבונים וDNA.

  • יכולת "לנבא" אינפורמציה מבנית ובכך לחסוך בניסוים ארוכים ויקרים.

  • יכולת לתכנן מבנים מולקולרים.


Pdb www rcsb org

מקור המידע המבניPDB מאגר המבניםכעת ב: www.rcsb.org

  • קריסטלוגרפיה

    1. גיבוש החלבון ויצירת מספר עצום של מולקולות

    בעלות אורינטציה דומה.

    2. הקרנת הגביש בקרני X

    3. רישום תבנית הדיפראקציה

    4. בתהליך של חישוב הפוך מוצאים את המבנה

    בעל אותה תבנית

    הטכניקה מאוד מדויקת לחלבונים בעלי מבנה מקובע.

    לא יעילה לחלבונים ממברנליים.


Proteomics

NMRתהודה גרעינית מגנטית

  • חלבון בתמיסה

  • ערעור גרעין מסוים ומדידת שינוי בתכונות המגנטיות של אטומים סמוכים.

  • הערכת מרחקים בין זוגות של אטומים.

  • חישוב אוסף מבנים, ומבנה ממוצע המקיימים את אילוצי המרחקים.

    מידע (לא מאד מדויק) על מבנה "גמיש", יעיל למבנים לא גדולים.


Proteomics

PDB: מאגר המבנים החלבוניים


Why classify proteins

Why classify proteins

Number of solved structures grow rapidly

Generate overview of structure types

Detect similarities (evolutionary relationships)

Build model of a protein based on proteinsfrom the same class

Set up prediction benchmarks


When are two structures similar

When are two structures similar?

RMS of 6 Ang. – not related

RMS of 3-6 Ang – related

RMS less than 3 Ang – similar

Two structures are of the same fold if theyhave RMS < 3 Ang over 70% of their length


When are two structures similar1

When are two structures similar?

Use the RMS measure (root mean square) for superpositionof corresponding residues

When the two molecules are not of the same size, i.e. there are insertions and deletions in one relative to the other, the problem is much more complicated.


Classification schemes

Classification schemes

SCOP

Manual classification (A Murzin)

CATH

Semi manual classification (C orengo)

FSSP

Automatic classification (L Holm)


Levels in scop

Levels in SCOP

Class10

Folds648

Superfamilies1007

Families1699

Murzin et al., 1995

http://scop.mrc-lmb.cam.ac.uk/scop/


Major classes in scop

Major classes in scop

Classes

All alpha proteins

Alpha and beta proteins (a/b)

Alpha and beta proteins (a+b)

Multi-domain proteins

Membrane and cell surface proteins

Small proteins


All alpha hemoglobin 1bab

All alpha: Hemoglobin (1bab)


All beta immunoglobulin 8fab

All beta: Immunoglobulin (8fab)


Alpha beta triosephosphate isomerase 1hti

Alpha/beta: Triosephosphate isomerase (1hti)


Alpha beta lysozyme 1jsf

Alpha+beta: Lysozyme (1jsf)


Families

Families


Proteomics

ניבוי מבנה תלת-מימדי

יש בעיקרון שלוש רמות של עבודה בנושא זה

  • כאשר לחלבון שעבורו רוצים לנבא מבנה יש חלבון הומולוגי שעבורוהמבנה ידוע Modeling

  • כאשר אין חלבון מסוים ידוע אבל סביר להניח שהחלבון שייךלמשפחה ידועה Fold recognition

  • כאשר כמעט דבר לא ידוע על החלבון או כאשר סביר להניח שמדובר במבנה חדש Ab-initio prediction


Proteomics

ניבוי מבנה תלת-מימדישיטות ביו-אינפורמטיות

העקרון המנחה: יש הרבה יותר רצפים ממבנים (כמה אלפי מבנים).

לכן: יש סיכוי סביר שהמבנה המבוקש כבר ידוע.

  • אם קיים דמיון גבוה (מעל % 25-30 ) לחלבון בעל מבנה ידוע, ניתן להשתמש בו כבסיס לחלבון החדש. (Swissmodel )

  • אם הדמיון נמוך (אזור הדימדומים % 15-25 ) יש להעזר בשיטות של פרופילים ו Threading )


Proteomics

Modeling

מציאת החלבון, בעל מבנה ידוע, הדומה ביותר לחלבון הנתון.

בצוע התאמה בין החלבון הנתון לחלבון הידוע.

לגבי האזורים המותאמים: להעתיק את השרשרת הראשית, לחשב מחדש את השרשראותהצדדיות.

לגבי האזורים החסרים: לבצע Loop Building

לבצע refinement של המבנה המתקבל.


Proteomics

כל עוד הדמיון בין החלבון החדש לחלבון התבנית הוא מאד גבוה (למעלה מ50%)

ניתן לקבל ניבוי סביר (אם כי לא מושלם)ע"י תוכנות קיימות. מתחת לרמת דמיון זו האמינות יורדת משמעותית, אבל כדאי בכל זאת לנסות עבורדמיון מעל 25-30%

למשל Swissmodel

http://www.expasy.org/swissmod/SWISS-MODEL.html


Proteomics

כאשר הדמיון ברצף נמוך יותר המטרה אינה לקבל מבנה מדויק אלא לזהותאת ה Fold


Proteomics

פרופילים

  • עבור כל מבנה ידוע בונים פרופיל מבני:

    לכל עמדה מאפינים פרמטרים מבניים למשל:

    פנים / חוץ

    מבנה שניוני

    פולריות.

    אוספים מה PDBסטטיסטיקות לגבי ההתאמה של כל סוג של חומצה למאפינים אלו.

    מבצעים התאמה (string matching) בין הרצף החדש למחרוזת האפיון של המבנה הקיים.


Threading

THREADING

אוספים מה PDBסטטיסטיקות לגבי המרחקים האופיניים בין כל זוג אפשרי של סוגי חומצות ונטייתם להמצא בפנים או בחוץ.

שוזרים את הרצף החדש ע”ג המבנה הידוע ומחשבים את “האנרגיה “ של ההתאמה.

מאחר שיש צורך ביצירת רוחים, ומדובר השוואת רצף למבנה הבעיה החישובית קשה!

THREADER, 123D


Proteomics

ניבוי מבנה תלת-מימדישיטות ישירות

  • חישובי מינימום אנרגיה (CHARMM, Amber)

  • דינמיקה מולקולרית (Discover, Gromos )

  • ניבוי מבנה שניוני והרכבת האלמנטים השניוניים למבנה תלת ממדי.

  • ניבוי מבנים לוקליים עבור רצפים קצרים (Building Blocks) תוך בחירת כמה אפשרויות לכל רצף, חיבור המבנים הקצרים למבנים מלאים באופנים שונים תהליך היוצר עשרות אלפי מבנים אפשריים, סינון המבנים תוך שימוש בפונקציות אנרגיה ע"מ לקבל מספר קטן של ניבויים סופיים.


Proteomics

קביעת הפונקציה של החלבון

  • שאלת השאלות בביולוגיה מודרנית.

  • ההגדרה של "פונקציה של חלבון" היא בעייתית.

  • באופן ניסויי:

  • עבודה ביו-כימית

  • Knock-out

  • RNAi


Proteomics

קביעת הפונקציה של החלבון

  • באופן חישובי:

  • דימיון ברצף

  • דימיון מבני

  • שיטות אלו פחות או יותר מאפשרות הצעת פונקציה של כ 60% מהחלבונים. לא כל ההצעות האלו נכונות.

  • יש להיזהר מ"גרירת התיפקוד"

A

B

C

A דומה ל B , B דומה ל C , אבל ל A אין שום קשר ל C


Proteomics

קביעת הפונקציה של החלבון

שיטות נוספות:

בחיידקים: גנים הנמצאים על אופרונים משותפים

גנים הנמצאים תחת בקרת פרומוטרים דומים

גנים המתבטאים יחד :Gene Array

גנים המצויים בדיוק באותם גנומים


  • Login