slide1
Download
Skip this Video
Download Presentation
ביו-אנפורמטיקה של חלבונים Proteomics

Loading in 2 Seconds...

play fullscreen
1 / 52

ביו-אנפורמטיקה של חלבונים Proteomics - PowerPoint PPT Presentation


  • 158 Views
  • Uploaded on

ביו-אנפורמטיקה של חלבונים Proteomics. פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם בגישה שיטתית ומערכתית ועבודה ב High throughput מהם החלבונים שהאורגניזם מייצר? מהן התכונות הפיזיקליות תלויות הרצף של חלבונים אלו? מהו המבנה השניוני של חלבונים אלו?

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' ביו-אנפורמטיקה של חלבונים Proteomics' - keira


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

ביו-אנפורמטיקה של חלבונים Proteomics

  • פרוטאומיקה היא חקר התכונות של מגוון החלבונים המיוצרים ע"י אורגניזם
  • בגישה שיטתית ומערכתית ועבודה ב High throughput
  • מהם החלבונים שהאורגניזם מייצר?
  • מהן התכונות הפיזיקליות תלויות הרצף של חלבונים אלו?
  • מהו המבנה השניוני של חלבונים אלו?
  • מהו המבנה המרחבי של חלבונים אלו?: Structural Genomics
  • מהו התפקיד של חלבונים אלו?
  • מהי תבנית הביטוי של חלבונים אלו?: Expression pattern
  • מהו מנגנון פעולתם? למשל אינטראקציות בין חלבונים.
  • איך החלבונים עוברים מודיפיקציה (פוספורילציה, גליקוליזציה וכו\')
  • איך החלבונים מתפרקים וממוחזרים?
slide2

מציאת החלבונים של אורגניזם

בעיה ניסויית קשה: הפרדת חלבונים, ניקוי, ריצוף.

קשיים באיתור חלבונים נדירים המתבטאים בכמויות קטנות.

באופן חישובי: סריקת הגנום לאיתור חלבונים ע"י זיהוי סיגנלים

לאזורים מקודדים, פרומוטורים, תחילת וסיום קידוד, אקסונים ואינטרונים, וכו.

למשל : Genscan

עד כמה מוצלחות תוכניות אלו:

95% באיתור האזורים הרלונטיים

אבל יותר מ30% מהחלבונים שמזוהים מכילים טעויות בזהוי המדויק של התוצר החלבוני

slide3

מה אפשר ללמוד מהרצף הראשוני ?

משקל מולקולרי

ערכי PI

אזורים הידרופוביים/הידרופיליים

איזורי טרנסממברנליים

המצאות מוטיבים

The best source: the Expasy server

www.expasy.ch/tools/

slide4

ניבוי המבנה השניוני של חלבונים

Alpha Helix Beta-strand (sheet) Turns

ישנה חלוקה ל4 מצבים ל Alpha, Beta, Turns, Random Coil

ישנה חלוקה המאחדת את Turn ואת Random Coil ואז יש שלושה מצבים

ישנן חלוקות מפורטות יותר (למשל ל DSSP יש 7 מצבים)

slide5

איך קובעים את המבנה השניוני כאשר המבנה התלת מימדי ידוע?

המבנה השניוני אינו "נמדד" בניסוי. אמנם בדרך כלל קל לאתר מבנים שניוניים בתוךהמבנה התלת-מימדי אבל לא תמיד הקביעה היא חד-משמעית. הבעיה חמורה במיוחדבקצוות של המבנים.

התוכנית DSSP משתמשת ברגולריות של קשרי מימן בתוך החלבון לקביעת המבנים.

The DSSP code (www.sander.ebi.ac.uk/dssp/ )

H = alpha helix

B = residue in isolated beta-bridge

E = extended strand, participates in beta ladder

G = 3-helix (3/10 helix)

I = 5 helix (pi helix)

T = hydrogen bonded turn

S = bend

Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features.

Kabsch and Sander Biopolymers 22:2577-2637, 1983

slide6

איך מנבאים את המבנה השניוני כאשר המבנה התלת מימדי לא ידוע?

הרעיון הבסיסי: מסתבר שלחומצות אמיניות שונות יש נטיה שונה להמצא בכל מבנה שניוני

H indicates high propensity,h intermediate propensity,i is inhibitory, b is a intermediate breaker, B is a significant breaker

בנוסף חשוב לזכור שלמבנים שניוניים יש אורך טיפוסי, ולכן הניבוי צריך להיות קונסיסטנטי למשך קטע

slide7

רמזים נוספים

מחזוריות של חומצות הידרופוביות / הידרופיליות

Helix:

Beta sheet

נוכחות של חומצות פולריות קטנות (A,S,T) ובעיקר G אופיינית ל TURNSP : בעל שרשרת ראשית מיוחדת ולכן יוצר kink , לא מתאים למשל למרכז של מבני Helix מאד מתאים לקצה ה N-terminal של Helices

slide8

איך קובעים הצלחה בניבוי

המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי

MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction

TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment

slide9

איך קובעים צלחה בניבוי

המדד המקובל Qnבדרך כלל Q3: אחוז החומצות שנןבעו נכון יחסית לכלל הניבוי

MWHSGAVTTYPNKLYTREADSGGYVSAVL SequenceTHHHHHTTTEEEETTTEEEEETTTEEEET Prediction

TTHHHHHHTTEEETTTEEEETTHHHHHTT Real Assignment

Q3 is 18/30 = 0.6

SOV נותן משקל חזק יותר לחומצות במרכז מאשר לחומצות בקצוות.

MCC מחשב את הקורלציות בין הניבוי למבנה הנכון.

slide10

בשנות ה 70 הופיעו תוכנות שנבנו על סמך עיקרונות אלו:

Nagano 1973 – Interactions of residues in a window of 6. The interactions were linearly combined to calculate interacting residue propensities for each SSE type (H, E or C) over 95 crystallographically determined protein tertiary structures.

Lim 1974 – Predictions are based on a set of complicated stereochemical prediction rules for a-helices and b-sheets based on their observed frequencies in globular proteins.

Chou-Fasman 1974 - Predictions are based on differences in residue type composition for three states of secondary structure: a-helix, b-strand and turn Neighbouring residues were checked for helices and strands and predicted types were selected according to the higher scoring preference and extended as long as unobserved residues were not detected (e.g. proline) and the scores remained high.

The GOR 1978 method relies on the frequencies observed for residues in a 17- residue window (i.e. eight residues N-terminal and eight C-terminal of the central window position) for each of the three structural states.

The performance of these methods ranged between 55-65% for Q3.

slide11

The amino acid frequencies are converted to secondary structure propensities for the central window position using an information function based on conditional probabilities. As it is not feasible to sample all possible 17-residue fragments directly from the PDB (there are 2017 possibilities) increasingly complex approximations have been applied.

In GOR I and GOR II, the 17 positions in the window were treated as being independent, and so single-position information could be summed over the 17-residue window.

In GOR III, this approach was refined by including pair frequencies derived from 16 pairs between each non-central and the central residue in the 17-residue window.

The current version, GOR IV combines pair-wise information over all possible paired positions in a window .

slide12

השיפורים שהוצעו ב שנות ה 80

מסדי נתונים גדולים בהרבה

שימוש בהתאמה מרובת רצפים (אם יש Helix באזור מסוים ברוב הגדול של החלבונים במשפחה סביר שזה יהיה המצב גם בחלבון נוסף השייך למשפחה)

שימוש באלגוריתמים מתוחכמים יותר (כמו רשתות נוירונים או HMM ) לשיקלולהתרומה של מרכיבים שונים בתהליך ההחלטה.

slide13

Example Neural Network

Training pattern

One of n inputs, each with 21 bits

From Bioinformatics by David W. Mount, p. 453

how phd works
How PHD works

Step 1. BLAST search with input sequence

Step 2. Perform multiple seq. alignment and calculate aa frequencies for each position

how phd works1
How PHD works

Step 3. First Level: “Sequence to structure net”

Input: alignment profile, Output: units for H, E, L

Similar to GORIII method (window size =13). Calculate “occurrences” of any of the residues to be present in either an a-helix, b-strand, or loop.

1

2

3

4

5

6

7

H = 0.05

E = 0.18

L= 0.67

N=0.2, S=0.4, A=0.4

how phd works2
How PHD works

Step 3. Second Level: “Structure to structure net”

Input: First Level values, Output: units for H, E, L

Window size = 17

H = 0.59

E = 0.0.9

L= 0.31

E=0.18

Step 4. Decision level

slide17
הדיוק בניבוי

שיפור נוסף של PHD הוא מתן ניקוד לאזורים בהם צפוי להיות אמין יותר ולאזורים אמינים פחות. באזורים האמינים מגיע PHD לכמעט 80%.

slide18

בשנים האחרונות נבדקת הצלחת הניבויים כחלק מתחרויות CASP הבודקת באופןאוביקטיבי את יכולות הניבוי של מבנים שניוניים ושל המבנה התלת מימדי.

התחרות כוללת תת-תחרות הנקראת CAFASP ניבוי ע"י שרתים אוטומטיים

slide19

התפתחה תופעה של Meta-servers העושים החלטה משותפת (מעין ממוצע משוקלל)

מתוך התוצאות של השרתים הבודדים.

שיטות אלו הביאו לשיפור איטי ביכולת הניבוי שעומדת כיום על כ 75-78 %

slide20

מה גבול הניבוי האפשרי?

צריך לקחת בחשבון את הנקודות הבאות:

יש גבול לרמה שבה הרצף הלוקלי קובע את המבנה התלת-מימדי

יש בחלבונים איזורים רבים שאינם בעלי מבנה שניוני יציב

יש בעיה בהגדרה חד-משמעית של המבנים במיוחד בקצוות.

כתוצאה מכך מקובל להניח שגבול הניבוי האפשרי הוא כ 90%

slide21

בשביל מה אנו צריכים את הניבוי הזה?

  • בדרך כלל אין חשיבות לניבוי המבנה השניוני בלבד, אבל הואנחשב כשלב חשוב בניבוים אחרים.
  • לביצוע יותר מוצלח של התאמה מרובת רצפים (שימו לב לטיעון המעגלי) וזאת לצורך הבלטת האיזורים המשותפים שהם בדרך כלל האיזורים החשובים פונקציונלית.
  • בתור שלב ראשון לביצוע Modeling : ניבוי המבנה התלת מימדי ע"ס הדמיון למבנה ידוע של חלבון דומה ברצף.
  • בתור שלב ראשון בתהליך ניבוי מבנה שלישוני, קודם ננבא את המבנה השניוני, ואח"כ נחליט איך מסדרים את האלמנטים האלה לצורך קביעת מבנה תלת-מימדי.
slide22
ניבוי מבנה שניוני
  • קביעת אזורי המבנה השניוני ממבנה ידוע:dssp, stride
  • ניבוי מרצף בודד : psa, sscp, sosui
  • ניבוי ע”ס התאמה מרובת מבנים: PHD, PRIDCT

עקרונות מדעיים:

  • לחומצות שונות יש נטיה שונה להיות באלמנטי מבנה שניוני.
  • למבנים שניוניים יש רציפות ואורך אופיני
  • במשפחות חלבונים יש נטיה לשימור המבנה השניוני.

אחוז ההצלחה בניבוי: 70-75%.

structural bioinformatics
Structural bioinformaticsביואינפורמטיקה מבנית
  • התמחות בשיטות ממוחשבות לאנליזה של מבנה חלבונים וDNA.
  • יכולת "לנבא" אינפורמציה מבנית ובכך לחסוך בניסוים ארוכים ויקרים.
  • יכולת לתכנן מבנים מולקולרים.
pdb www rcsb org
מקור המידע המבניPDB מאגר המבניםכעת ב: www.rcsb.org
  • קריסטלוגרפיה

1. גיבוש החלבון ויצירת מספר עצום של מולקולות

בעלות אורינטציה דומה.

2. הקרנת הגביש בקרני X

3. רישום תבנית הדיפראקציה

4. בתהליך של חישוב הפוך מוצאים את המבנה

בעל אותה תבנית

הטכניקה מאוד מדויקת לחלבונים בעלי מבנה מקובע.

לא יעילה לחלבונים ממברנליים.

slide26
NMRתהודה גרעינית מגנטית
  • חלבון בתמיסה
  • ערעור גרעין מסוים ומדידת שינוי בתכונות המגנטיות של אטומים סמוכים.
  • הערכת מרחקים בין זוגות של אטומים.
  • חישוב אוסף מבנים, ומבנה ממוצע המקיימים את אילוצי המרחקים.

מידע (לא מאד מדויק) על מבנה "גמיש", יעיל למבנים לא גדולים.

why classify proteins
Why classify proteins

Number of solved structures grow rapidly

Generate overview of structure types

Detect similarities (evolutionary relationships)

Build model of a protein based on proteinsfrom the same class

Set up prediction benchmarks

when are two structures similar
When are two structures similar?

RMS of 6 Ang. – not related

RMS of 3-6 Ang – related

RMS less than 3 Ang – similar

Two structures are of the same fold if theyhave RMS < 3 Ang over 70% of their length

when are two structures similar1
When are two structures similar?

Use the RMS measure (root mean square) for superpositionof corresponding residues

When the two molecules are not of the same size, i.e. there are insertions and deletions in one relative to the other, the problem is much more complicated.

classification schemes
Classification schemes

SCOP

Manual classification (A Murzin)

CATH

Semi manual classification (C orengo)

FSSP

Automatic classification (L Holm)

levels in scop
Levels in SCOP

Class 10

Folds 648

Superfamilies 1007

Families 1699

Murzin et al., 1995

http://scop.mrc-lmb.cam.ac.uk/scop/

major classes in scop
Major classes in scop

Classes

All alpha proteins

Alpha and beta proteins (a/b)

Alpha and beta proteins (a+b)

Multi-domain proteins

Membrane and cell surface proteins

Small proteins

slide41
ניבוי מבנה תלת-מימדי

יש בעיקרון שלוש רמות של עבודה בנושא זה

  • כאשר לחלבון שעבורו רוצים לנבא מבנה יש חלבון הומולוגי שעבורוהמבנה ידוע Modeling
  • כאשר אין חלבון מסוים ידוע אבל סביר להניח שהחלבון שייךלמשפחה ידועה Fold recognition
  • כאשר כמעט דבר לא ידוע על החלבון או כאשר סביר להניח שמדובר במבנה חדש Ab-initio prediction
slide42
ניבוי מבנה תלת-מימדישיטות ביו-אינפורמטיות

העקרון המנחה: יש הרבה יותר רצפים ממבנים (כמה אלפי מבנים).

לכן: יש סיכוי סביר שהמבנה המבוקש כבר ידוע.

  • אם קיים דמיון גבוה (מעל % 25-30 ) לחלבון בעל מבנה ידוע, ניתן להשתמש בו כבסיס לחלבון החדש. (Swissmodel )
  • אם הדמיון נמוך (אזור הדימדומים % 15-25 ) יש להעזר בשיטות של פרופילים ו Threading )
slide43

Modeling

מציאת החלבון, בעל מבנה ידוע, הדומה ביותר לחלבון הנתון.

בצוע התאמה בין החלבון הנתון לחלבון הידוע.

לגבי האזורים המותאמים: להעתיק את השרשרת הראשית, לחשב מחדש את השרשראותהצדדיות.

לגבי האזורים החסרים: לבצע Loop Building

לבצע refinement של המבנה המתקבל.

slide44

כל עוד הדמיון בין החלבון החדש לחלבון התבנית הוא מאד גבוה (למעלה מ50%)

ניתן לקבל ניבוי סביר (אם כי לא מושלם)ע"י תוכנות קיימות. מתחת לרמת דמיון זו האמינות יורדת משמעותית, אבל כדאי בכל זאת לנסות עבורדמיון מעל 25-30%

למשל Swissmodel

http://www.expasy.org/swissmod/SWISS-MODEL.html

slide45

כאשר הדמיון ברצף נמוך יותר המטרה אינה לקבל מבנה מדויק אלא לזהותאת ה Fold

slide46
פרופילים
  • עבור כל מבנה ידוע בונים פרופיל מבני:

לכל עמדה מאפינים פרמטרים מבניים למשל:

פנים / חוץ

מבנה שניוני

פולריות.

אוספים מה PDBסטטיסטיקות לגבי ההתאמה של כל סוג של חומצה למאפינים אלו.

מבצעים התאמה (string matching) בין הרצף החדש למחרוזת האפיון של המבנה הקיים.

threading
THREADING

אוספים מה PDBסטטיסטיקות לגבי המרחקים האופיניים בין כל זוג אפשרי של סוגי חומצות ונטייתם להמצא בפנים או בחוץ.

שוזרים את הרצף החדש ע”ג המבנה הידוע ומחשבים את “האנרגיה “ של ההתאמה.

מאחר שיש צורך ביצירת רוחים, ומדובר השוואת רצף למבנה הבעיה החישובית קשה!

THREADER, 123D

slide48

ניבוי מבנה תלת-מימדישיטות ישירות

  • חישובי מינימום אנרגיה (CHARMM, Amber)
  • דינמיקה מולקולרית (Discover, Gromos )
  • ניבוי מבנה שניוני והרכבת האלמנטים השניוניים למבנה תלת ממדי.
  • ניבוי מבנים לוקליים עבור רצפים קצרים (Building Blocks) תוך בחירת כמה אפשרויות לכל רצף, חיבור המבנים הקצרים למבנים מלאים באופנים שונים תהליך היוצר עשרות אלפי מבנים אפשריים, סינון המבנים תוך שימוש בפונקציות אנרגיה ע"מ לקבל מספר קטן של ניבויים סופיים.
slide50

קביעת הפונקציה של החלבון

  • שאלת השאלות בביולוגיה מודרנית.
  • ההגדרה של "פונקציה של חלבון" היא בעייתית.
  • באופן ניסויי:
  • עבודה ביו-כימית
  • Knock-out
  • RNAi
slide51

קביעת הפונקציה של החלבון

  • באופן חישובי:
  • דימיון ברצף
  • דימיון מבני
  • שיטות אלו פחות או יותר מאפשרות הצעת פונקציה של כ 60% מהחלבונים. לא כל ההצעות האלו נכונות.
  • יש להיזהר מ"גרירת התיפקוד"

A

B

C

A דומה ל B , B דומה ל C , אבל ל A אין שום קשר ל C

slide52

קביעת הפונקציה של החלבון

שיטות נוספות:

בחיידקים: גנים הנמצאים על אופרונים משותפים

גנים הנמצאים תחת בקרת פרומוטרים דומים

גנים המתבטאים יחד :Gene Array

גנים המצויים בדיוק באותם גנומים

ad