1 / 54

Proteiinianalyysi 52930 (3op)

Proteiinianalyysi 52930 (3op). Liisa Holm. Organisaatio. Luennot 21.3.-18.4.2005, ke, pe 14-16, LS 1015 kurssin kotisivu http://www.bioinfo.biocenter.helsinki.fi/downloads/teaching/spring2006/proteiinianalyysi/ Tentti 25.4.2007, klo 14-16, LS 1015 Oheislukemisto

Download Presentation

Proteiinianalyysi 52930 (3op)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Proteiinianalyysi 52930 (3op) Liisa Holm

  2. Organisaatio • Luennot • 21.3.-18.4.2005, ke, pe 14-16, LS 1015 • kurssin kotisivu http://www.bioinfo.biocenter.helsinki.fi/downloads/teaching/spring2006/proteiinianalyysi/ • Tentti • 25.4.2007, klo 14-16, LS 1015 • Oheislukemisto • Mount DW (2005) Bioinformatics. Sequence and genome analysis. 2nd edition. CSHL press, New York – Ch. 5-6,10-11 • Tramontano A (2005) The ten most wanted solutions in protein bioinformatics. Chapman & Hall/ CRC Mathematical Biology and Medicine series.

  3. Muut kurssit • Esitiedot: • Geneettinen bioinformatiikka 3 op • sekvenssivertailu • fylogeniapuut • Soveltaminen: • Proteiinianalyysin harjoitustyöt 5 op • webbityökalujen käyttö

  4. Johdanto

  5. Bioinformatics • An interdisciplinary science that synergistically utilizes the contribution of informatics, physics, and mathematics, but, ultimately, the objective is the solution of biological problems

  6. Protein bioinformatics • The goal is to assist experimental biology in assigning a function or suggesting functional hypotheses for all known proteins.

  7. Proteiinien merkitys • Proteiinit tekevät kaiken työn solussa ja ovat osallisina: • Geenisäätelyssä • Metaboliassa • Signaloinnissa • Tukirangassa • Kuljetuksessa • Solunjakautumisessa http://www.websters-online-dictionary.org/definition/english/ce/cell.html

  8. Proteins are a product of evolution • The basic principles of evolution must be kept in mind when new methods are devised or new routes are explored for inferring the function of a biological macromolecule.

  9. aina = biologinen aina (poikkeuksia löytyy) Proteiinit ovat erikoislaatuisia polymeerejä: • Tietyllä proteiinilla on aina sama aminohapposekvenssi • Proteiinin sekvenssi määräytyy DNA-sekvenssin perusteella • Tietyllä proteiinilla on aina uniikki kolmiulotteinen rakenne. • Proteiinin rakenne määräytyy aminohapposekvenssin perusteella.

  10. Ei funktiota ilman rakennetta • Luonnon proteiinit laskostuvat spesifiseksi kolmiulotteiseksi rakenteeksi • komplementaarinen interaktiopartnerille • Denaturaatio tuhoaa funktion

  11. EvoluutioSekvenssi – Rakenne - Funktio Luonnonvalinta DNA-sekvenssi Proteiinin funktio Proteiinin sekvenssi Proteiinin rakenne

  12. Geenin kahdentuminen Perhe B Perhe A mutaatio mutaatio mutaatio Perhe A’ Koevoluutio A:B A B Evoluutioteoria • Yhteinen kantamuoto => (jossain määrin) säilynyt rakenne ja funktio • Yhteinen valintapaine => säilyneet / muuntelevat alueet • Vertailu homologiin auttaa, kun hajautettu koodi on vaikea purkaa • DNA -> RNA -> Proteiini • Sekvenssi -> 3-ulotteinen rakenne -> Funktio • sukua informaatioteorialle

  13. Holm & Sander (1995) EMBO J 14, 1287-1293

  14. GT28i (50) b-N-GlcNAc transferase Cell wall GT1i (467) UDP glucoronosyl-transferases Many biosynthetic pathways WecB (4) UDP-N-GlcNAc 2-epimerase Cofactors: GT4r (463) Sucrose and sucrose-phosphate synthase UDP GT3r (13) glycogen synthase ADP PLP GT5r (160) UDP-Glc glycogen and ADP-Glc starch glucosyl- transferase GT35r (69) Glycogen Phosph-orylase BGT (1) Energy storage Phage T4 virulence factor Metabolic control point

  15. The top ten ten most wanted solutions in protein bioinformatics • Protein sequence alignment • Predicting protein features from sequence • Function prediction • Protein structure prediction • Membrane proteins • Functional site identification • Protein-protein interaction • Protein-small molecule interaction • Protein design • Protein engineering

  16. 1: Protein sequence alignment • Subproblems: homology detection alignment • Combined: maximize the probability of common ancestry (residue-residue) and of the existence of ancestor • Statistical significance tests – but, proteins are not randomly generated

  17. 1: Protein sequence alignment • Techniques: • scoring matrices • dynamic programming • Profiles • expectation maximization • Gibbs sampler • hidden Markov models

  18. 1: Protein sequence alignment • Functional continuity • Evolution-based inference • Duplication followed by divergence • Orthologues – same function • Paralogues – new function • Protein families • Multiple sequence alignment problem • Remote homology detection problem • Transitivity of homology

  19. Esimerkki sekvenssien evoluutiosta • Olettakaamme, että on olemassa meidän tuntemallemme rinnakkainen universumi, jossa kaikki proteiinit ovat neljän pituisia, aminohappoja on 26 (ABCDEFGHIJKLMNOPQRSTUVWXYZ) ja luonnonvalinta eliminoi kaikki sekvenssit, jotka eivät ole englanninkielessä esiintyviä sanoja. Toisin sanoen funktionaaliset proteiinit ovat nelikirjaimisia englannin sanoja. • Esitä muutama pistemutaatioiden ketju, joka muuttaa sekvenssin WORD sekvenssiksi GENE siten, että kaikki välivaiheet koodaavat funktionaalista proteiinia.

  20. Functional continuity WORD d=0 # WORE d=1 # GORE d=2 # GONE d=3 # GENE d=4

  21. WORD > CORD, FORD, HORD, LORD, SORD, WARD, WOAD, WOED, WOLD, WORE, WORK, WORM, WORN, WORT Montako funktionaalista sanaa on yhden mutaation päässä sanasta WORD?

  22. Mikä osa kaikista mahdollisista neljän kirjaimen pituista merkkijonoista (funktionaalisuuteen katsomatta) on enintään etäisyydellä 1, 2, 3 tai 4 sanasta WORD?

  23. Etäisyydellä d on • sanaa, missä N on aakkoston koko. • Yhteensä sanoja on N4. • Osuus etäisyydellä 1 on 4/N3, • etäisyydellä 2 osuus on 6/N2, • etäisyydellä 3 osuus on 4/N ja • etäisyydellä 4 se on 1. • Sekvenssien (painotettukin) etäisyys on huono ”homologian” erittelijä, kun ei oteta huomioon positioden välisiä korrelaatioita.

  24. Profile Superfamily KVTMEHITT ## # RITMEHVTT ### RIHVLHVTT ## RIHVLHIST # RLHVLHIST # # LLHVLHLST # # RLHVAHLST # ## RLVVAHLGM # # RLVVDHLGK # # # DLVVDHMGR ## # LIVIDHMGR # ## KIVLAHMGR # ## KTVLAHMVH # KTVLAHGVH ### DDFLAHGVH # # # # ADRLGHGVR # # AERIGHGYR # # # TERLGHGYH Protein space

  25. 2: predicting features from sequence • Positive examples  conservation problem • Positive/negative examples  classification problem • Deterministic patterns • Probabilistic methods

  26. 2: predicting features from sequence • Functional fingerprints • E.g. Prosite patterns • Secondary structure prediction • Post-translational modification sites • Sub-cellular localization • Solvent accessibility • Techniques: regular expressions, profile, neural network

  27. Analog / homolog problem • Twilight zone in sequence similarity • Very broad twilight zone in structure similarity • Homologs share many features, including functional similarities

  28. Dividing a superfamily into functional subfamilies Problem: identify specific motifs that determine function Solution: analyse semiconserved positions in multiple alignment [ function-loss point mutation ]

  29. Ferric reductase ‘FMN and nickel binding protein’ Function assignment His126 is a putative functional marker COG1853 plotted in sequence space

  30. 3: Function prediction • Definition of “biological function” • Localization, process, biochemistry • Vocabulary • Protein names (synonyms) • Text mining • Function transfer • Error propagation • Intergration of transcriptomics and proteomics data • Gene co-expression, gene regulation • “Function = sum of interactions”

  31. Post-genomic view:Function = S interactions (From left to right, figures adapted from Olsen Group Docking Page at Scripps, Dyson NMR Group Web page at Scripps, and from Computational Chemistry Page at Cornell Theory Center).

  32. 4: Structure prediction • Energy calculations • Molecular mechanics, force field • Net stability of proteins ≈ 0 • Difficult to accurately model balance of entropic and enthalpic contributions • Searching conformational space • Energy minimization • Knowledge-based pseudo-potentials • Evolution-based (comparative modelling)

  33. levels of complexity in folding

  34. 4: Structure prediction • Levinthal’s paradox

  35. Polypeptidin rakenne • Polypeptidiketjun kolmiulotteisen rakenteen määrittävät torsiokulmat f ja y (oletetaan, että w=180 astetta). Kemiallisten sidosten rotaatiot suosivat energiaminimeitä. Esimerkiksi neliarvoinen hiili suosii gauche- (±60 astetta) ja trans- (180 astetta) orientaatioita. Näin ollen jokaisella aminohapolla on kymmenkunta mahdollista konformaatiota.

  36. Montako mahdollista konformaatiota on N:n aminohapon pituisella proteiinilla? Jätä toistensa päälle osuvien atomien mahdollisuus huomiotta. • 10N • Kemiallisten sidosten tyypillinen rotaatiofrekvenssi on 1014 s-1. Kuinka kauan vähintään kestäisi, ennen kuin 40 aminohapon pituinen proteiini on käynyt läpi kaikki mahdolliset konformaationsa?

  37. Hakuavararuus on 1040 konformaatiota, jaettuna 1014 s-1 tekee 1026 sekuntia. Vuorokaudessa on 86400 sekuntia ja vuodessa 31536000 sekuntia. Haku kestää ainakin 1018 vuotta. • Maailmankaikkeuden iäksi arvioidaan noin 10 miljardia vuotta. Montako proteiinia systemaattisella algoritmilla olisi ehtinyt laskostua peräkkäin aikojen alusta? Tulos tunnetaan Levinthalin paradoksina.

  38. Luonnon proteiinit laskostumiseen kuluu aikaa millisekunneista minuutteihin. Luonnon laskostamisalgoritmi on 1029 ... 1024 kertaa tehokkaampiverrattuna systemaattiseen hakuun.

  39. 5: Membrane proteins • Special constraints due to lipid bilayer • Topography prediction • Three types of structures known • Porin beta-barrel • Helical bundles: bacteriorhodopsin, cytochrome oxidase, etc. • Light harvesting complex: full of chlorophyll

  40. 6: Functional site identification • Given a structure, can you tell what is the function? • Structural genomics • Targets families of unknown proteins • Techniques • 3D structure comparison + classification • Computational geometry

  41. Deduction Statistically significant sequence similarity Structure similarity Extant proteins Inferred ancestors 3D structure comparison has a longer look-back time Induction ? ? Properties of extant proteins ? Evolutionary continuity

  42. 7: Protein-protein interaction • Nature of interaction networks • “Scale-free” • Static / dynamic • Evolutionary robustness • Noisy data • Predicting interactions from sequence, from structure • Docking two structures into complex

  43. GroEL-complex Hemoglobin 1gr6

  44. Molecular complexesvia X-ray 30 S subunit of the ribosome Protein RNA 1fjg

  45. Hiivan proteiini-interaktioverkko

  46. Genomi, proteomi, transkriptomi, metabolomi “Q → Family X” “Family X is involved in process Y” → A → B ↑ ↓ D ← C →

  47. 8: protein-small molecule interaction • Site identification • Ligand orientation • Prediction of affinity • Applications in pharmaceutical industry

More Related