1 / 30

3.7 B ioinformatika

3.7 B ioinformatika. Bioinformatika tai informacinių technologijų taikymas biologinės informacijos saugojimui, tvarkymui ir analizei (naudojimui).

axelle
Download Presentation

3.7 B ioinformatika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 3.7 Bioinformatika • Bioinformatika tai informacinių technologijų taikymas biologinės informacijos saugojimui, tvarkymui ir analizei (naudojimui). • Biologinė informacija tai DNR ir RNR nukleotidų sekos (cDNR, genai, sekvenuoti genomai, molekuliniai žymenys), genolapiai, koduojamų baltymų charakteristika, mokslinių tyrimų rezultatai. • Informacinės technologijos tai duomenų masyvų tvarkymas, analizė ir rezultatų pateikimas kompiuterinių programų pagalba. Sutrumpintai, bioinformatika tai informacinių technologijų pritaikymas biologijoje.

  2. 55556652277 55556652277 55556652277 55556652255777 55556652255777 55556652255777 55556652255887777777 55556652255887777777 55556652255887777777 1222122558811555566522558877777777777777777778888888885 1222122558811555566522558877777777777777777778888888885 1222122558811555566522558877777777777777777778888888885 122212255881188855555566522558877777777777777777777777778888888885 122212255881188855555566522558877777777777777777777777778888888885 122212255881188855555566522558877777777777777777777777778888888885 Bioinformatikos poreikis (1) • Brangiai kainuojančių biotechnologijos tyrimų efektyvumas priklauso nuo spartaus tyrimų rezultatų informacijos praeinamumo (kam tirti ar sekvenuoti DNR jei tikslinės nukleotidų sekos jau yra žinomos). • Biotechnologija sparčiai besivystanti kryptis: pasaulyje dirba tūkstančiai mokslininkų grupių ir produkuoja gausybę informacijos. • Reikia “sujungti” visų mokslininkų kompiuterius į vieną tinklą ir šį tinka tinkamai tvarkyti ir suprantamai pateikti informaciją. Biologinės informaciją srautai taip padidėjo, kad jų analizė galima vadinti duomenų kasyklomis (ang. data mining).

  3. Bioinformatikos poreikis (2) • DNR sekų duomenų masyvai yra per dideli, kad efektyviai juos analizuoti “rankiniu” būdu (pavyzdys: DNR sekos atitikimo paieška žinomų genų DNR sekų duomenų bazėse). • Duomenų masyvai talpinami į genetines duomenų bazes (pagrinde DNR sekos) sparčiai didėja tokiu lygmeniu kad: • a) yra poreikis specialiai šios informacijos tvarkymui paruoštų specialistų – bioinformatikų bei • b) specialių informacijos tvarkymo priemonių (duomenų bazių ir e-programų) specialiai pritaikytų bioinformacijos tvarkymui ir analizei.

  4. Bioinformatikos principas (1) • Bioinformatika suderina tokius komponentus kaip: • Kompiuterinės analizės metodai (paieškos varikliai, analizės programos). • Nemaži duomenų masyvai yra nemokami ir laisvai prieinami per Internetą, tai ypač patogu nedidelio biudžeto centrams, kurie gali atlikti komiuterines genų sekų analizes ir atrasti naujus genus. • Duomenų bazės: • DNR, RNR sekos (sekvenuoti genomai, žymenys ir pan.). • Baltymų amino rūgščių sekos (virš 120 000 baltymų). • Baltymų molekulinė struktūra (virš 20 0000 baltymų erdvinė struktūra).

  5. cDNR sekos Baltymų struktūra Genetinės įvairovės tyrimai Kandidatiniai genai Fiziologija Sekvenuoti genomai Genolapiai DNR žymenys Baltymų sekos Bioinformatikos principas (2) Dideli srautai atskirų sričių informacijos Susisteminta, lengvai prieinama informacija Bioinformatika • DNR sekų rinkimas ir analizė • Duomenų masyvų valdymas ir komunikacijos. • E-programos ir analizės automatizavimas. Genetinės įvairovės tyrimai Fiziologija Sekvenuoti genomai Baltymų struktūra Genolapiai cDNR sekos DNR žymenys Kandidatiniai genai Baltymų sekos

  6. Bioinformatikos raida • “Genominės revoliucijos” pradžioje bioinformatika apėmė tik tokios biologinės informacijos kaip nukleotidų ar aminorūgščių sekų duomenų bazių palaikymą. • Vėliau reikėjo tobulinti duomenų bazes įjungiant, interaktyvų naudojimą (naujų duomenų inkorporacija ir analizė). • Dabartiniu metu, pagrindinis dėmesys yra paruošti įvairių sričių interaktyvią biologinės informacijos derinio valdymo, analizės ir interpretacijos sistemą (nuo DNR sekų iki baltymų erdvinės struktūros) Pagrindiniai bioinformatikos duomenys tai DNR ir RNR nukleotidų sekos bei baltymų amino rūgščių sekos.

  7. Pagrindinės bioinformatikos sritys • Genomų sekų analizė: • Sekvenuotų genomų sekos, cDNR sekos, EST, SNP žymenų sistemų sekos: QTL ir genų paieškos tyrimai. • Molekulinis modeliavimas: • Kompiuterinė baltymų sudėties ir erdvinės struktūros prognoze pagal nukleotidų sekas. • Filogenija ir evoliucija: • Informacija apie rūšių ir populiacijų evoliuciją pagal genų sekų panašumus. • Statistinė biologija: • Biologinės informacijos apdorojimo ir analizės e-priemonių ir statistinių metodų kūrimas ir vystymas.

  8. Genomų sekų analizė (1) • Tikslas: gausių DNR ir RNR sekų informacijos sisteminimas genominių žemėlapių pagalba ir analizė specialiomis kompiuterinėmis programomis. • Kompiuterizuoti interaktyvūs genominiai žemėlapiai tai atitinkamai susisteminti nukleotidų sekų rinkiniai paversti į elektroninį interaktyvų formatą. • Genominiai žemėlapiai tai efektyvus įrankis genų, genominių sekų, išreikštų sekų (cDNR) ar molekulinių žymenų sankibos grupių paieškai ir palyginimui (panašu į elektrinines knygų bibliotekas). Pavyzdžiai: • Ar tiriamas genas yra kitos rūšies genome, kada išreikštas? • Kaip homologinių sekų genai išsidėstę chromosomose ir kokia tvarka? • Su kokio žinomo geno sekomis, tyrimuose išreikšto geno sekos buvo panašios? • Kokius pasigaminti PCR pradus, kad efektyviau aptikti genetinę variaciją norimame požymyje? • Kaip atskirti koduojamas ir nekoduojamas sekvenuoto genomo dalis?

  9. Sekų palyginimas Genomų sekų analizė (2) Sekų analizės apžvalga Genomo nukleotidų sekų failas Koduojančių atkarpų paieška Panašių sekų paieška Molekulinių žymenų kūrimas (restriktazės, PCR, EST) coding Baltymų sekų failas Paversti į baltymą nekoduojanti koduojanti Genų paieška Žinomų SSR identifikacija Erdvinės struktūros modeliai Panašių sekų paieška Sekų palyginimas RNR struktūros modeliai Palyginamoji daugelio sekų analizė Sukurti sekų palyginimo profilį Profilio analizė Baltymų šeimų (panašių tarp rūšių) analizė Homologinių sekų (genų) identifikacija Filogenija

  10. Palyginamoji DNR sekų analizė Specialių kompiuterinių programų pagalba lyginamos DNR sekos išskleidžiamos šalia, ir identiški nukleotidai atitinkamai pažymimi (pvz., vertikliais brūkšniais); kur reikalinga paliekami tarpai, ieškant maksimalių sutapimų tarp lyginamų sekų. 768 TT....TGTGTGCATTTAAGGGTGATAGTGTATTTGCTCTTTAAGAGCTG 813 || || || | | ||| | |||| ||||| ||| ||| 87 TTGACAGGTACCCAACTGTGTGTGCTGATGTA.TTGCTGGCCAAGGACTG 135 . . . . . 814 AGTGTTTGAGCCTCTGTTTGTGTGTAATTGAGTGTGCATGTGTGGGAGTG 863 | | | | |||||| | |||| | || | | 136 AAGGATC.............TCAGTAATTAATCATGCACCTATGTGGCGG 172 . . . . . 864 AAATTGTGGAATGTGTATGCTCATAGCACTGAGTGAAAATAAAAGATTGT 913 ||| | ||| || || ||| | ||||||||| || |||||| | 173 AAA.TATGGGATATGCATGTCGA...CACTGAGTG..AAGGCAAGATTAT 216

  11. 0 1,000 2,000 3,000 4,000 2.0 1.5 1.0 0.5 -0.0 2.0 1.5 1.0 0.5 -0.0 2.0 1.5 1.0 0.5 -0.0 0 1,000 2,000 3,000 4,000 Genų paieška DNR sekose Kodono pirmumo principas taikomas sekvenuotų genomų tolesnėje analizėje. Žinant tam tikra medžio biocheminėje sudėtyje gausaus baltymo pagrindinę amino rūgštį, kompiuterio pagalba galima ieškoti DNR atkarpų, kuriuose vyrauja šią amino rūgštį koduojantis tripletas (kodonas, pvz. CUG). Analizės metu, tiksliniam kodonui suteikiamas pirmumas ir pagal kodono pasikartojimo dažnį apskaičiuojant kodono pirmumo rodiklis, kuris identifikuojamas kaip intronas ir baltymą koduojančio geno dalis. Kodono pirmumo rodiklis

  12. 50 100 150 200 250 AceIII 1 CAGCTCnnnnnnn’nnn... AluI 2 AG’CT AlwI 1 GGATCnnnn’n_ ApoI 2 r’AATT_y BanII 1 G_rGCy’C BfaI 2 C’TA_G BfiI 1 ACTGGG BsaXI 1 ACnnnnnCTCC BsgI 1 GTGCAGnnnnnnnnnnn... BsiHKAI 1 G_wGCw’C Bsp1286I 1 G_dGCh’C BsrI 2 ACTG_Gn’ BsrFI 1 r’CCGG_y CjeI 2 CCAnnnnnnGTnnnnnn... CviJI 4 rG’Cy CviRI 1 TG’CA DdeI 2 C’TnA_G DpnI 2 GA’TC EcoRI 1 G’AATT_C HinfI 2 G’AnT_C MaeIII 1 ’GTnAC_ MnlI 1 CCTCnnnnnn_n’ MseI 2 T’TA_A MspI 1 C’CG_G NdeI 1 CA’TA_TG Sau3AI 2 ’GATC_ SstI 1 G_AGCT’C TfiI 2 G’AwT_C Tsp45I 1 ’GTsAC_ Tsp509I 3 ’AATT_ TspRI 1 CAGTGnn’ Restriktazių kirpimo modeliavimas Speciali kompiuterinė programa parodo kuriuose tam tikro DNR fragmento vietose kiekviena restriktazė perkirps DNR (pažymėta brūkšneliu). Tai padeda parinkti tinkamas restriktazes (pvz. siekiant padalinti DNR fragmentą į vienodas dalis.) Restriktazė Kerpimo vietų sekos

  13. Specialios programos PCR pradų gamybai OPTIMAL primer length --> 20 MINIMUM primer length --> 18 MAXIMUM primer length --> 22 OPTIMAL primer melting temperature --> 60.000 MINIMUM acceptable melting temp --> 57.000 MAXIMUM acceptable melting temp --> 63.000 MINIMUM acceptable primer GC% --> 20.000 MAXIMUM acceptable primer GC% --> 80.000 Salt concentration (mM) --> 50.000 DNA concentration (nM) --> 50.000 MAX no. unknown bases (Ns) allowed --> 0 MAX acceptable self-complementarity --> 12

  14. Filogenija ir evoliucija • Šios disciplinos tikslas yra homologinių (panašių) genų sekų paieška tarp organizmų, genčių ir rūšių • Bendrų vystymasis sąsajų tarp įvairių rūšių nustatymas (principas: panašios rūšys turi panašesnes baltymų amino rūgščių ar DNR nukleotidų sekas) • Baltymai, kurių pirminė struktūra panaši tarp rūšių, sudaro baltymų šeimas, o erdvinė struktūra- “blokus”. • Mokslininkai rekonstruoja evoliucinius ryšius tarp rūšių ir nustato kada paskutinį kartą lyginamos rūšys turėjo bendrus tėvus. Filogenija tai biologijos šaka tirianti asociacijas tarp įvairių organizmų (genčių , rūšių, porūšių ir pan.)

  15. Filogeniniai medžiai Bakterijų rūšių giminyste pagal jų DNR sekų panašumą

  16. Molekulinis modeliavimas • Tikslas: kompiuterinė baltymų sudėties ir erdvinės (3-D) struktūros prognoze pagal nukleotidų sekas (viena iš proteomikos dalių). • Puiki išeitis jei neįmanoma atlikti gana brangių baltymų struktūros nustatymo metodų rentgeno kristalografijos pagalba. • Baltymų sekos aprašomas raidėmis (kiekviena aminorūgštis- raidė (viso 20 raidžių). • Pagrindiniai 4 etapai: • Rasti žinomos erdvinės struktūros baltymus, kurių aminorūgščių sekos panašios į tiriamo baltymo sekas, • Palyginti abiejų baltymų sekas tikslu nustatyti identiškas dalis, kurios bus naudojamos kaip jungčių pavydžiai modeliavimui, • Sudaryti tiriamo baltymo erdvinį modelį pagal jungčių pavydžius, • Išbandyti erdvinį modelį pagal eilę testavimo kriterijų.

  17. Palyginamoji baltymų sekų analizė Įvairių organizmų baltymų sekos lyginamos kartu jas išdėstant panašiai kaip DNR atkarpas. Baltymų sekos aprašomas raidėmis (kiekviena aminorūgštis= viena raidė (viso 20 raidžių).

  18. Baltymų struktūros prognozė • Prognozuojama baltymų struktūra pagal žinomos struktūros panašios sudėties baltymus. • 3D struktūra naudojama baltymo funkcijos tyrimų prognozei. Nežinomos struktūros baltymo seka ? Struktūros modelis A - A - K- M A - A - K- M Analizė A - L - K- M A - L - K- M Katalizuojamos reakcijos ir funkcijos prognozė Žinomos struktūros baltymo seka

  19. Statistinė biologija • Tikslas biologinių duomenų analizės ir interpretacijos priemonių kūrimas: • Priemonės, kurios įgalina efektyvų priėjimą prie duomenų masyvų, jų tvarkymą ir naudojimą (pagrinde, duomenų bazių programos, glaustame, naudojimui internete tinkančiame formate). • Kūrimas naujų algoritmų (matematinių formulių) ir rodiklių, kurie padėtų kompleksinių duomenų masyvų analizėje (pvz. DNR sekų asociacijų tyrimai, baltymų struktūros modeliai ir baltymų grupavimas pagal jų panašumą).

  20. BLAST: sekų panašumo analizė • BLAST (Basic Local Alignment Search Tool) tai specialiai sekų palyginimui duomenų bazėse skirta programa • BLAST viena iš pagrindinių nemokamų sekų palyginimo programų ir yra laisvai prieinama Internete (pvz. NCBI www puslapis). • Žemiau patiektas BLAST padygimosios analizės rezultatas (panašios sekos ir jų panašumo rodiklis p tai tikimybė kad panašumas yra atsitiktinis). Sequences producing significant alignments: (bits) Value gnl|PID|e252316 (Z74911) ORF YOR003w [Saccharomyces cerevisiae] 112 7e-26 gi|603258 (U18795) Prb1p: vacuolar protease B [Saccharomyces ce... 106 5e-24 gnl|PID|e264388 (X59720) YCR045c, len:491 [Saccharomyces cerevi... 69 7e-13 gnl|PID|e239708 (Z71514) ORF YNL238w [Saccharomyces cerevisiae] 30 0.66 gnl|PID|e239572 (Z71603) ORF YNL327w [Saccharomyces cerevisiae] 29 1.1 gnl|PID|e239737 (Z71554) ORF YNL278w [Saccharomyces cerevisiae] 29 1.5 gnl|PID|e252316 (Z74911) ORF YOR003w [Saccharomyces cerevisiae] Length = 478 Score = 112 bits (278), Expect = 7e-26 Identities = 85/259 (32%), Positives = 117/259 (44%), Gaps = 32/259 (12%) Query: 2 QSVPWGISRVQAPAAHNRG---------LTGSGVKVAVLDTGIST-HPDLNIRGG-ASFV 50 + PWG+ RV G G GV VLDTGI T H D R + + Sbjct: 174 EEAPWGLHRVSHREKPKYGQDLEYLYEDAAGKGVTSYVLDTGIDTEHEDFEGRAEWGAVI 233 Query: 51 PGEPSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYXXXXXXXXXXXXXXXXXQGLE 110 P D NGHGTH AG I + + GVA + ++ +G+E Sbjct: 234 PANDEASDLNGHGTHCAGIIGSKH-----FGVAKNTKIVAVKVLRSNGEGTVSDVIKGIE 288

  21. Informacinės sistemos • Pagrindinės miško medžių biologinės informacinės sistemos (Duomenys apie DNR RNR ir baltymų sekas, “On-line” analizės programos (pvz. BLAST)): • NCBI (JAV nacionalinis biotechnologinės informacijos centras). • EMBL (Europos molekulinės biologijos laboratorija) (http://www.embl.org/ ) ir EBI (Europos bioinformatikos institutas http://www.ebi.ac.uk/). • Miško medžiai: pagrinde TreeGenes informacinė sistema (Dendrome projektas, JAV). (http://dendrome.ucdavis.edu)

  22. EMBL ir EBI informacinė sistema EBI- European bioinformatics institute. • DNR ir RNR sekos • Baltymų sekos • BLAST palyginimas • Literatūra

  23. Dendrome projektas “Dendrome” miško medžių genomikos projekto rėmuose sukurta eilė medžių genomo analizės priemonių: TreeGenes duomenų bazė (genolapiai, žymenys, QTL) BLAST sekų panašumo pieškos įrankis Mokslinės litertūros paieškos variklis

  24. TreeGenes: medžių genomo duomenų bazė • TreeGenes yra genolapių duomenų bazė: • EST, • SNP, • Genolapiai, • Molekuliniai žymenys, • QTL, • Literatūra. • Palyginamieji genolapiai (Pinus taeda, P. menziessi, Picea abies, ir t.t.)

  25. NCBI informacinė sistema DNR ir RNR sekos, baltymų sekos, BLAST palyginimas, referencijos NCBI sistema apjungia keliolika duomenų bazių, naudojant bendrus paieškos variklius (vienu metu galima atlikti paiešką visose duomenų bazėse)

  26. Picea est 2. Įrašome paieškos raktinius žodžius 1. Pasirenkame duomenų bazę Duomenų bazių naudojimas (1) • Pavyzdys. Planuojami Picea EST žymenų paieškos tyrimai. Reikalinga jau nustatytų EST žymenų analizė. • Priemonė: NCBI duomenų bazės paieškos varikliai.

  27. Duomenų bazių naudojimas (2) 3. Paieškos rezultatas 4. Dominantis rezultatas

  28. Duomenų bazių naudojimas (3) 5. Geno išreikšto vėlyvoje embriogenezės stadijoje radimo žymenys 6. Referencija į tyrimo rezultatų straipsnį 7. Dominančios sekos

  29. Ateities poreikiai • Informacinis “sprogimas”: • Reikia greitesnių, labiau automatizuotų analizės priemonių. • Glaudesnės integracijos tarp įvairių duomenų kategorijų (DNR sekos, baltymų sekos, literatūra, klasikinė genetika ir selekcija ir tt.). • Reikia “gudresnių” ypač didelių duomenų masyvų analizės priemonių. • Bioinformatikos specialistų trūkumas: • Kompiuteristai turėtų daugiu žinoti apie biologiją. • Biologai turėtų daugiau žinoti apie kompiuteriją (programas, jų naudojimas ir rezultatų interpretacija).

  30. Literatūros sąrašas Baxevanis, A.D., Ouellette, B. F. 2004. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition. Wiley-Interscience ISBN: 0471478784. Claverie, J-M., Notredame, C..2003. Bioinformatics for Dummies. For Dummies; 1st edition, ISBN: 0764516965. Jones, N.C., Pevzner, P.A. 2004. An Introduction to Bioinformatics Algorithms (Computational Molecular Biology). The MIT Press. ISBN: 0262101068 Krutovskii, K.V., Neale, D. B. Forest genomics for conserving adaptive genetic diversity. Forest Genetic Resource Working Paper FGR/3(E), FAO, Rome Italy. Mount, D.W. 2004. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press; 2nd edition, ISBN: 0879697121.

More Related