1 / 29

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas. Lekciju saraksts . Bioloģiskā informācija . Molekulārās sekvences (nukleotīdu un aminoskābju) Proteīnu struktūras Gēnu ekspresijas dati Literatūra, kas saistīta ar bioloģisko informāciju .

belle
Download Presentation

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas

  2. Lekciju saraksts Mikrobioloģijas un biotehnoloģijas katedra

  3. Bioloģiskā informācija • Molekulārās sekvences (nukleotīdu un aminoskābju) • Proteīnu struktūras • Gēnu ekspresijas dati • Literatūra, kas saistīta ar bioloģisko informāciju Mikrobioloģijas un biotehnoloģijas katedra

  4. International Nucleotide Sequence Database Collaboration • http://www.insdc.org/ • INSDC ir sadarbības rezultāts starp GenBank, DDBJ, EMBL Mikrobioloģijas un biotehnoloģijas katedra

  5. Bioinformātikas datu bāzes • Dažādi datu bāzu veidi Nukleotīdu, aminoskābju Sekvenču, struktūras, literatūras, gēnu ekspresijas, molekulāro mijiedarbību, noteiktu organismu datu bāzes • Informācijas meklēšana un iegūšana no dažādām datu bāzēm • Internets un pieeja datu bāzēm Mikrobioloģijas un biotehnoloģijas katedra

  6. Bioinformātikas datu bāzes • Pilnu bioinformātikas datu bāžu sarakstu laikam nav iespējams sastādīt • Var izmantot žurnāla NucleicAcidsResearchikgadējo datu bāžu izdevumu Skat. http://nar.oxfordjournals.org/content/39/suppl_1 • Satur informāciju gan par galvenajiem datu bāzu resursiem, kā piemēram GenBank, gan arī par specializētām datu bāzēm Mikrobioloģijas un biotehnoloģijas katedra

  7. Kāpēc to ir tik daudz? • Tāpēc, ka bioloģiskās informācijas veidi ir ļoti daudz un dažādi un katram no tiem ir savas īpatnības, piemēram, literatūras datu bāzes struktūra atšķirsies no proteīnu struktūru datu bāzes • Datu bāzes ir informāciju tehnoloģiju virziens, kas strauji attīstās – nozarei attīstoties paveras jaunas iespējas datu organizācijai un prezentācijai • Subjektīvi iemesli – ja man nepatīk kāda datu bāze, man ir tiesības taisīt pašam savu Mikrobioloģijas un biotehnoloģijas katedra

  8. Kāpēc tas viss ir tik sarežģīti? • Bioloģiski jaukas idejas ne vienmēr ir iespējams realizēt loģiskā un darboties spējīgā datu bāzē. Un otrādi – eleganta datu bāze no biologa viedokļa ir pilnīgs murgs, no kuras neko nevar dabūt laukā • Dialogs starp datu bāzu programmētājiem un biologiem izdodas labāks, ja programmētājiem ir kaut nelielas zināšanas bioloģijā un biologiem nelielas zināšanas programmēšanā Mikrobioloģijas un biotehnoloģijas katedra

  9. Arhīvs? • Datu bāzes mēdz saukt par arhīviem, bet vai tas ir pareizi? • Informācijas uzglabāšana ir tikai viena no datu bāzu funkcijām • Datu bāze ir informācijas organizēšanas līdzeklis, informācijas meklēšanas efektivitāte datu bāzē ir atkarīga no tā, cik labi informācija ir organizēta • Datu bāzes ir saistītas savā starpā un ļauj iegūt vispusīgu informāciju par meklēto jautājumu • Datu bāzes piedāvā integrētus instrumentus, kas lietotājam ļauj patstāvīgi veikt datu analīzi Mikrobioloģijas un biotehnoloģijas katedra

  10. No kura gala lai tām ķeras klāt? • Vairums lielo datu bāzu piedāvā integrētas meklēšanas iespējas, kas meklē informāciju par interesējošo jautājumu vairākās datu bāzēs vienlaicīgi, piemēram, NCBI Entrez ļauj vienlaicīgi meklēt gan DNS sekvences, gan ar tām saistītos proteīnus, proteīnu struktūras un literatūras datus • Internets piedāvā universālu pieeju dažādām datu bāzēm Mikrobioloģijas un biotehnoloģijas katedra

  11. Kas kopīgs datu bāzēm? • Dati ir sakārtoti tabulās, sadalīti pa grupām • Katram datu bāzu ierakstam ir savs unikāls identifikators (ieraksta numurs – Accessionnumber un GI) • Dažādiem datu laukiem ir noteikts identifikators • Datu bāzu ieraksti ir noteiktā standartizētā formātā, kas atvieglo to uzglabāšanu, meklēšanu un atrastās informācijas tālāku apstrādi (pirmajā lekcijā BLAST meklēšanas rezultāts ir piemērs) Mikrobioloģijas un biotehnoloģijas katedra

  12. Integrēta pieeja datu bāzēm • Zinot cik daudz un dažādu datu tipu pastāv (nukleotīdu un aminoskābju sekvences, literatūra, gēnu ekspresijas dati u.t.t.), būtu pamats bažām, kā atrast sakarības dažādu datu veidu starpā • NCBI un EMBL piedāvā integrētas meklēšanas sistēmas – NCBI Entrez un EMBL SRS • Abas meklēšanas sistēmas piedāvā gan teksta meklēšanu, gan molekulāro sekvenču meklēšanu izmantojot BLAST vai FASTA programmas Mikrobioloģijas un biotehnoloģijas katedra

  13. Mikrobioloģijas un biotehnoloģijas katedra

  14. Informācijas meklēšanas pamati • Izmantojot meklētājus iespējams grafiski noteikt dažādus meklēšanas ierobežojumus, taču pēc būtības tie visi ir reducējami uz vienkāršu loģisko operatoru pielietojumu un striktu dažādu informācijas tipu nodalījumu datu bāzē. Tas dod iespēju meklēt noteiktu sugu, molekulu veidu un atslēgas vārdu robežās Mikrobioloģijas un biotehnoloģijas katedra

  15. Būla operatori un ierobežotāji • Boolean operators– AND, OR un NOT http://www.ncbi.nlm.nih.gov/books/NBK3837/#EntrezHelp.Entrez_Searching_Options • Field– [Author], [Organism], [Journal], [GeneName], bet noteikti Fieldattiecas uz noteiktām datu bāzēm Meklēšanas sistēma paveic lielu darbu mūsu vietā, bet meklēšanas teksts vienmēr jāformulē pēc iespējas precīzi Piemēram: «human BRCA1» (2920 rezultāti nukleotīdu datu bāzē, bet «Homo sapiens[Organism] AND BRCA1[Gene Name]» (121 rezultāti nukleotīdu datu bāzē) Mikrobioloģijas un biotehnoloģijas katedra

  16. Būla operatori un ierobežotāji • Vai jūs zināt, ka augos arī ir hemoglobīns? • Entrez meklēšanas sistēma, proteīnu datu bāze “hemoglobin[PROT] OR haemoglobin[PROT] AND viridiplantae[ORGN]” atrod 23 proteīnu (un tos kodējošo gēnu) sekvences Mikrobioloģijas un biotehnoloģijas katedra

  17. PubMed/PMC • ASV Nacionālās medicīnas bibliotēkas datu bāze, kas piedāvā biomedicīnas (un ne tikai) literatūras informāciju • NLM MEDLINE datubāzes ir lielākais, bet ne vienīgais PubMed komponents • PubMedCentral (PMC) piedāvā pieeju pilniem zinātnisko publikāciju tekstiem • PubMed pašlaik indeksē vairāk nekā 16 000 žurnālus, piedāvājot brīvu pieeju žurnālu rakstu bibliogrāfiskai informācijai un abstraktiem, kā arī saites uz pilniem rakstu tekstiem, ja publicētājs tās piedāvā • PubMed NAV pilnīga biomedicīnas literatūras datu bāze!!! Mikrobioloģijas un biotehnoloģijas katedra

  18. Teksta meklēšana PubMed • PubMed FAQ http://www.nlm.nih.gov/bsd/viewlet/search/subject/subject.html Mikrobioloģijas un biotehnoloģijas katedra

  19. Teksta meklēšana izmantojot limitus Mikrobioloģijas un biotehnoloģijas katedra

  20. Teksta meklēšana izmantojot AdvancedSearch Mikrobioloģijas un biotehnoloģijas katedra

  21. Teksta meklēšana PubMed • Svarīgi izvēlēties pareizo meklēšanas kritēriju un sintaksi, piemēram, meklējot Jennifer Lee publikācijas PubMed ar meklēšanas frāzi “lee j”, tiek atrastas 38 735 atsauces • Zinot, ka Jennifer Lee strādāja kopā ar David Marshall atvieglo meklēšanu - “lee AND marshall” atrod 309 atsauces, bet “lee j[Author] AND marshall d[Author]” atrod tikai 7 • Var arī kombinēt autoru vārdu ar dažādiem atslēgas vārdiem, piemēram, “lee j[AUTH] AND germinate” Mikrobioloģijas un biotehnoloģijas katedra

  22. Meklēšanas rezultāti • Meklēšanas rezultātus iespējams apskatīt dažādos formātos, arī eksportēt uz literatūras atsauču apstrādes programmām (Reference Manager, EndNote) • Saites no atsaucēm uz raksta publicētāja mājas lapu, iespējams arī pilnu raksta tekstu, vai vismaz informāciju kā šo rakstu iegādāties Mikrobioloģijas un biotehnoloģijas katedra

  23. Literatūras atsauču imports un pārvaldīšana • EndNote, Reference Manager – komerciāli pieejamas lokālas literatūras datu bāzes, integrētas MS Word (CiteWhileYouWrite) • Socialbookmarkinginterneta literatūras datu bāzes, piemēram, CiteULike • Brīvpieejas programma Zotero vai Mendeley (Firefox spraudnis) Mikrobioloģijas un biotehnoloģijas katedra

  24. Zinātniskās literatūras datubāzes un citējamība • Web ofKnowledge (ThomsonReuters) • JournalCitationReports • JournalImpactFactor • Hirshindex • Harzing’sPublishorPerish Mikrobioloģijas un biotehnoloģijas katedra

  25. WoK • Komerciāla datu bāze atšķirībā no PubMed • Relatīvi selektīva – indeksē tikai augstas kvalitātes izdevumus • Labas meklēšanas iespējas un papildus bonusi • Saistīta ar JournalCitationReports datu bāzi (JournalImpactFactors) un autoru citējamību Mikrobioloģijas un biotehnoloģijas katedra

  26. JournalCitationReports • Žurnālu snieguma vērtējums • Sistemātiski un objektīvi vērtē >8000 žurnālus zinātnē un tehnoloģijās un >2600 žurnālus sociālajās zinātnēs • Rakstu skaits, kas publicēti žurnālā noteiktā gadā • Citātu skaits uz noteiktu žurnālā noteiktā gadā • Impakta faktors noteiktam gadam Mikrobioloģijas un biotehnoloģijas katedra

  27. JournalImpactFactor • Žurnāla IF ir vidējais reižu skaits noteiktā gadā, ko šī žurnāla raksti ir tikuši citēti iepriekšējos divos gados • Žurnāla IF aprēķina izdalot citātu skaitu noteiktā gadā ar šajā žurnālā publicēto rakstu skaitu iepriekšējos divos gados Piemēram, žurnālā XYZ 2008. - 2009. gadā ir publicēti 200 raksti, uz kuriem 2010. gadā vidēji ir 400 atsauces (citāti). Žurnāla XYZ IF 2010. gadā ir 2 • IF mainās pa gadiem atkarībā no atsauču skaita • IF ņem vērā gan atsauces no citiem žurnāliem, gan arī pašcitēšanos • IF raksturo žurnālu, nevis konkrētu šajā žurnālā publicētu rakstu Mikrobioloģijas un biotehnoloģijas katedra

  28. Autoru citējamību raksturojoši rādītāji • H – indekss (Hirša indekss) • H – indekss ir noteikta autora publikāciju skaits h, uz kurām katrai ir vismaz h atsauces • Piemēram, autoram A.B.C. kopā ir 30 publikācijas. Tās ranžējot pēc atsauču skaita nosaka, ka uz 12 publikācijām ir vairāk nekā 12 atsauces, t.i., h-indekss ir 12 Hirsch (2005) Anindex to quantifyanindividual’sscientificresearchoutput. PNAS, 102:16569 Mikrobioloģijas un biotehnoloģijas katedra

  29. Harzing’sPublishorPerish • PoP izmanto GoogleScholar datus (http://scholar.google.com) • PoP ir datorprogramma, kas izmantojot GoogleScholar datus par autoru vai žurnālu rakstiem izrēķina citējamības rādītājus Kopējais publikāciju skaits, atsauču skaits uz šīm publikācijām, dažādi indeksi http://www.harzing.com/pop.htm Mikrobioloģijas un biotehnoloģijas katedra

More Related