1 / 12

Perl kalbos biblioteka BioPerl (tęsinys)

Perl kalbos biblioteka BioPerl (tęsinys). Prof . Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-4 09a Email: robertas.damasevicius(at)ktu.lt. Daugybinis sekų sugretinimas.

bendek
Download Presentation

Perl kalbos biblioteka BioPerl (tęsinys)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Perl kalbos biblioteka BioPerl (tęsinys) Prof. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-409a Email: robertas.damasevicius(at)ktu.lt

  2. Daugybinis sekų sugretinimas Bioinformatika (B110M100) • BioPerl turi sąsają standartinei daugybinio sugretinimo programai Clustalw. Sukuriamas Clustalw tipo objektas, nustatomos parametrų reikšmės ir iškviečiama align () metodas. use Bio::Tools::Run::Alignment::Clustalw; @params = (’ktuple’ => 2, ’matrix’ => ’BLOSUM’); $factory = Bio::Tools::Run::Alignment::Clustalw ->new (@params); $ktuple = 3; $factory ->ktuple ($ktuple); $seq_array_ref = \@seq_array; $aln = $factory ->align ($seq_array_ref);

  3. Sekų sugretinimas naudojant išorės programą • Naudojama programa clustalw2 system ("clustalw2 gb_sekos2.fa -OUTFILE=gb_sekos.aln"); • Sugretinimo rezultatų nuskaitymas iš failo naudojant AlignIO $io = Bio::AlignIO ->new (-file => "gb_sekos.aln", -format => "clustalw"); $aln = $io ->next_aln; • Konsensuso sekos radimas $consensus = $aln ->consensus_string ($threshold_percent); • Sekų sutapimo apskaičiavimas $percent = $aln ->percentage_identity;

  4. Filogenetinė analizė • Tikslas: nustatyti evoliucinius sąryšius tarp organizmus ir atvaizduoti juos kaip filogenetinį medį • Filogenetinis (evoliucinis) medis: medis parodantis evoliucinius ryšius tarp įvairių rūšių, kurie manoma turi bendrą protėvį • Kiekvienas mazgas atitinka jo šakų protėvį • šakų ilgis kartais atitinka laiko vienetus. Bioinformatika (B110M100) 4

  5. Evoliucinio medžio sudarymas (1) Bioinformatika (B110M100) • Medžio sudarymas naudojant atstumų tarp sekų metrikas $dfactory = Bio::Tree::DistanceFactory ->new (-method => 'NJ'); $stats = Bio::Align::ProteinStatistics ->new; $distmat = $stats ->distance(-align => $aln, -method => 'Kimura'); $tree = $dfactory ->make_tree ($distmat); • Medžių sudarymo algoritmai: • Neighbor-Joining (NJ) / Kaimynų apjungimo • Unweighted Pair Group Method with Arithmetic Mean (UPGMA) • DNR sekoms naudojamas Bio::Align::DNAStatistics objektas • Atstumų metrikos • DNR sekoms: Jukes-Cantor, Kimura, Felsenstein, Tajima-Nei, Tamura • Baltymų sekoms: Kimura

  6. Evoliucinio medžio sudarymas (2) Bioinformatika (B110M100) 6 Evoliucinio medzio spausdinimas Newick formatu $treeout = Bio::TreeIO ->new (-format => 'newick'); $treeout ->write_tree ($tree); Evoliucinio medžio piešimas grafiniu formatu (PostScript) $obj1 = Bio::Tree::Draw::Cladogram ->new (-tree => $tree, -compact => 0); $obj1 ->print (-file => "tree.eps"); Galima peržiūrėti su Adobe Photoshop programa

  7. Newick formatas • Filogenetiniai medžiai gali būti atvaizduojami grafiškai naudojant Newick formatą: • skliaustai ( ... ) – reiškia visą medį arba atskirą pomedį; • kablelis – atskiriamos medžio šakos; • dvitaškis – naudojamas šakos ilgiui nurodyti; • kabliataškis – žymi medžio pabaigą. Bioinformatika (B110M100) 7

  8. Filogenetinio medžio pavyzdys ((simpanze,zmogus),((orangutangas,gibonas),gorila)); Bioinformatika (B110M100) 8

  9. Straipsnių paieška PubMed duomenų bazėje • Sukuriamas Bio::Biblio tipo bibliografinės užklausos objektas $biblio = Bio::Biblio ->new ( -access => 'eutils' ); • Paieška pagal tam tikrą lauką (straipsnio numerį, autorių, anotaciją, pavadinimą) $biblio -> find ('pyragas', 'authors'); $biblio->find ('Support Vector Machine','abstract'); • Straipsnio paėmimas: naudojamas objektas Bio::Biblio::IO $xml = $biblio ->get_next; $io = Bio::Biblio::IO ->new ( -data => $xml, -format => 'medlinexml' ); $article = $io ->next_bibref ();

  10. Straipsnių analizė • Straipsnio autoriai: @aut=%$article ->{'_authors'}; • Autoriaus pavardė: $aut[0][$i] ->{'_lastname'}; • Pavadinimas: $pav=%$article ->{'_title'}; • Anotacija: $anot= %$article ->{'_abstract'};

  11. Pavyzdys # Print docs from PubMed with term “Breast Cancer” use Bio::Biblio; my $biblio = new Bio::Biblio; my $collection = $biblio ->find (“breast cancer”); while ($collection ->has_next) { print $collection ->get_next; } Perl and BioPerl - Craig A. Struble

  12. Paieška FASTA faile pagal šabloną Naudoti Bioperl modulius use Bio::SeqIO::fasta; use Bio::Seq; $io = new Bio::SeqIO::fasta (-file =>$ARGV[0]); $count = 0; while ($seq = $io ->next_seq ()) { if ($seq ->seq () =~ m/[A|G]TATA/) { $count++; } } print $count . "\n"; Failo vardas skaitomas iš komandinės eilutės Skaičiuojama kiek sekų turi tam tikrą šabloną Rezultatas

More Related