1 / 18

Gena- og gagnas öfn (GEG1103)

Gena- og gagnas öfn (GEG1103). Fyrirlestrar 21 & 22 BLAST, Margföld pörun. Leit í gagnabönkum. Pörum röð ( query sequence ) gegn öllum röðum ( einni af annarri ) í gagnasafni Marktækar niðurstöður sýna skyldleika kennigreining ( identification ) gefa upplýsingar um byggingu og virkni.

santos
Download Presentation

Gena- og gagnas öfn (GEG1103)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gena- og gagnasöfn (GEG1103) Fyrirlestrar 21 & 22 BLAST, Margföld pörun

  2. Leit í gagnabönkum • Pörum röð (query sequence) gegn öllum röðum (einni af annarri) í gagnasafni • Marktækar niðurstöður • sýna skyldleika • kennigreining (identification) • gefa upplýsingar um byggingu og virkni

  3. DNA vs. Prótín • Auðveldara að ákvarða skyldleika prótínraða • 4 basar í DNA vs. 20 AS  fleiri möguleikar á tilviljanakenndri pörun í DNA • Dæmi: röð uppá 4 einingar: • DNA: 44 = 256 möguleikar • AS: 204 = 160.000 möguleikar • Ofgnótt tákna: • Margir táknar fyrir sömu AS •  A.S. raðir geta verið eins þó samsvarandi DNA raðir séu mismunandi

  4. Dæmi: Samröðum AUGGAATTAGTTATTAGTGCTTTAATTGTTGAATAA við AUGGAGCTGGTGATCTCAGCGCTGATCGTCGAGTGA  AUGGAATTAGTTATTAGTGCTTTAATTGTTGAATAA ||||| | || || || | || || || | | AUGGAGCTGGTGATCTCAGCGCTGATCGTCGAGTGA 21 basi (af 36) parast rétt  58% einsleitni (identity) Þýðum í AS raðir: ELVISISALIVE ELVISISALIVE 100% einsleitni DNA vs. Prótín

  5. DNA vs. Prótín •  Ef óþekkt DNA inniheldur gen er oft gagnlegt að þýða fyrst • Getum þýtt í öllum 6 lesrömmum • 3 áfram, 3 afturábak

  6. BLAST • Basic Local Alignment Search Tool • BLASTP: Prótín leitarröð (query sequence) gegn prótín gagnabanka, göt leyfð • BLASTN: DNA leitarröð gegn DNA gagnabanka, göt leyfð • BLASTX: DNA leitarröð, þýdd í alla sex ramma, gegn prótín gagnabanka, göt leyfð • TBLASTN: Prótín leitarröð gegn DNA gagnabanka, þýddum í öllum sex römmum, göt leyfð • TBLASTX: DNA leitarröð, þýdd í alla sex ramma, gegn DNA gagnabanka, þýddum í öllum sex römmum,göt EKKI leyfð

  7. BLAST • GenBank er of stór til að fýsilegt sé að framkvæma fulla samröðun á leitarröð gegn öllum GenBank röðum •  Heuristic leit (þreifun): styttum okkur leið að því að finna hvar við byrjum samröðunina í hverri röð fyrir sig • 1. Query-röð brotin niður í „orð“ • AILVPTVIGCT • 2. Leitað í gagnabankanum að röðum þar sem orðið parast • LKCRAILVGTVIAML.... • AILV • 3. Þegar fundin er pörun er samraðað útfrá því þar til pörunarskorið verður óásættanlega lágt • LKCRAILVGTVIAML.... • AILVPTVI 

  8. PSI-BLAST • position specific iterated BLAST • Framkvæmd leit eins og í venjulegu BLAST • Framkvæmd margföld pörun og ný skorunarmatrixa reiknuð út • Leit endurtekin með nýrri matrixu

  9. Margföld pörun • Samtímis pörun margra raða gefur: • yfirlit yfir skyldleika lífvera/raða • hneppi (regions) sem stökkbreytast • geymin (conserved) hneppi

  10. Margföld pörun • Markmiðið: Tökum 3 eða fleiri raðir og samröðum þannig að sem flestir stafir verði í hverjum dálki í línuröðuninni • Vandamálið: því fleiri raðir, þess fleiri möguleikar á ´pörun´, ´mispörun’, ´gat´

  11. Dynamic Programming • Einföld pörun með DP • Tiltölulega einfalt • Gefur alltaf bestu mögulega pörun • Á þetta líka við þegar raðirnar eru fleiri?

  12. Dynamic Programming • Skoðum 3 AS raðir: VSNS, SNA, AS • Ein röð á ás (x, y, z) • Pörun í þremur víddum

  13. Dynamic Programming Möguleikar: • Allar 3 AS parast; • A & B parast, gat í C • A & C parast, gat í B • B & C parast, gat í A • A, gat í bæði B & C • B, gat í bæði A & C • C, gat í bæði A & B

  14. Dynamic Programming • Figure source:http://www.techfak.uni-bielefeld.de/bcd/Curric/MulAli/node2.html#SECTION00020000000000000000

  15. Dynamic Programming • Ef hver röð hefur lengd n • 2 raðir: O(n2) • 3 raðir: O(n3) • 4 raðir: O(n4) • N raðir: O(nN) • Verður fljótt ófýsilegt

  16. Margföld pörun • Í raun er framkvæmd „heuristic“ samröðun (þreifun) þar sem: • 1. röðum eru einfalt samraðað og skor reiknuð út • 2. bráðabirgða-tré búið til • 3. samröðun endurtekin í þeirri röð (order) sem tréð gefur til kynna Ekki er tryggt að samröðunin sé sú besta

  17. CLUSTAL • Forrit fyrir margfalda samröðun • CLUSTAL W á Vefnum • CLUSTAL X (CULSTAL W fyrir PC): http://bips.u-strasbg.fr/fr/Documentation/ClustalX/ • Sækið skrána clustalx1.83.zip • Gefur „alignment file“ sem nota má til að gera „pileup“ mynd í Boxshade eða tré í TreeView

  18. http://www.ncbi.nlm.nih.gov/ Gefur aðgang að GenBank, Entrez, OMIM, PubMed, o.fl. http://www.ensembl.org/ Gögn og upplýsingar um genamengi dýra http://www.tigr.org/tdb/mdb/mdbcomplete.html Genamengi baktería http://www.genomesonline.org/ Yfirlit og linkar í mörg genamengjasöfn http://www.brenda.uni-koeln.de/index.php4 Gagnabanki um ensím og lífefnafræði http://www.genome.jp/kegg/ Kyoto Encyclopedia of Genes and Genomes http://www.ebi.uniprot.org Vefgátt fyrir ýmislegt tengt prótínum http://staden.sourceforge.net/ Staden Package http://www.mbio.ncsu.edu/BioEdit/bioedit.html BioEdit forritið til vinnslu raða http://www.expasy.org/ Forrit og gagnabankar fyrir prótínmengjagreiningu http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html Dotlet sjónrænt pörunarforrit http://www.ebi.ac.uk/clustalw/ ClustalW pörunarforritið http://bioweb.pasteur.fr/seqanal/interfaces/boxshade.html Boxshade - býr til myndræna uppsetningu á pöruðum röðum Nokkrar gagnlegar vefsíður Gagnasöfn Nokkur forrit

More Related