1 / 36

Metody molekulární biologie v ekologii a systematice rostlin 12 . NGS, TGS, SNP

Metody molekulární biologie v ekologii a systematice rostlin 12 . NGS, TGS, SNP Petr Koutecký & Jiří Košnar, 201 3. Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364. Next Generation Sequencing - úvod. N ext G eneration S equencing (NGS)

rangle
Download Presentation

Metody molekulární biologie v ekologii a systematice rostlin 12 . NGS, TGS, SNP

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metody molekulární biologie v ekologii a systematice rostlin 12. NGS, TGS, SNP Petr Koutecký & Jiří Košnar, 2013 Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364

  2. Next Generation Sequencing - úvod Next Generation Sequencing (NGS) High-throughput Sequencing • v jednom runu nezávisle sekvenuje tisíce až miliony molekul • poskytuje velké množství dat za nižší cenu než klasické (např. Sangerovo) sekvenování • obvykle odlišné biochemické principy • vyplatí se u vzorků s velkou komplexitou (složitostí) – genomy, vzorky společenstev, nebo pro nízce abundantní molekuly • na rozdíl od Sangerova sekvenování je čitelný i úsek za sekv. primerem • 454 pyrosequencing, Illumina, SOLiD, Ion Torrent a několik dalších nových metod

  3. Next Generation Sequencing - úvod Next Generation Sequencing (NGS) High-throughput Sequencing • 2nd generation sequencing (NGS): molekula templátové DNA je před sekvenací klonálně amplifikována (→ artefakty amplifikace!) 454, Illumina, SOLid • 3rd generation sequencing (TGS): přímo se sekvenuje se 1 molekula DNA Helicos tSMS (True Single Molecule Sequencing) Pacific Bioscience SMRT (Single Molecule Real Time Technology) sequencing Oxford Nanopore Sequencing)

  4. Next Generation Sequencing - úvod Příprava templátu (DNA library) pro NGS sekvenaci: • získáme fragmenty DNA: genomická DNA (enzymatická fragmentace, nebo pomocí kapalného N2) = tzv. shotgun sequencing PCR produkt = amplicon sequencing • fragment end repair, ligation of NGS adaptors: obvykle u genomické DNA – na konce fragmentů připojeny adaptory se sekvencí specifickou pro danou platformu možno i u PCR produktů – ty ale mohou být adaptorovou sekvencí vybaveny pomocí PCR s tzv. fúzními primery (= oligonukleotid se specifickou NGS sekvencí + sekvencí specifickou pro daný typ templátu) • clonal amplification: DNA fragmenty se pomocí NGS specifické sekvence vážou na specifický typ nosiče a proběhne jejich zmnožení

  5. 454 pyrosequencing princip 454 pyrosekvenování (*1996): • po inkorporaci dNTP se odštěpí pyrofosfát (PPi) → ATP sulfuryláza jej přemění na ATP → luciferáza za přítomnosti ATP přemění luciferin na oxyluciferin → záblesk (→ apyráza – degraduje neinkorp. dNTP a ATP) • v každém cyklu na templát pouštěn jen jeden typ dNTP • např. když se přidá T a vznikne záblesk, tak na dané pozici je opravdu T osa y: výška píku záblesku odráží počet inkorporovaných nukleotidů daného typu delší homopolymerní sekvence → hlavní zdroj chyb 454 sekvenace (454 je více chybující než klasická sekvenace)

  6. 454 pyrosequencing jednotlivé beads zapadnou do jamek pikotitrační destičky ... ... zařízení snímá signál zvlášť pro každou dílčí jamku: v 1 jamce jen 1 bead → sekvenační signál z původně 1 fragmentu DNA (klonálně namnoženého do mnoha kopií pomocí emPCR) ... a jsou podrobeny cyklickému procesu pyrosekvenace

  7. 454 pyrosequencing výstup: sekvence o délce < 1000 bp, nejčastěji max. 400-700 bp (podle typu použité sequencing chemistry); počet získaných sekvencí - podle kapacity daného typu přístroje: přesnost: 99% (nižší než u Sangerova sekvenování!) ◄ Roche GS FLX (17 mil. Kč): ~ 1 000 000 sekvencí / run (~ 100 tis. Kč) ◄ Roche GS Junior: ~ 50-100 000 sekvencí / run (~35 tis. Kč)

  8. Illumina (Solexa) Illumina Genome Analyzer II Workflow 1. příprava templátu 2. klonální ´bridge amplification´ 3. detekce fluorescenčního signálu

  9. Illumina (Solexa) výstup: biliony sekvencí o délce 50-150 bp paired end sekvenace – oboustranné čtení, tj. až 150 bp z každého konce molekuly DNA templátu (2 x 150 bp) přesnost: 99.9% • možnost analýzy více vzorků najednou - 8 lanes: • 7 na vzorky (každá až s 12 multiplex. vzorky) • 1 na kontrolní Illumina vzorek nosič pro bridge amplification

  10. SOLid (Life Technologies - Applied Biosystems) Sequencing by Oligonucleotide Ligation and Detection • navázání adaptorů, emulzní PCR, beads navázány na glass slide • po navázání primeru probíhá sekvenace ligací: • fluor. značené dinukleotidové sondy → pokud sonda sedí, je přiligována • po detekci ze sondy odštěpena fluor. část, opakování předchozího kroku • produkt odstraněn denaturací • další cyklus s primerem o (n-1) kratším → nová sekvenace vlákna výstup:biliony readů 50 bp přesnost: díky opakované sekvenaci vysoká spolehlivost čtení! – 99.99%

  11. Ion Torrent (Life Technologies) princip Ion Torrent:navázání dNTP při prodlužování řetězce DNA vede k odštěpení H+ → detekována změna pH emulzní PCR podobně jako při 454 postupně pouštěny jednotlivé typy dNTP velmi rychlé 100 tis. až miliony < 200 bp readů nejlevnější run (< 10 tis. Kč) i přístroj homopolymerní sekvence (TT): jako u 454 – např. 2x vyšší pík

  12. Next Generation Sequencing Jak analyzovat víc vzorků najednou? • předpokladem je odlišit jednotlivé sekvence = určit, kterému ze vzorků patří • fyzická separace jednotlivých vzorků: pomocí gasket (těsnění) u 454, nebo separace do lines u Illuminy 454 gaskets Illumina lanes • pooled samples: dílčí vzorek identifikován připojením několik bp dlouhé ´značkovací´ sekvence (barcode; index; tag; MID = Multiplex Identifier): může být součástí adaptorů ligovaných na DNA fragmenty, nebo součástí PCR primerů použitých na amplifikaci daného vz. • vede ke snížení počtu sekvencí na 1 vzorek, ale zároveň šetří peníze

  13. TGS: 3rd generation sequencing 1st generation sequencing: Sanger 1977 2nd generation sequencing: Roche 454, Illumina, SOLiD 3rd generation sequencing: single molecule, no PCR Helicos tSMS (True Single Molecule Sequencing)podobné Ilulmina, ale dražší (vyžaduje větší množství reagencií; 55 bp ready DNA polymerase incorporates fluorescently labeled nucleotide → light emission poly-A tail Pacific Bioscience Single Molecule Real Time Technology (SMRT sequencing): ready až 2500 bp, ale jen 85% přesnost! Zero Mode Waveguides – small(!) pores surrounded by metal film and silicon dioxide A laser placed below ZMW excites only the fluorophores of the incorporated nucleotides DNA polymerase cleaves the fluorescent label → light emission

  14. Srovnání NGS platforem (Liu et al., 2012: Comparison of Next-Generation Sequencing Systems. – J Biomed Biotechnol.)

  15. Aplikace NGS Sekvenování genomů (shotgun sequencing) - teorie • Genomika- analýza metabolických drah, studium genové regulace,... také ale i přímé aplikace pro fylogenetiku a populační studie: analýza SNP, SSR, design primerů pro fylogeneticky informativní úseky... reference mapping – složení cílového genomu namapováním readů na známý genom příbuzného organismu (Bowtie, BWA, Geneious) de novo assembly - složení cílového genomu bez apriorních znalostí, komputačně daleko náročnější (Velvet, Newbler, Geneious) výstupem obou typů assembly jsou úseky genomických sekvencí - contigy; informace o vzájemném pořadí contigů – scaffoldy repetitivní sekvence (u rostlin ca 14-75% genomu) → problémy s assembly • Volba sekv. platformy - zejména podle velikosti zkoumaného genomu: eukaryota – Illumina (mnoho krátkých readů) + 454 (delší ready, pro assembly) malé (prokaryotní, cp nebo mt) genomy - stačí samotné 454, nebo i malý objem dat z Illuminy

  16. Aplikace NGS Sekvenování genomů (shotgun sequencing) - teorie • Coverage - kolikrát byla průměrně daná báze genomu osekvenovaná (odhadne se z velikosti genomu a objemu získaných NGS dat); Sequencing depth – kolikrát byla báze cílového genomu reálně osekvenovaná (ovlivněné přítomností kontaminant, příp. vyrovnaností vzorků v multiplexu) • Quality Check (QC) – NGS data mají vyšší chybovost než Sangerovo sekvenování, z technických důvodů není možné editovat raw signál datový výstup vždy obsahuje sekvence bází + kvalitu jejich čtení např. Q > 20 – daná báze byla přečtena s 99% přesností quality trimming podle minimální trůměrné Q value daného readu dílčí báze s Q < threshold vyhodnocené jako N (nebo brána za trimming point) Transkriptomika – vstupním materiálem RNA (převedená do cDNA); míra exprese genů; funkční a fyziologické studie; na úrovni společenstva např. typ převládající enzymatické aktivity

  17. Aplikace NGS Sekvenování genomů • i relativně nízká sequencing coverage (0.02x na celý genom) dostačuje na získání kompletního plastidového genomu a rDNA cistronu... • ... a stačí i pro získání sekvencí z low-copy jaderných genů, které dostačují na design primerů a prób Straub et al. 2010. Navigating the tip of the genomic iceberg: Next-generation sequencing for plant systematics. American Journal of Botany. 99: 349–364. • Illumina, Asclepias (Apocynaceae), testovali vliv hloubky sequencing coverage, single-end vs. paired-end design, zabývali se i vnitrogenomovou rDNA variabilitou, vlivem typu assembly apod.

  18. Aplikace NGS Sekvenování genomů Doorduin et al. 2011. The Complete Chloroplast Genome of 17 Individuals of Pest Species Jacobaea vulgaris: SNPs, Microsatellites and Barcoding Markers for Population and Phylogenetic Studies. DNA Res. 18: 93–105. • Illumina, chloroplastový genom 12 původních (Evr.) a 5 invaznich jedinců (S Amer.) • 5 nových cp úseků vhodných pro fylogenetiku Asteraceae • 34 SSR a 32 SNP lokusů

  19. Aplikace NGS Sekvenování genomů Ancient DNA http://mammoth.psu.edu/howToSeqMammoth.html ▲ Rowe et al. 2011. Museum genomics: low-cost and high-accuracy genetic data from historical specimens. Molecular Ecology Resources 11, 1082–1092. genom 50 let starých historických preparátů Rattus norvegicus, Illumina, porovnání – namapování na známé genomy

  20. Aplikace NGS Amplicon sequencing • sekvenace PCR produktu fylogenetika a fylogeografie: • parallel tagged sequencing – větší množství lokusů z většího množství je sekvenováno v 1 NGS runu (šetří čas a peníze) • detekce vzácných variant u multicopy úseků (rDNA) a komplexních genových rodin – bez nutnosti klonování analýzy společenstev: • environmentální studie druhové skladby (molecular barcoding) • vyplatí se u komplexnějších společenstev – bez nutnosti klonování Griffin et al. 2012. A next-generation sequencing method for overcoming the multiple gene copy problem in polyploid phylogenetics, applied to Poa grasses. BMC Biology, 9: 19.

  21. Aplikace NGS Amplicon sequencing– analýza společenstev Izolace celkové DNA vzorku ↓ PCR amplifikace úseku, který slouží jako marker (= umožňuje rozlišit taxony společenstva, primery specificky amplifikují pouze zkoumanou tax. skupinu; prokaryota – 16S, eukaryota – LSU, SSU nrDNA) ↓ Analýza směsi molekul PCR produktu ↓ 454 (příp. Illumina) sekvenování • obrovské množství sekvencí na 1 vzorek (stovky až desítky tisíc sekv.) → překonává všechny ostatní metody, není nutné klonování × nutné zvolit vhodně variabilní úsek (délková limitace!), počet analyzovaných vzorků je poněkud limitovaný (nutno nadesignovat separaci vzorků – fyzickou, nebo rozlišení pomocí MIDů, a coverage = požadovaný počet readů / vz.)

  22. Aplikace NGS Amplicon sequencing– analýza společenstev Software na analýzu dat: Mothur – třídění vzorků podle indexů, úprava hrubých dat i vlastní analýzy SEED – český software s implementací nejdůležitějších programů (Mothur, Mafft, Uclust aj.) Databáze sekvencí: identifikace MOTU (molecular operational taxonomic unit = ´molekulární druh´), typové sekvence Ribosomal Database Project http://rdp.cme.msu.edu/ MaarjAM – arbuskulární mykorhizy http://maarjam.botany.ut.ee/ projekt BarFrost -NGS vzorků z permafrostu (rostliny, houby, bezobratlí, až 10 tis. let BP) Hiiesalu et al. 2011. Plant species richness belowground: higher richness and new patterns revealed by next-generation sequencing. Molecular Ecology 21: 2004-2016. - Identifikace rostlinných druhů sekvenací cpDNA (trnL intron)

  23. Aplikace NGS Sequence Capture (Target Enrichment, Targeted Resequencing) obohacení genomové DNA o cílové sekvence před NGS sekvenováním ´vytažení´ cílových sekvencí např. pomocí biotinylovaných sond a streptavidinových magnetických kuliček Sondy můžou být ±univerzální, i pro nemodelové organismy – design do konzervativnějších, kódujících částí; vytáhnou ale i přilehlé variabilní introny

  24. Aplikace NGS Sequence Capture (Target Enrichment, Targeted Resequencing) detekce vzácných variant nebo paralogů u multicopy úseků (rDNA) a komplexních genových rodin – bez nutnosti klonování bez klasické PCR - odpadají problémy s artefakty (zejm. chiméry) zatím čeká na přímou aplikaci… Grover et al. 2012. Targeted sequence enrichment for evolutionary research. American Journal of Botany, 99:312-319.

  25. Aplikace NGS Hledání mikrosatelitních lokusů optimálním řešením je 454, protože ostatní metody dávají příliš krátké ready nedostatečné pro design primerů screening celého genomu, nebo možné kombinovat s vytvořením SSR-enriched library, která se následně sekvenuje z našich zkušeností: při použití SSR-enriched library stačí jeden run na GS Junior (454) na ca 12 různých organismů... Lepais O, Bacles CFE 2011. Comparison of random and SSR-enriched shotgun pyrosequencing for microsatellite discovery and single multiplex PCR optimization in Acacia harpophylla F. Muell. Ex Benth. Mol. Ecol. Res. 11, 711–724. 454 pyrosekv., porovnávají frekvenci SSR získaných: sekvenaci genomu vs. obohacené knihovny = 0.5% vs. 2.2% celkového počtu sekvencí Gardner et al. 2011. Rise of the machines – recommendations for ecologists when using next generation sequencing for microsatellite development. Mol. Ecol. Res. 11, 1093–1101. na 40 funkčních SSR lokusů je u rostlin potřeba asi 25 tis. sekvencí; pro bezobratlé asi 2x tolik sekvencí

  26. SNP [snip] (single nucleotide polymorphism) • Nejde o označení metody, obecně znamená přítomnost bodové mutace (substituce) v daném místě genomu • Kodominantní, až 4 alely (ACGT), nejčastěji ale bialelické • Pomalejší mutační rychlost než např. SSR, ale míň zatížené homoplaziemi, lze na ně dobře aplikovat mutační modely • Počet SNP lokusů velmi vysoký (~ desítky tisíc) a skutečně v celém genomu • Téměr ideální marker, až půjde rychle a levně sledovat velké množství SNP lokusů najednou

  27. SNP Využití: • Fylogeneze blízce příbuzných taxonů, populační studie, recentní historie populací... (klasický kodominantní marker) • Genetic mapping, association mapping of quantitative traits loci (QTL): • korelace (association) konkrétního genotypu s určitou alelou daného SNP lokusu → vazba SNP lokusu s lokusem podmiňujícím fenotyp (linkage disequlibrium) → markery pro genetic mapping • nebo přímo hledání SNP podmiňujících daný fenotyp: Yang et al. 2012. Application of next-generation sequencing for rapid marker development in molecular plant breeding: a case study on anthracnose disease resistance in Lupinus angustifolius L. BMC Genomics 13: 318.

  28. SNP Metody analýzy: • SNP array chip: hybridizace zkoumané DNA s lokusově specifickými oligonukleotidovými sondamiimobilizovanými na povrchu chipu (sondy jsou značené→ hybridizaci zaznamenává detekční zařízení) • PCR amplifikace (specifické primery pro daný SNP lokus!) + detekce alel – např.: • sekvenování • speciální elektroforéza (SSCP) • SNaPshot assay – primer přesně před SNP, přidání 1 značeného ddNTP, fragmentační analýza, multiplexování SNP pomocí různé délky primerů [a jiné finty na podobném principu] • rozdíly v Tm alel (High Resolu-tion Melting curve analysis) • Pomocí NGS a TGS – umožníjednak objevit SNP lokusy (SNP discovery), tak i vlastní analýzu (SNP genotyping)

  29. SNP • Zatím hlavně u modelových / užitkových organismů a jejich nejbližších příbuzných • vyhledávání v databázích EST, celých genomů,… • Aplikace na divoké organismy zatím více v zoologii, v botanice v začátcích • … ale za pár let ???

  30. SNP SNP chipy - zoologický příklad – populační genetika Tokarska et al. 2009, Heredity 103: 326-332 • genetická variabilita současné populace zubra a srovnání s (mnohem větší) populací amerického bizona • BovineSNP50 BeadChip, cca 54 tis. SNP lokusů pro krávy • úspěšná amplifikace cca 52 tis. SNP lokusů • z nich u zubra ~900 polymorfních (→ kodominantní data!) [polymorfní populace]

  31. SNP SNP chipy – botanický příklad - fylogeneze Wang et al. 2013, New Phytol. 198: 925-937 • geografický původ D genomu pšenice (AABBDD) • 10K Illumina Infinium SNP array, celkem 7185 SNPlokusů pro genom Ae. tauschii, se známou fyzickoupozicí v genomu • 402 jedinců z celého areálu Ae. tauschii + 121 jedinců pšenice • STRUCTURE + NJ stromy + FST analog (program DnaSP) • krásně popisují, jak se Structure nedá spočítatve standardním množství opakování a museli to redukovat „…the analysis would require many months of computer time (AMD Opteron Processor 6212 × 16 CPUs, 32 Gb RAM, 7 Tb disk space)“

  32. SNP Wang et al. 2013, New Phytol. 198: 925-937 • v rámci Ae. tauschii 2 skupiny s několika podskupinami (západní - Transkavkaz + Turecko; východní - J břeh Kaspiku + střední Asie) • genom D pšenice je jednoznačně nejblíže linii z J břehu Kaspiku • ale stopový podíl (0.8% SNP) i ze západní skupiny, v průběhu evoluce pšenice docházelo k introgresi jasná odlišnost Z a V skupiny pšenice sedá blízko V skupiny, ale ne dovnitř (introgrese ze Z)

  33. SNP využití NGS pro SNP analýzu: • pro detekci i simultánní analýzu SNP • i pro nemodelové organismy, není třeba žádná apriorní znalost genomu (ale hodí se data o přibližné velikosti genomu) RAD sequencing (Restriction-site Associated DNA sequencing): • komplexita genomu snížena restrikčním stěpením (tvorba tzv. Reduced Representation Library, RRL) • size selection - z fragmentů selektována frakce o určité velikosti = další redukce komplexity + získání velikostní frakce vhodné pro NGS platformu; řezáním z gelu nebo automatické separátory • sekvenace fragmentů pomocí NGS (Illumina) a analyzovány na výskyt a detekci SNP alel • distanční fylogenetické stromy, PCA, Structure

  34. SNP fylogenetika na RAD sekvencích: Eaton & Ree 2013, Syst. Biol. 62: 689-706 • fylogeneze 1 sekce rodu Pedicularis, klasickým sekvenováním nevyřešená + popis použitých statistických metod; ~ 42 tis. lokusů (desítky-malé stovky bp), ~ 62 tis. informativních pozic využití diagnostických (druhově specifických) SNP De Castro et al. 2013, Ann. Bot. 112: 589-602 • fylogeneze amerických druhů Platanus, cpDNA sekvence + diagnostické SNP v ITS2 a Lfy-i2 (2. intron v single copy genu Leafy) Buggs et al. 2012, Amer. J. Bot. 99: 372-382 • allopolyploidní Tragopogon, ~ 4 tis. SNP odlišujících rodičovské druhy, jejich exprese v polyploidovi (podíl genomů rodičů, vypínání kopií,…) EST library screening Zhou et al. 2011, Amer. J. Bot. 98: 100-102 • na základě EST sekvencí (NCBI), detekovali 15 polymorfních (bialelických) SNP lokusů u Actinidia chinensis (kiwi)

  35. SNP ddRAD seq modifikace: • restrikční štěpení 2 RE, automatická size selection fragmentů na chipech elektroforetických separátorů (LabChipXT, PippinPrep) • výběr RE a šířka size selection ´okna´ umožňuje normalizovat a kontrolovat počet získaných fragmentů → z odhadované velikosti genomu můžeme designovat tak, aby byla zajištěna minimální nutná coverage a výtěžek SNP lokusů • multiplexování vzorků: rozlišení pomocí 12x48 oligonukleotidových indexů Peterson et al. 2012. Double Digest RADseq: An Inexpensive Method for De Novo SNP Discovery and Genotyping in Model and Non-Model Species. PLoS One, 7(5): e37135. doi:10.1371/journal.pone.0037135.

  36. SNP nevýhody NGS - SNP: • nulové alely vznikající mutací v restrikčních místech: nelze odlišit homozygoty od heterozygotů s nulovou alelou • informace z jednotlivých SNPs, pro analýzu celého datasetu lze zatím použít jen distanční stromy (menší informační hodnota než klasické fylog. stromy s koalescenčními a mutačními modely) → časem se zlepší, až budou k dispozici delší NGS ready → nebo analyzovat jen subset SNPs pomocí lepších statist. metod • stále relativně finančně a technicky náročné → nutná počáteční investice do enzymů a indexovaných oligonukleotidů Kumar et al. 2012. SNP discovery through next-generation sequencing and its applications. International Journal of Plant Genomics.

More Related