1 / 74

微生物基因组学

微生物基因组学. 微生物基因组学. 微生物基因组研究概况 微生物基因组的特点 微生物基因组研究的意义. 一 微生物基因组研究概况. 1986年: 美国 DOE 启动 MGP 1994 年: DOE 项目转向 环境或能源相关 系统发生学相关 潜在商业应用性 的微生物 1995年: 《 Science 》 发表第一株细菌-流感嗜血杆菌全基因组.

waddington
Download Presentation

微生物基因组学

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 微生物基因组学

  2. 微生物基因组学 • 微生物基因组研究概况 • 微生物基因组的特点 • 微生物基因组研究的意义

  3. 一 微生物基因组研究概况 • 1986年: 美国DOE启动MGP • 1994年: DOE项目转向 环境或能源相关 系统发生学相关 潜在商业应用性 的微生物 • 1995年:《Science》发表第一株细菌-流感嗜血杆菌全基因组

  4. 1995-2002年原核生物全基因组测序情况

  5. 已完成测序的病原原核生物(40株) • 金黄色葡萄球菌(Staphylococcus aureus,SaurN) 3 • 肺炎链球菌(Streptococcus pneumoniae,Spneu) 2 • 化脓性链球菌(Streptococcus pyogenes,Spyo) 2 • 脑膜炎奈瑟菌 (Neisseria meningitidis,Nmen) 2 • 沙门氏菌(S. typhi; S. typhimurium ) 2 • 空肠弯曲菌(Campylobacter jejuni,Cjej) 1 • 大肠杆菌(E. coli O157:H7,Ecoli_O157) 2 • 幽门螺杆菌(Helicobacter pylori,Hpyl ) 2 • 霍乱弧菌(Vibrio cholerae,Vcho) 1

  6. 已完成测序的病原原核生物 • 鼠疫耶氏菌(Yersinia pestis) 3 • 布鲁氏菌(Brucella melitensis 16M) 1 • 梭菌(Fusobacterium nucleatum 1 • 流感嗜血杆菌(Haemophilus influenzae,Hinf) 1 • 麻风分枝杆菌(M. leprae,Mlep) 1 • 结核分枝干菌(M. tuberculosis,Mtub) 2 • 巴斯德氏菌(Pasteurella multocida,Pmul) 1 • 李斯德杆菌(Listeria monocytogenes) 1 • 绿脓假单孢菌(P. aeruginosa,Paer) 1

  7. 已完成测序的病原原核生物 • 沙眼衣原体(Chlamydia trachomatis,Ctra) 2 • 肺炎衣原体(Chlamydia pneumoniae,Cpneu) 3 • 生殖道枝原体(M. genitalium,Mgen) 1 • 肺炎枝原体(M. pneumoniae,Mpneu) 1 • 支气管枝原体(M. pulmonis,Mpul 1 • 溶脲脲原体(Ureaplasma urealyticum,Uure) 1 • 立克次体(Rickettsia prowazekii,Rpxx) 2 • 梅毒螺旋体(Treponema pallidum,Tpal) 1 • 伯氏疏螺旋体(Borrelia burgdorferi,Bbur) 1

  8. 二 微生物基因组的特点

  9. 原核生物基因组的大小 • 原核生物基因组的编码序列(CDS/ORF) • 原核生物染色体结构 • GC 含量 • 重复序列 • DNA链组成的非对称性 • 最小基因组

  10. 1. 原核生物基因组的大小--基因组较小的原核生物 • Prokaryocyte Genome(kb) ORF • Mycoplasma genitalium G-37B0 580 468 • Buchnera sp 640 583 • Buchnera aphidicola SG 641 545 • Glossina brevipalpis 679 621 • Ureaplasma urealyticum serovar 3B0 751 613 • Mycoplasma pneumoniae M129B0 816 677 • Mycoplasma pulmonis 963 782 • Borrelia burgdorferi B31B1 910 853 • Treponema pallidumNichols B1 1,138 1,041 • Chlamydia trachomatis serovar D 1,042 894 • Chlamydia trachomatis MoPnB1 1,069 924 • Chlamydia pneumoniae J138 1,228 1,070 • Chlamydia pneumoniae AR39B1 1,229 1,052 • Chlamydia pneumoniae CWL029B1 1,230 1,052 • Rickettsia conorii Malish 7 1,268 1,374 • Rickettsia prowazekii Madrid EB1 1,111 834

  11. 1. 原核生物基因组的大小--基因组较大的原核生物 • Prokaryocyte Genome(kb) ORF • Xanthomonas campestris 5,076 4,182 • Xanthomonas axonopodis 5,273 4,386 • Methanosarcina acetivorans C2A 5,751 4,540 • Ralstonia solanacearum GMI1000 5,810 5,120 • Escherichia coli O157:H7. Sakai 5,996 5,448 • Pseudomonas aeruginosa PAO1B6 6,264 5,570 • Nostoc sp. PCC 7120 6,413 5,366 • Sinorhizobium meliloti 6,690 6,205 • Mesorhizobium loti MAFF303099 7,036 6,752 • Streptomyces coelicolor A3(2) 8,667 7,825

  12. 1. 原核生物基因组的大小--真核生物基因组的大小 • Chr. Genome(kb) ORF • Guillardia theta 3 551 464 • Encephalitozoon cuniculi 1 2,500 1,997 • Saccharomyces cerevisiae S288C 16 12,069 6,294 • Schizosaccharomyces pombe 3 14,000 4,824 • Caenorhabditis elegans 6 97,000 19,099 • Arabidopsis thaliana 5 115,428 25,498 • Drosophila melanogaster 6 137,000 14,100 • Oryza sativa L. ssp. Indica 12 420,000 50,000 • Oryza sativa ssp. Japonica 12 420,000 50,000 • Homo sapiens 24 3,000,000 30,000 • Dictyostelium discoideum Chr. 2 6 8,000 2,799 • Leishmania major Friedlin Chr. 1 36 257 79 • Plasmodium falciparum 3D7 Chr. 3 14 1,060 220 • Plasmodium falciparum 3D7 Chr. 2 14 947 205

  13. 2. 原核生物基因组的编码序列(Coding sequence) ORF • 占原核生物基因组总序列的90% • 基因的平均大小为1kb

  14. 2. 原核生物基因组的编码序列--不同生物编码序列的比较 Organism Genome (kb) ORFs ORF size Coding Sequence(%) Buchnera sp 640 583 988 90 Aquifex aeolicus 1,551 1,512 956 93 Saccharomyces cerevisiae 12,069 6,294 1,092 57 Schizosaccharomyces pombe 14,000 4,820 2,033 70 Caenorhabditis elegans 97,000 19,099 1,311 27 Arabidopsis thaliana 115,428 25,498 460 29 Homo sapiens 3,000,000 3,100 1,340 <2

  15. 基因组编码序列的注释 • 确定编码序列 序列同源性比较 ,如BLAST 概率型方法,基于隐马尔可夫模型的GENSCAN • 基因的功能注释 已知功能的蛋白质基因的序列 已知功能蛋白质的motif/domain 有同源序列的未知基因 无同源序列的疑是基因

  16. 2. 原核生物基因组的编码序列--ORF的注释 Organism Date Genome (kb) ORFs known hypo. unique Hypo. Mycoplasma Genitalium 95-10580 470 318(68%) 56(12%) 96(20%) Brucella suis 02-10 2,160 2,175 1,333 (61%) 623 (29%) 219 (10%) Clostridium perfringens 02-01 3,031 2,660 1,492(56%) 502(19%) 666(25%) Methanosarcina Acetivorans 02-07 5,751 4,524 2,226 (49%) 908 (20%) 1,390 (31%)

  17. 2. 原核生物基因组的编码序列--Distribution of E. coli proteins among 22 functional groups Functional class Number Percentage • Regulatory function 45 1.05 • Putative regulatory proteins 133 3.10 • Cell structure 182 4.24 • Putative membrane proteins 13 0.30 • Putative structural proteins 42 0.98 • Phage, transposons, plasmids 87 2.03 • Transport and binding proteins 281 6.55 • Putative transport proteins 146 3.40 • Energy metabolism 243 5.67 • DNA replication, recombination, modification, and repair 115 2.68 • Transcription, RNA synthesis,metabolism, and modification 55 1.28 • Translation, posttranslational protein modification 182 4.24

  18. 2. 原核生物基因组的编码序列-- Distribution of E. coli proteins among 22 functional groups (continued) Functional class Number Percentage • Cell processes (including adaptation, protection) 188 4.38 • Biosynthesis of cofactors, prosthetic groups, and carriers 103 2.40 • Putative chaperones 9 0.21 • Nucleotide biosynthesis and metabolism 58 1.35 • Amino acid biosynthesis and metabolism 131 3.06 • Fatty acid and phospholipid metabolism 48 1.12 • Carbon compound catabolism 130 3.03 • Central intermediary metabolism 188 4.38 • Putative enzymes 251 5.85 • Other known genes (gene product or phenotype known) 26 0.61 • Hypothetical, unclassified, unknown 1632 38.06 • Total 4288 100.00

  19. 2. 原核生物基因组的编码序列--原核生物(高温菌)基因组的内含子 Sulfolobus solfataricus P2: 18个tRNA基因含有单个内含子 一个胱氨酸tRNA基因含有2个内含子 A.pernix tRNA基因中 发现 14个内含子 Staphylothermus marinus和运动脱硫球菌 23S rRNA基因中也发现内含子

  20. 3. 原核生物染色体结构 大多数原核生物:一条环状闭合双链DNA Brucella suis 1330:两条环状闭合双链DNA 2,107,792 bp (Chr I) 1,207,381bp (Chr II) Vibrio cholerae: 两条环状闭合双链DNA 2,961,146 bp (Chr I) 1,072,314 bp(Chr II) Borrelia burgdorferi B31: 910,725 bp ( linear Chromosome) 21 linear and circular plasmids Treponema pallidum:一条环状闭合双链DNA 1,138,006 bp

  21. 4. GC 含量 • 原核生物基因组GC含量为:25.5-67.9 % • 嗜温菌基因组GC含量与 rRNA、tRNA的GC含量成正比 • 嗜热菌rRNA、tRNA的GC含量与 基因组GC含量不成正比,但与OGT成正比 • tRNA GC含量 总是大于rRNA的GC含量

  22. 4. GC 含量-嗜温菌基因组G + C 含量(%) • Organism Genome rRNA tRNA Uure 25.5 45.4 52.9 Buch 26.3 48.1 53.3 Mpul 26.6 46.2 54.8 Bbur 28.6 46.7 54.5 Rpxx 29.0 48.2 55.2 Cjej 30.5 48.1 56.4 Cace 30.9 50.5 55.1 Mgen 31.7 45.6 52.5 SaurN 32.8 50.5 57.6

  23. GC 含量--嗜温菌基因组G + C content (%)(续) Organism Genome rRNA tRNA Xfas 52.7 53.1 59.8 Tpal 52.8 53.1 57.2 Mlep 57.8 55.7 61.6 Atum 59.4 54.6 58.4 Smel 62.7 54.5 61.5 Mlot 62.7 56.3 60.5 Mtub 65.6 58.0 62.0 Paer 66.6 53.1 60.1 Drad 67.0 56.5 58.8 Ccre 67.2 55.0 61.2 Hbsp 67.9 58.1 62.4 • linear regression 0.88 0.80

  24. 4. GC 含量--嗜热菌最适生长温度(OGT)与G+C含量的关系 Organism OGT(℃) Genome rRNA tRNA Pabyssi 103 0.45 0.67 0.70 Pyro 98 0.42 0.63 0.71 Aero 95 0.56 0.68 0.73 Mjan 85 0.31 0.61 0.66 Aquae 85 0.43 0.65 0.68 Aful 83 0.49 0.63 0.68 Ssol 80 0.36 0.62 0.67 Tmar 80 0.46 0.63 0.65 Tten 75 0.38 0.59 0.60 Mthe 65 0.50 0.57 0.62 Tvol 60 0.40 0.53 0.61 Tacid 59 0.46 0.53 0.61 linear regression 0.01 0.92 0.90

  25. 基因组非编码序列的注释 非编码区的注释 各类重复序列 基因表达的调控序列 信号序列等

  26. 5. 重复序列 • 非编码重复序列 • 编码重复序列 • paralogous genes family

  27. 5. 重复序列-Repeats in T. maritima genome Class Length Copies Database match • SR-01 30 143 tttccatacctctaaggaattattgaaaca • LR-01 1,897 2 hypothetical protein • LR-02 1,403 2 a-glucosidase • LR-03 1,137 4 putative transposase • LR-04 1,082 2 methyl-accepting chemotaxis protein • LR-05 858 2 putative transposase • LR-06 555 2 helicase • LR-07 252 2 excinuclease • LR-08 241 2 putative transposase

  28. 5. 重复序列-腾冲嗜热厌氧菌基因组的部分重复序列 Short, non-coding repeats Repeat ID Length(bp) Number of Copies Identity(%) • TSR001 30 305 (67/238) 100 TSR001a (GTTTTTAGCCTACCTAAAAGGGATTGAAAC ) TSR001b (GTTTTTAGCCTACCTAAGAGGGATTGAAAC) • TSR027 ~250 18 >87

  29. 5. 重复序列-腾冲嗜热厌氧菌基因组的部分重复序列(续) Long, coding repeats Copies Repeat IDlength Complete PartialIdentity (%)Database match • TLR028b 3,565 4 5 >99 Transposase + hypothetical • TLR393c 3,045 2 1 >98 ABC transporters + hypothetical • TLR315 2,603 2 >94 ABC transporters + Permease • TLR408 2,490 2 >98 Ferredoxin oxidoreductases, • TLR076 2,021 2 >91 Hypothetical protein • TLR271 2,020 2 >92 ABC transporters • TLR264 1,986 5 1 >98 Transposase • TLR294 1,851 2 >98 ABC transporters + Permease • TLR004 1,819 14 >98 Transposase • TLR005 1,800 7 >98 Transposase • TLR158 1,774 1 2 >89 TPR-repeat-containing proteins • TLR048 1,711 2 >99 Transposase • TLR223 1,629 2 >97 Transposase • TLR008 1,596 21 >92 Hypothetical protein • TLR014 1,592 14 3 >87 Hypothetical protein ……

  30. 重复序列-Number of repeats by type in N. meningitidis Z2491 Type Size (bp) Frequency • DNA uptake sequence: gccgtctgaa 10 1,892 • RS 24-161 681 • dRS3: attcccnnnnnnnngggaat 20 772 • Correia (full) 150-159 173 • Correia (internal deletion) 104 84 • Correia (partial) 37-145 29 • ATR 183 19 • REP 2 59-154 26 • REP 3 60 13 • REP 4 26 20 • REP 5 20 9 • IS1016 256-740 14 (including partial) • IS1106 263-1219 22 (including partial) • IS1655 1,074-1,257 7 (including partial) • Prophage 2,330-38,964 5 `Correia elements' (CEs, 156-bp sequences bounded by 26-bp inverted repeats)

  31. 重复序列-Largest families of paralogous genes Family Number of genes (total 312) (total 853) • ATP-binding subunits of ABC transporters 23 • Reductases/dehydrogenases 12 • Two-component system, regulatory proteins 12 • Hypothetical proteins 10 • Transcriptional regulators 9 • Fimbrial proteins 9 • Two-component system, sensor proteins 9

  32. 6. DNA链组成的非对称性-GC分布不对称 (GC skew) AT分布不对称(AT skew) 前导链含有较多的G(A) 而后随链含有较多的C(T) • 计算公式为(nG-nC)/(nG+nC) (nA-nT)/(nA+nT) • 累计skew (cumulative skew) • 用于复制起点和终点的定位

  33. 6. DNA链组成的非对称性(真细菌)-基因方向性偏好 基因方向性偏好 (gene orientation bias) 先导链上编码的基因总是多于后随链

  34. 6. DNA链组成的非对称性(真细菌)-GC skew, AT skew , gene orientation bias Organism (34株) Gene biasc(%) GC skewd AT skewe Tten 86.7 0.192 0.075 Llact 80.7 0.099 0.034 Mgen80.4 0.045 0.045 Spneu 80.2 0.102 0.016 Spyo 79.4 0.094 0.022 Cace 79.0 0.212 0.078 Bhal 77.4 0.100 0.034 Mpneu77.3 0.014 0.022 SaurN 74.7 0.122 0.051 Bsub 74.2 0.079 0.045 Uure68.1 0.059 0.029 Bbur 66.2 0.182 - 0.086 ………. Ccre 54.3 0.016 - 0.014

  35. GC skewd of T. tengcongensis genome

  36. Circular representation of the genome of T. tengcongensis MB4

  37. 6. DNA链组成的非对称性-密码子使用偏好(codon usage bias) 先导链和后随链密码子的不同 • 在先导链,以G或T开头或结尾的密码子显著地多于后随链,常见的有GTG、GCG和GAG • 在后随链以C或A开头或结尾的密码子多于先导链,如CTC、GCC、CCC、ATC和ACC

  38. 6. DNA链组成的非对称性-原核生物基因组先导链和后随链密码组成的差异 Org. BasesCodon bases AA Codons - + - + - + - + Smel C G C3A3 G3G1T3 T P V E GCC CCC ACC CTC GGT GGG GTT GAG Ecoli C G C3 G3 G1 T H I V G GCC CCC ACC CTC GCG GTG CGT GGG Hinf C GT C3 G3 T3 T N P V ACC GCC CTC AAC GAG GTG CGT GCT Tacid C G C3C1 G3 H L DT V Q ACC CCC GCC CTC GGT CCG GTG CAG Nmen C G C3A3 G3 T I HP V M CTC GCC GGC CTA TTG GAG GCG GGT Ctra C G C3C1 G3G2G1 T P IL V G R CTC CGC CTA CAA GGG GAG AAG GTG Cpneu C G C3C1 G3G2G1 T I PN V R CTA ATC CAA AAC TTG GTT GTG GAT Ccre C GT A3C3 G3 T P H V G E CCC GCC CGC ACA GGG GCT GGT CGT 每一株原核生物的密码子、氨基酸及组成密码子的核苷酸等的使用情况。每组最后一位的频率大于或等于本组最大值的一半。“+”表示先导链,“-”表示后随链。

  39. 6. DNA链组成的非对称性-基因密度和密码子使用的差别 高度表达基因: 核蛋白体蛋白基因,与翻译和转录有关的因子基因,分子伴侣基因和与主要的能量代谢相关的基因 • 大多编码于前导链 • 通常都有密码子偏好(核蛋白体蛋白基因密码子的第三位多为G ) • 快速生长的细菌(大肠杆菌、霍乱弧菌、枯草芽孢杆菌和流感嗜血杆菌)主要的糖酵解和三羧酸循环基因为高度表达基因 • 产甲烷菌,与甲烷代谢有关的基因为高度表达基因 • 高度表达基因: 那些在密码子使用上与一般基因相差很大,与核蛋白体蛋白基因,翻译和转录相关基因,伴侣-降解蛋白基因等在密码子使用上高度相似的基因为高度表达基因。

  40. 6. DNA链组成的非对称性-信号序列等寡核苷酸序列的分布不同 • 大肠杆菌的chi序列:富含G的8核苷酸序列 (GCTGGTGG) • 共1000多拷贝,其中75 % 位于前导链

  41. 7. 最小基因组:细胞必需的最少基因数 最小基因组:一个独立生存的细胞生命至少需要多少个基因 Mycoplasma genitalium: 580,070 bp; 468(480) ORFs;37个RNA基因 基因组构成:具有复制、转录和表达必需基因 具有DNA复制所必需的许多蛋白质 具有转录有关的酶 具有表达有关基因: 一个rRNA operon(16s-23s-5s), 33个tRNA基因,全部氨基酰tRNA合成酶基因

  42. 7. 最小基因组: Mycoplasma genitalium 基因组构成 DNA修复基因很少 氨基酸和辅助因子生物合成相关基因极少 能量代谢途径中有许多重要基因不存在: 如厌氧代谢途径、电子传递链、ED途径、发酵、 糖异生和三羧酸循环相关的基因全无 脂肪酸和磷脂代谢基因很少 调控基因极少

  43. 7. 最小基因组:Mycoplasma genitalium 支原体的系统发生 : 链球菌(6亿年前,2,000 kb) --支原体分支(4.5亿年前,1700-2,000 kb) --支原体2个亚系(1,200-1,700 kb) --多个支原体亚系(600-1,100 kb)

  44. 7. 最小基因组:Mycoplasma genitalium 支原体与流感嗜血杆菌的种间同源基因比较分析 240个种间同源基因 + 22个非种间同源基因 - 6个功能重复或专营寄生的基因 = 256个基因 • 除7个DNA复制必需的基因外,绝大多数基因都在真核生物和古细菌中找到同源基因

  45. 7.最小基因组:Mycoplasma genitalium 两种支原体(M.genitalium,M.pneumoniae)基因组的 插入突变分析 2209个突变 1354个位点 319个基因(其中243个基因失去功能) 129个 M.genitalium(480 Genes) 基因失去功能 • M.genitalium细胞必需的最少基因数为:265-350个

  46. 7. 最小基因组:枯草芽孢杆菌 酵母 • 枯草杆菌:300-560 个基因 (Itaya 用转座子随机插入,敲除枯草杆菌基因) • 酵母(6294 genes): -1000个基因 (Winzeler 的PCR介导基因中止策略,用含同源序列的特异序列标签的PCR产物,导入菌体中同源重组删除目的基因)

  47. 微生物基因组研究的意义基因组研究在医学的应用基因组研究的生物技术应用 微生物的进化

  48. A 基因组研究在医学的应用 • 致病相关基因的鉴定 • 设计特异的实验诊断方法 • 疫苗的研究 • 新型抗生素的开发

  49. 1. 致病相关基因的鉴定-通过基因组比较鉴定病原相关基因 流感杆菌: 7种内毒素(脂多糖)基因--25种新基因 细胞表面定居的粘附分子--重复序列

  50. 1. 致病相关基因的鉴定-致病相关基因的预测 • 致病物质多为病原体细胞壁成分、 表面蛋白和一些分泌性蛋白质 PHD预测基因组的跨膜蛋白 SIGNALP预测分泌性蛋白质

More Related