590 likes | 739 Views
生物数据库资源及其应用. 中山大学生科院 2004 年 3 月. 主要内容:. 基因组数据库的相关背景。 主要的基因组数据库资源。 GenBank 序列数据库。 -- GenBank 序列格式。 相关资源的应用介绍。 --序列查询( Entrez and SRS ) --序列提交( BankIt and Sequin ). 基因组数据库的发展历史.
E N D
生物数据库资源及其应用 中山大学生科院 2004年3月
主要内容: • 基因组数据库的相关背景。 • 主要的基因组数据库资源。 • GenBank序列数据库。 -- GenBank序列格式。 • 相关资源的应用介绍。 --序列查询(Entrez and SRS) --序列提交(BankIt andSequin)
基因组数据库的发展历史 • 从历史上来看,蛋白质数据库是先于核苷酸数据库出现的。早在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoff et al., 1965)。这一蛋白质数据库后来成为PIR(George et al., 1997)。这个在1965年可以很容易地存放在一张软盘上的数据集(尽管那时并不存在软盘这种存储介质),是一小群人多年的工作成果。今天,任何一个DNA或蛋白质数据库每天增加的数据量都数倍于此。
基因组数据库的发展历史(续) • DNA序列数据库最早于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。(如下图) • 此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。 • 日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。
基因组数据库的发展历史(续) • 1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并且每个数据库只负责更新提交到这一数据库的那些数据。 • 现在三个中心都收集直接提交的数据,并在三者之间发布。
基因组数据库的发展历史(续) • 如今,伴随核酸测序技术的发展,存储于数据库种的核酸序列的数目增长迅速。差不多10个月就翻一番。到去年年底2003.12,仅仅genbank的核酸序列数目就超过3000万,存储了大概365亿个碱基的信息量。
主要的数据库资源 • 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。 • 核酸序列数据库主要有GenBank, EMBL, DDBJ等. • 蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等, • 蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等, • 三维结构数据库有PDB, NDB, BioMagResBank, CCSD等, • 蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等, • 与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等, • 文献数据库有Medline, Uncover等。
三大基因数据库 • GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。NCBI的网址是:http://www.ncbi.nlm.nih.gov。 • EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。数据库网址是:http://www.ebi.ac.uk/embl/。 • DDBJ数据库日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。DDBJ的网址是:http://www.ddbj.nig.ac.jp/。
三大基因数据库之间的关系 Public free Available via Internet GenBank EMBL Data Library DDBJ (DNA Data Bank of Japan)
GenBank数据库 GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。
GenBank有什么? This GenBank flat file release consists of 570 files. 数据库分类 • Uncompressed, the Release 139.0 flatfiles require roughly 122 GB (sequence files only) or 138 GB (including the 'short directory', 'index' and the *.txt files). PHG - Phage VRL - Viral BCT - Bacterial PLN - Plant INV - Invertebrate VRT - Other vertebrate MAM - Other mammalian ROD - Rodent PRI - Primate EST - expressed sequence tag GSS - genome survey sequence HTC - high throughput cDNA sequencing HTG - high throughput genomic sequencing STS - sequence tagged site SYN - Synthetic and chimeric PAT - Patent UNA - Unannotated Average Seq. File size ca. 226M The total number of sequence data files increased by 8 with this release: - the EST division is now comprised of 288 files (+9) - the PAT division is now comprised of 11 files (+1) - the PLN division is now comprised of 10 files (+1) - the PRI division is now comprised of 27 files (+1) - the ROD division is now comprised of 11 files (+1) - the HTG division is now comprised of 61 files (-1) - the GSS division is now comprised of 98 files (-4)
序列文件格式 • 文本格式 • 简单文本格式 • Line, Plain Text • Staden • FASTA • Bionet (allows comments) • 加入注释的文本格式 • GenBank • GCG • 二进制格式 (通常都带有注释) • MacVector
序列文件格式例子( Fasta ) >gi|995614|dbj|D49653|RATOBESE Rat mRNA for obese. CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC 以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。 一种最简单的fasta序列形式可以表示为: >D49653 CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG….
序列文件格式例子( GenBank ) • LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995 • DEFINITION Rat mRNA for obese. • ACCESSION D49653 • KEYWORDS . • SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiated • adipose cDNA to mRNA. • ORGANISM Rattus norvegicus • Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; • Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; • Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. • REFERENCE 1 (bases 1 to 539) • AUTHORS Murakami,T. and Shima,K. • TITLE Cloning of rat obese cDNA and its expression in obese rats • JOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995) • STANDARD full automatic • COMMENT Submitted (10-Mar-1995) to DDBJ by: • Takashi Murakami • Department of Laboratory Medicine • School of Medicine • University of Tokushima • Kuramotocho 3-chome • Tokushima 770 • Japan • Phone: +81-886-33-7184 • Fax: +81-886-31-9495.
序列文件格式例子(GenBank)[continued] • NCBI gi: 995614 • FEATURES Location/Qualifiers • source 1..539 • /organism="Rattus norvegicus" • /strain="OLETF, LETO and Zucker" • /dev_stage="differentiated" • /sequenced_mol="cDNA to mRNA" • /tissue_type="adipose" • CDS 30..533 • /partial • /note="NCBI gi: 995615" • /codon_start=1 • /product="obese" • /translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND • ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLE • NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ • LDLSPEC" • BASE COUNT 121 a 167 c 133 g 118 t • ORIGIN • 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt • 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca • 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg • 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga • 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt • 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc • 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc • 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc • 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc • //
序列文件格式例子(GCG) • LOCUS RATOBESE.G 539 BP SS-RNA ENTERED 09/23/95 • DEFINITION Rat mRNA for obese. • ACCESSION - • KEYWORDS - • SOURCE Rattus norvegicus; Norway rat • ORGANISM Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; • Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi; • Myomorpha; Muridae; Murinae; Rattus • REFERENCE [1] • AUTHORS Murakami, T. & Shima, K. • TITLE Cloning of rat obese cDNA and its expression in obese rats. • JOURNAL Biochem. Biophys. Res. Commun., 209, 3, 944-952, (1995) • COMMENT Database Reference: • DDBJ RATOBESE • Accession: D49653 • ------------ • Submitted (10-Mar-1995) to DDBJ by: • Takashi Murakami • Department of Laboratory Medicine • School of Medicine • University of Tokushima • Kuramotocho 3-chome • Tokushima 770 • Japan • Phone: +81-886-33-7184 • Fax: +81-886-31-9495
序列文件格式例子(GCG)[continued] • FEATURES From To/Span Description • pept 30 533 obese • ???? 1 539 source; /organism=Rattus norvegicus; • /strain=OLETF, LETO and Zucker; • /dev_stage=differentiated; /sequenced_mol=cDNA • to mRNA; /tissue_type=adipose • BASE COUNT 121 A 167 C 133 G 118 T 0 OTHER • ORIGIN ? • RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 .. • 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT • 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA • 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG • 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA • 241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT • 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC • 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC • 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC • 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC • //
序列文件格式例子(ASN.1) ASN.1是NCBI用来存储和维护所有数据的格式 Seq-entry ::= set { level 1 , class nuc-prot , descr { pub { pub { sub { authors { names std { { name name { last "Murakami" , initials "T." } } } , affil str "Takashi Murakami, School of Medicine, University of Tokushima, Department of Laboratory Medicine; Kuramotocho 3-chome, Tokushima, Tokushima 770, Japan (E-mail:mura@clin.med.tokushima-u.ac.jp, Tel:+81-886-33-7184, Fax:+81-886-31-9495)" } , medium email , date std { year 1995 , month 3 , day 10 } } } } , pub { pub { muid 95251725 , article { title { name "Cloning of rat obese cDNA and its expression in obese rats." } , authors { names std { { name name { last "Murakami" , initials "T." } } , { name name { last "Shima" , initials "K." } } } , affil str "Department of Laboratory Medicine, School of Medicine, University of Tokushima, Japan." } , from journal { title { iso-jta "Biochem. Biophys. Res. Commun." , ml-jta "Biochem Biophys Res Commun" , issn "0006-291X" , name "Biochemical and biophysical research communications." } , imp { date std { year 1995 , month 4 , day 26 } , volume "209" , issue "3" , pages "944-952" , language "eng" } } , ids { pubmed 7733988 , medline 95251725 } } , pmid 7733988 } } , update-date std { year 2000 , month 2 , day 1 } , source { org { taxname "Rattus norvegicus" , common "Norway rat" , db { { db "taxon" , tag id 10116 } } , orgname { name binomial { genus "Rattus" , species "norvegicus" } , mod { { subtype strain , subname "OLETF, LETO and Zucker" } } , lineage "Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus" , gcode 1 , mgcode 2 , div "ROD" } } , subtype { { subtype tissue-type , name "adipose" } , { subtype dev-stage , name "differentiated" } } } } , seq-set { seq { id { ddbj { name "RATOBESE" , accession "D49653" , version 1 } , gi 995614 } , descr { title "Rat mRNA for obese(leptin), complete cds." , genbank { source "Rattus norvegicus (strain:OLETF, LETO and Zucker) differentiated adipose cDNA to mRNA." , keywords { "obese(ob)" , "leptin" , "obesity" , "ob product" , "secretory protein" } } , molinfo { biomol mRNA } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol rna , length 539 , seq-data ncbi2na '508208215498A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A38 4500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DC D048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9B 5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4'H } , annot { { data ftable { { data gene { locus "obese(ob)" } , location int { from 0 , to 538 , id gi 995614 } } } } } } , seq { id { ddbj { accession "BAA08529" , version 1 } , gi 995615 } , descr { title "leptin (ob product) [Rattus norvegicus]" , molinfo { biomol peptide } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol aa , length 167 , seq-data ncbieaa "MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTG LDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEA SLYSTEVVALSRLQGSLQDILQQLDLSPEC" } , annot { { data ftable { { data prot { name { "leptin (ob product)" } } , location whole gi 995615 } , { data prot { processed signal-peptide } , comment "secretory protein" , location int { from 0 , to 20 , id gi 995615 } } , { data prot { name { "secreted protein, leptin" } , processed mature } , location int { from 21 , to 166 , id gi 995615 } } } } } } } , annot { { data ftable { { data cdregion { frame one , code { id 1 } } , product whole gi 995615 , location int { from 29 , to 532 , id gi 995614 } } } } } }
认识GenBank文件格式(头部) 头部包含关于整个记录的信息(描述符) LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995 这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS名称在以前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括HUMHBB:人β-珠蛋白基因座,或SV40:猿猴病毒(拷贝之一,因为存在许多拷贝)。为了可用起见,LOCUS名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了,所以今天LOCUS名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的LOCUS名称,所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词,最简单的是用一个保证不会重复的检索号码。 LOCUS行中的日期是数据最后被公开的日期 序列长度,GenBank一般不接受50bp以下的记录 生物分子的类型 ,这里是单链的mRNA GenBank分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目的。这一代码的存在也是由于历史的原因。
认识GenBank文件格式(头部) DEFINITION Rat mRNA for obese. DEFINITION行(也称为“DEF”行)在GenBank记录中用以总结记录的生物意义 。 这里,说明了序列的来源。
认识GenBank文件格式(头部) ACCESSION D49653 检索号,是从数据库中检索一个记录的主要关键词。这个号码将在参考文献中被引用,并始终和序列在一起。就是说,当序列被更新(例如更正一个核苷酸)时,这个号码不会改变。检索号码采取下列两种方式之一:1+5或2+6格式。1+5格式是指1个大写字母后跟5位数字;2+6格式是指2个大写字母后跟6位数字。绝大多数新近加入数据库的记录采取后一种方式。
认识GenBank文件格式(头部) KEYWORDS . KEYWORDS是另一个有趣的历史遗留物,并且不幸地在很多情况下被误用了。给一个记录加上关键词通常并不十分有效,因为在过去的年月中有许多作者选用了不在受控词表中的词,并且在整个数据库中用法也不一致。因此,NCBI不鼓励使用关键词。
认识GenBank文件格式(头部) SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiated adipose cDNA to mRNA. SOURCE行中有生物的通用名或科学名称 。 ORGANISM Rattus norvegicus Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata;Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. ORGANISMS行中包括所有关于分类的信息。
认识GenBank文件格式(头部) • REFERENCE 1 (bases 1 to 539) • AUTHORS Murakami,T. and Shima,K. • TITLE Cloning of rat obese cDNA and its expression in obese rats • JOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995) • STANDARD full automatic • COMMENT Submitted (10-Mar-1995) to DDBJ by: • Takashi Murakami • Department of Laboratory Medicine • School of Medicine • University of Tokushima • Kuramotocho 3-chome • Tokushima 770 • Japan • Phone: +81-886-33-7184 • Fax: +81-886-31-9495. 这部分是参考文献部分,每个GenBank记录至少要有一篇参考文献,许多情况下有两篇或多篇。 后面部分是评论部分这一部分包括关于整个记录的许多不同的注释和评论(也称之为“描述部分”)。有些人在这一部分中加入自己的内容,以及致谢等。有许多GenBank记录没有这一部分,这是可选的
认识GenBank文件格式(特性表) 来源(source)是唯一一个必须在所有GenBank记录中出现的特性 • FEATURES Location/Qualifiers • source 1..539 • /organism="Rattus norvegicus" • /strain="OLETF, LETO and Zucker" • /dev_stage="differentiated" • /sequenced_mol="cDNA to mRNA" • /tissue_type="adipose" • CDS 30..533 • /partial • /note="NCBI gi: 995615" • /codon_start=1 • /product="obese" • /translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND • ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLE • NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ • LDLSPEC" 包含属和种的科学名称 编码序列的gi号 编码序列的翻译产物 存在的或者潜在的编码区
认识GenBank文件格式(序列) 碱基统计信息 • BASE COUNT 121 a 167 c 133 g 118 t • ORIGIN • 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt • 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca • 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg • 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga • 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt • 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc • 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc • 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc • 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc • // 结束符号 序列开始 序列主体
相关工具的使用 一,获取序列(entrez,SRS) http://www.ncbi.nlm.nih.gov/entrez http://srs.pku.edu.cn 二,序列提交 1,www形式(bankit) http://www.ncbi.nlm.nih.gov/BankIt/ 2,客户端软件(sequin)
在线获取序列( entrez) Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
在线获取序列( entrez) 1.进入entrez 3.查询关键词 2.选择数据库 4.开始查询 各类数据库的介绍
在线获取序列( entrez) 每页显示数目 显示格式 符合条件的记录数 点击可以将结果保存到文件 相关记录,点击进入
在线获取序列( entrez) Genbank格式的序列记录
在线获取序列( entrez) Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成,对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果 。 为了获得更贴切的搜索结果,还可以设定搜索的字段和其他范围(如下图)
在线获取序列( entrez) 限定查询的字段范围 限定其他的查询范围
在线获取批量序列( Batchentrez) 此外, Entrez还提供了批量获取GenBank序列的功能(Batch Entrez ) http://www.ncbi.nlm.nih.gov/entrez/batchentrez.cgi (如下图)
在线获取批量序列( Batchentrez) 选择文件 开始获取序列 选择数据库。 文件内容,GI号或者accession numbers 的列表
在线获取批量序列( Batchentrez) 点击可以将结果保存到文件 列表中的记录数 结果序列列表
Entrez的特点 • Entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库 • Entrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“Related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。 • Entrez系统的开发基于特殊的数据模型NCBI ANS.1 (Abstract Syntax Notation),在对于文献摘要中的关键字查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。在查询文献数据库摘要得到结果后,可以通过点击“Related Articles”继续查找相关文献。
在线获取序列( SRS) SRS是Sequence Retrieval System的缩写,由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。随着分子生物信息数据库应用和开发的需求不断增长,SRS已经成为欧洲各国主要生物信息中心必备的数据库查询系统。目前,SRS已经发展成商业软件,由英国剑桥的LION Bioscience公司继续开发,学术单位在签定协议后可以免费获得该软件的使用权,而非学术单位则需要购买该软件的使用权。
展开所有数据库 标准查找 快速查找 选取数据库 扩展查找
SRS的特点 是一个功能强大的数据库查询功能,其主要特点作有以下几个方面。 SRS系统 1. 统一的用户界面 SRS具有为统一的Web用户界面,用户只需安装Netscape等网络浏览器即可通过Internet查询世界各地SRS服务器上的300多个数据库。SRS支持以文本文件形式存放的各种数据库,包括序列数据库EMBL、SwissProt,结构数据库PDB,资料数据库AAIndex、Biocat、dbcat,文献数据库MedLine等。 2. 高效的查询功能 生物信息数据库种类繁多,结构各异。如何快速、高效地对各种数据库进行查询,是数据库查询系统必須解决的问题。SRS系统采用了建立数据库索引文件的手段,较好地解决了这一问题。即使是含几百万个序列的EMBL数据库,只需几分钟即可实现整库查询,得到所需结果。此外,SRS系统具有查询结果相关处理功能,每次查询结果可作为进一步查询的子数据库,并可对其进行并、交等操作,对查询结果进行组合或筛选。
3. 灵活的指针链接 通过超文本指针链接实现信息资源的有机联系,是目前Internet信息服务的主要趋势。许多生物信息数据库均包含与其它相关数据库的代码,如SwissProt数据库中的蛋白质序列包含了该序列在EMBL、PDB、Prosite、Medline等其它数据库的代码。利用超文本链接,可将这些相关数据库联系在一起。SRS采用实时方式,根据查询结果产生链接指针,而不是在原始数据库中增加超文本标记,既节省了存储空间,也便于数据库管理。 4. 方便的程序接口 将序列分析等常用程序整合到基本查询系统中,是SRS的另一个重要特点。用户可以对查询结果直接进行进一步分析处理。例如,查询所得的蛋白质序列,可立即用BLAST和FASTA查询程序进行数据库搜索,找出其同源序列﹔也可以用PrositeSearch程序,寻找功能位点﹔用ClustalW程序进行多序列比较。
5. 开放的管理模式 在管理模式上,SRS采用了开放的方式。无论是数据库还是应用程序,均可进行扩充和更新。用户可在本地机上安装自己的SRS系统,并将自己的数据库添加到SRS系统中,并可与其它数据库实现超文本链接。也可自行编写应用程序,整合到SRS系统中。 6. 统一的开发平台 SRS系统中所有数据库均以文件系统方式存放,通过预先建立索引文件实现数据库查询。因此它不依赖于Oracle、Sybase等商业数据库管理软件,便于推广使用。为建立索引文件,特別是对EMBL这样大型数据库建立索引,系统的內存和CPU资源需要满足一定的要求。
序列提交 Sequence data Authors Sequin Accession number Draft record BankIt 2 days GenBank http://www.ncbi.nlm.nih.gov/Genbank/index.html
在线提交序列(BankIt) • BankIt是NCBI提供的一个在线提交序列的工具。由一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。 • 用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。
在线提交序列(BankIt) • 用户还可以在BankIt页面下修改已经发布序列的信息。 • BankIt适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。
在线提交序列过程。 1.登陆BankIt页面 http://www.ncbi.nlm.nih.gov/BankIt 2.填写表单内容。 3.确认表单内容。 4.等待电子邮件返回信息。
填写表单信息(一) 一些注意事项和介绍 填写表单的内容包括四个方面