1 / 90

蛋白质和蛋白质组分析

蛋白质和蛋白质组分析. 孙明明 sunmingming@biosino.com.cn. 主要内容. 数据库与检索工具 UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. 蛋白质数据分析 基本物理化学性质分析 序列相似性比较 翻译后修饰分析 功能域分析 亚细胞定位分析. Go功能 分类与富集分析 Pathway 分析 相互作用与网络分析. Pfam. DATABASE. TRANSFAC. IPI. Gene ontology. ……………………………. GENEGO. BLAST.

Download Presentation

蛋白质和蛋白质组分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 蛋白质和蛋白质组分析 孙明明 sunmingming@biosino.com.cn

  2. 主要内容 • 数据库与检索工具 • UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 • 基本物理化学性质分析 • 序列相似性比较 • 翻译后修饰分析 • 功能域分析 • 亚细胞定位分析 • Go功能分类与富集分析 • Pathway分析 • 相互作用与网络分析

  3. Pfam DATABASE TRANSFAC IPI Gene ontology ……………………………. GENEGO BLAST cytoscape HMMER TOOLS Interproscan EMBOSS Pajek BLAST2GO ……………………………. Output

  4. 常见数据 GI:120407068 NP_000537.3 XP_001604088.1 AAF36358.1 P53_HUMAN P04637 Q9EX73 IPI00025087.2 IPI - International Protein Index ENSP00000269305

  5. 主要蛋白质序列检索工具 UNIPROT Ensembl NCBI Entrez KEGG DBGET IPI

  6. 主要内容 • 数据库与检索工具 • UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 • 基本物理化学性质分析 • 序列相似性比较 • 翻译后修饰分析 • 功能域分析 • 亚细胞定位分析 • Go功能分类与富集分析 • Pathway分析 • 相互作用与网络分析

  7. 蛋白质基本物化性质分析 • EMBOSS • Pepstats • Pepinfo • Pepwindow • …… • 分子量 • 等电点 • 残基数 • 氨基酸组成 • …… • ExPASy(Expert Protein Analysis System) • ProtParam • Compute pI/MW • ProtScale • …… http://www.expasy.ch/ http://emboss.sourceforge.net/

  8. EMBOSS - pepstats 在线工具:http://www.ebi.ac.uk/Tools/emboss/pepinfo/ 本地下载:http://emboss.sourceforge.net/download/#Stable

  9. ExPASy - ProtParam http://us.expasy.org/tools/protparam.html 计算多种理化指标

  10. 主要内容 • Go功能分类与富集分析 • Pathway分析 • 相互作用与网络分析 • 数据库与检索工具 • UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 • 基本物理化学性质分析 • 序列相似性比较 • 翻译后修饰分析 • 功能域分析 • 亚细胞定位分析

  11. 序列相似性比较 • 两序列比较 • 主要工具:BLAST • 常用数据库:NCBI NR,SWISSPROT • 命令示例: • formatdb -i nr.fasta –o T –p T • blastall –i input.seq –d nr –p blastp –e 1e-3 –b 10 –o blast.out-b 5 –v 5 –a 2 • 多序列比对 • Clustalw/clustalx (http://www.clustal.org/)等

  12. 主要内容 • Go功能分类与富集分析 • Pathway分析 • 相互作用与网络分析 • 数据库与检索工具 • UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 • 基本物理化学性质分析 • 序列相似性比较 • 翻译后修饰分析 • 功能域分析 • 亚细胞定位分析

  13. 翻译后修饰分析 • 翻译后修饰是调节蛋白质功能的重要方式,对蛋白质翻译后修饰的研究可以帮助阐明和了解蛋白质功能及其功能变化,翻译后修饰的预测和分析也日渐成为生物信息学蛋白质序列分析中的重要的研究内容。 • 磷酸化、糖基化、甲基化、泛素化和羟基化等等

  14. 翻译后修饰数据库

  15. 翻译后修饰预测软件

  16. 主要内容 • Go功能分类与富集分析 • Pathway分析 • 相互作用与网络分析 • 数据库与检索工具 • UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 • 基本物理化学性质分析 • 序列相似性比较 • 翻译后修饰分析 • 功能域分析 • 亚细胞定位分析

  17. 蛋白质功能域分析 一、蛋白质功能域数据资源

  18. 二、蛋白质功能域搜索工具 • HMMER • INTERPROSCAN • rpi-blast

  19. HMMER • HMMER • HMMER 是用 “隐马尔可夫模型”(HMM)进行数据库搜索的一个应用程序包。 • http://hmmer.janelia.org/#download 免费下载 HMMER 应用程序包。 • Hmmpfam • 库文件:ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz • 命令行:hmmpfam Pfam-A.hmm sequence_file > output_file

  20. InterproScan http://www.ebi.ac.uk/Tools/InterProScan/ 本地下载安装:ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan

  21. rpi-blast • 应用方法: rpsblast -i input_seqs.txt -d cdd -p T –o out_result • CDD库下载: ftp.ncbi.nih.gov/pub/mmdb/cdd/ • 详细信息:http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/rpsblast.html

  22. 主要内容 • Go功能分类与富集分析 • Pathway分析 • 相互作用与网络分析 • 数据库与检索工具 • UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 • 基本物理化学性质分析 • 序列相似性比较 • 翻译后修饰分析 • 功能域分析 • 亚细胞定位分析

  23. 亚细胞定位分析 • 大部分蛋白质都是先分布到不同亚细胞位置再行使功能的 • 蛋白质的功能与其亚细胞定位有很强的关联

  24. 亚细胞定位数据资源

  25. 亚细胞定位预测工具

  26. PSORT http://www.psort.org/ 在线工具: http://psort.hgc.jp/

  27. 主要内容 • 数据库与检索工具 • UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al. • 蛋白质数据分析 • 基本物理化学性质分析 • 序列相似性比较 • 特征序列分析 • 翻译后修饰分析 • 功能域分析 • 亚细胞定位分析 • Go功能分类与富集分析 • Pathway分析 • 相互作用与网络分析

  28. GO(Gene Ontology)分类 • Gene Ontology介绍 • GO ontologies的描述 • GO annotation的介绍 • GOslim分类统计 • BLAST2GO • 富集与缺少分析

  29. 什么是GO? • 随着多种生物genome的相继解码,使得annotation的工作量和复杂度大大增加。大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质的生物学信息,可以用以解释其他物种中对应的基因或蛋白。 • Gene Ontology(简称GO)由上述的想法而诞生,用来将所有的蛋白质功能进行分类

  30. Gene OntologyTM (GO) Consortium http://www.geneontology.org/

  31. The structure • Hierarchical • Directed Acyclic Graph • terms have one or more parents • is-a and part-of relations

  32. Three Ontologies • Molecular Function • e.g. DNA binding, catalysis of a reaction • Biological Process • e.g. metabolism • Cellular Component • e.g. nucleus, ribosome

  33. OBO - Open BiologicalOntologies http://www.geneontology.org/ontology/gene_ontology.obo http://www.geneontology.org/ontology/gene_ontology.obo

  34. GO term各字段的说明 id: GO:0006094 name: gluconeogenesis namespace: process def: The formation of glucose from noncarbohydrate precursors, such as pyruvate, amino acids and glycerol. exact_synonym: glucose biosynthesis is_a: GO:0006006 is_a: GO:0006092 unique GO ID term name ontology definition synonym parentage

  35. Ontology Structure • Terms 可能有一个以上的父Term,或者一个以上的子Term • Terms的连接关系 • is-a  • part-of 

  36. Ontology Structure cell membrane is-a part-of Mitochondrial membrane nucleus nucleus part_of some cell

  37. GO Annotation • 电子注释(Electronic annotation) • 量大但质量低并且没有经过校验 • 人工注释(Manual annotation) • 来自文献 • 花费时间长但质量高

  38. GO Annotation ISS Inferred from Sequence/Structural Similarity IDA Inferred from Direct Assay IPI Inferred from Physical Interaction TAS Traceable Author Statement NAS Non-traceable Author Statement IMP Inferred from Mutant Phenotype IGI Inferred from Genetic Interaction IEP Inferred from Expression Pattern IC Inferred by Curator IEA Inferred from electronic annotation

  39. Accessing annotations to the Gene Ontology • 1. Downloads • Annotations – gene association file(ftp://ftp.geneontology.org/pub/go/gene-associations/ ) • 2. Web-based access • AmiGO • (http://www.godatabase.org)

  40. Gene Association File DB DB_Object_IDDB_Object_SymbolQualifierGOidDB:Reference EvidenceWith Aspect UniProt P06703 S106_HUMAN GO:0008083 GOA:spkw IEA F UniProt P06703 S106_HUMAN NOT GO:0007409 PMID:12152788 NAS P UniProt P06703 S106_HUMAN GO:0005515 PMID:12577318 IPI UniProt:P50995 F DB_Object_Name DB_Object_SynonymDB_Object_Type taxon Date Assigned by Calcyclin IPI00027463 protein taxon:9606 20040426 UniProt Calcyclin IPI00027463 protein taxon:9606 20030721 UniProt Calcyclin IPI00027463 protein taxon:9606 20030721 UniProt

  41. GO 分类统计 • 什么是GO Slim? • GO Slim是GO ontologies的缩减版 • 如何做分类统计 • Map2slim.pl (Go-perl) • gene_ontology.obo • Slim文件,如goslim_generic.obo • GO Annotation Files

  42. Map2slim.pl • 前提条件是安装Perl-activeperl(windows) • Go-perl包可从CPAN免费获取 http://www.cpan.org/

  43. gene_ontology.obo http://www.geneontology.org/GO.downloads.ontology.shtml

  44. Slim文件下载 http://www.geneontology.org/GO.slims.shtml

  45. GO Annotation Files

  46. 运行方法 • 根据已有的Accession列表去GO Annotation Files文件中寻找对应的GOID. • Map2slim –t –c goslim_generic.obo gene_ontology.obo gene_associations_file > go_slim.out • http://search.cpan.org/~cmungall/go-perl/scripts/map2slim

More Related