1 / 52

第七章 人類基因體蛋白質與基因標記應用

第七章 人類基因體蛋白質與基因標記應用. 基因體標記 (annotation) 廣義:將排序中的所有訊息都註明 對基因調控機制的瞭解做註明 狹義:將排序資料中有蛋白質的區塊及外顯子 (exon) 與插入子 (intro) 註明 真核和與原核生物基因體結構不同 原核染色體為環狀,無插入子 真核染色體為直線狀. 人類蛋白質基因的結構 RNA polymerase I :轉錄 rRNA RNA polymerase III :轉錄 tRNA, snRNA RNA polymerase II :轉錄 mRNA 轉錄出之 RNA 需經剪切修飾,才成為 mRNA

sachi
Download Presentation

第七章 人類基因體蛋白質與基因標記應用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第七章 人類基因體蛋白質與基因標記應用 • 基因體標記(annotation) • 廣義:將排序中的所有訊息都註明 • 對基因調控機制的瞭解做註明 • 狹義:將排序資料中有蛋白質的區塊及外顯子(exon)與插入子(intro)註明 • 真核和與原核生物基因體結構不同 • 原核染色體為環狀,無插入子 • 真核染色體為直線狀

  2. 人類蛋白質基因的結構 • RNA polymerase I:轉錄rRNA • RNA polymerase III:轉錄tRNA, snRNA • RNA polymerase II:轉錄mRNA • 轉錄出之RNA需經剪切修飾,才成為mRNA • 基因標記工作主要透過電腦軟體,大都為自動執行 • 瞭解蛋白質、基因的結構為標記的首要條件

  3. 雙股DNA 5’ 暗碼股 3’ 3’ 模子股-及含有含義或稱有基因股 5’ 轉錄的pre-mRNA 5’ 3’ 序列與暗碼股除T、U不同外,其餘皆相同

  4. 啟動子 promoter 排序區 GC intro intro Poly A tail 5’ 3’ 轉錄終止處 轉錄起始處 • -90 GGGCGG共通排序 • 啟動子promoter 有兩處:-25 ~ -35 TATAAT或TATATT(TATA box),-75 CAAT • 轉錄起始處ATG,甲硫胺酸methionine • GT(內含子intro)AG • 轉錄終止 TAA、TGA、TAG • Poly A tail:AATAAA或ATTAAA

  5. 常用人類蛋白質基因標記軟體 • 從已知的cDNA,與新找出的基因體比對,找出相關基因(PBIL) • cDNA:將細胞的mRNA找出,再透過反轉錄的作用轉錄出互補股的DNA (complementary DNA) • 與基因資料庫直接比對 • NCBI ORF finder、EBI tools-FASTA、GENEIE、GENESCAN • 與基因庫中的EST (Expressed Sequence Tag )表現序列標籤比較 • 找出新基因的啟動子promoter來偵測

  6. 找出新基因exon和intro的切割點splice site • GT (intro) AG…..序列 • 搜尋操作子operator或增強子enhancer片段 • 含多種方法GeneWise- EBI網站 • 同時使用多種軟體,比較分析結果,再合併考慮 • 若多種軟體都預測出一樣區域帶有基因,正確機率高 • 結果分歧,則需參考其它資料

  7. 電腦軟體可能的比對結果 • 與某已知功能cDNA排序95%以上相符,這樣就功能已知 • 與某未知功能的蛋白質相似性25%~95%,功能則需進一步研究 • 相似性25%以上,部分排序與某已知功能之蛋白質有功能部位相同,則可推測其功能 • 若與某些EST相符 • 與基因庫某資料相符,EST無資料,是否為基因?

  8. 偽基因Pseudogene:與資料庫中某基因相似度很高,但序列中可能多了偽基因Pseudogene:與資料庫中某基因相似度很高,但序列中可能多了 • 轉錄終止序列(TAA、TAG、TGA) • 缺了插入前後GT/AG • 啟動子序列不完整 • 可能是無功能、功能不全、不同功能 • 同一基因,因內部不同切割點,形成不同的蛋白質

  9. 人類基因體標記步驟 • 取得人類基因體序列 • NCBI 點選右下角human genome resources

  10. .3代表第3次

  11. 轉換DNA序列格式 • 轉換成FASTA格式 http://bioinformatics.org/sms2/filter_dna.html

  12. 剔除數字和空白

  13. Gene prediction programs (AY292986) • GRAIL (gene recognition and analysis internet link)- GRAIL2, GRAIL-EXP • GeneID: • GENSCAN: MIT • FGENES: softberry.com • GENEWISE: EBI-tools (protein structure)

  14. 拉到下面將DNA序列選取 複製,用DNA-filter轉成 FASTA格式

  15. Gn.Ex : gene number, exon number (for reference) Type : • Init = Initial exon (ATG to 5' splice site) • Intr = Internal exon (3' splice site to 5' splice site) • Term = Terminal exon (3' splice site to stop codon) • Sngl = Single-exon gene (ATG to stop) • Prom = Promoter (TATA box / initation site) • PlyA = poly-A signal (consensus: AATAAA) • S : DNA strand (+ = input strand; - = opposite strand) • Begin : beginning of exon or signal (numbered on input strand) • End : end point of exon or signal (numbered on input strand) • Len : length of exon or signal (bp) • Fr : reading frame (a forward strand codon ending at x has frame x mod 3) Ph : net phase of exon (exon length modulo 3) • I/Ac : initiation signal or 3' splice site score (tenth bit units) • Do/T : 5' splice site or termination signal score (tenth bit units) • CodRg : coding region score (tenth bit units) • P : probability of exon (sum over all parses containing exon) • Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores)

  16. GENEID

  17. 使用BLASTn

  18. 使用BLASTx

  19. 圖解與註記

More Related