240 likes | 378 Views
機器學習. 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory. Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier Results Reference Q & A. Motivation. 越來越多的基因體資料被發現而被定序 有如此大量的資訊卻不知道該 基因體的作用 或者是在 組織的表現 為何 能透過機器學習的方式,在初步找出基因體與組織的關連性.
E N D
機器學習 指導教授:歐昱言教授 961456 闕裕峰 961536 黃茱纓
Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier Results Reference Q & A
Motivation • 越來越多的基因體資料被發現而被定序 • 有如此大量的資訊卻不知道該基因體的作用或者是在組織的表現為何 • 能透過機器學習的方式,在初步找出基因體與組織的關連性
What is Promoter? • 啟動子 (promoter) 是一個基因轉訊開端的訊息提供者
Target • Promoter在模型內會有高度的跨組織的表現性,很容易指出這些promoter擁有的共同的結構模式 • 藉由探討Promoter,透過機器學習的方式,在初步找出老鼠基因體與組織的關連性
Flow Chart Tissue-Specific 屬性結合 Promoter處理 分類器
Tissue-Specific • STEP 1 • 先由多個Sample ID計算出,61個組織後,再算出每個基因的Z-Score,當Z-Score高過 於3時,才算tissue specific,也就是分類後有表現,我們把它設成為TRUE,小於三的則設為FALSE。 • STEP 2 • 要有50個以上的tissue specific才是我們要當作分類的組織。
Tissue-Specific (圖一 Sample id)
Tissue-Specific (圖二 Subset形式)
Tissue-Specific (圖三 Z-Score)
Properties Combination • 將tissue specific的條件化作為一個表格後,開始做屬性的結合 • 我們在論文中所抓的檔案是可以得到Affy probe ID,屬性則是要從Entrez ID來做連結才能找到基因序列,這時就需要到生物的資料庫來找尋,我們使用的是DAVID以BioGPS來做我們的搜尋依據。
Properties Combination Entrez ID Affy probe ID Gene ID Converton Mouse Promoter ATCG DNA (圖四 屬性結合步驟)
Properties Combination (圖五 DAVID ID Conversion tool) (圖六 BioGPS ID Conversion tool)
Promoter Process • STEP 1 • promoter長1201個DNA • 以一條promoter來說,計算在promoter中,A的數量有幾個除以總長度1201設為第一個屬性,T的數量有幾個除以總長度1201設為第二個屬性,以此類推。 • 一個單位(ex A)的有四個屬性,兩個單位(ex AA)的有十六個屬性,三個單位(ex AAA)的有六十四個屬性,共有八十四個屬性。
Promoter Process (圖七屬性表)
Promoter Process • STEP 2 • 最後加上0,1即為先前Z-Score所判斷是否為tissue specific的TRUE、FALSE值,將之存成.CSV檔,之後要放入分類器做分析
Promoter Process (圖八 共84個屬性的.csv檔)
Classifier • 使用的流程: • 啟動WEKA → Open file(選擇我們圖八處理完的.csv檔) →Classify點擊 • Choose選擇RandomForest → Start
Classifier (圖九 裡面參數的用途)
Classifier (圖十 WEKA分類結果)
Results • F (FALSE) T (TRUE) <-- classified as 136 21 | N (Negative) 95 7 | P (Positive) • Accuracy:0.55212 • Precision:0.06862 • Recall:0.04895
Reference • Su,A.I., Wiltshire,T., Batalov,S., Lapp,H., Ching,K.A., Block,D.,Zhang,J., Soden,R., Hayakawa,M., Kreiman,G. et al. (2004) • A gene atlas of the mouse and human protein-encoding transcriptomes. Proc. Natl Acad. Sci. USA, 101, 6062–6067. • http://ims.tw/archives/553 • http://mypaper.pchome.com.tw/ciliate/post/205172 • http://david.abcc.ncifcrf.gov/conversion.jsp • http://biogps.gnf.org/#goto=welcome • Modeling tissue-specific structural patterns in human and mouse promoters(Alexis Vandenbon1 and Kenta Nakai1,2,3,*) • http://www.scfbio-iitd.res.in/tutorial/promoter.html
Thanks for your Attention