120 likes | 384 Views
專題報告. 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言. 專題目的. 開發一個程式環境幫助 生物學家可以利用簡單的序列資料得到此蛋白質的基本功能標註. 專題架構. AAC(Amino Acid Composition) DPC( Dipepdite Composition) PSSM(Position Specific Scoring Matrix). 資料取得. 序列剖析. Query (Transport):
E N D
專題報告 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授:歐昱言
專題目的 開發一個程式環境幫助生物學家可以利用簡單的序列資料得到此蛋白質的基本功能標註
專題架構 AAC(Amino Acid Composition) DPC(Dipepdite Composition) PSSM(Position Specific Scoring Matrix) 資料取得 序列剖析 Query (Transport): existence:"evidence at protein level" AND annotation:(type:location membrane confidence:experimental) AND reviewed:yes AND (keyword:transport or go:transport) 屬性選取 各個分類器結果分析
機器學習簡介 香蕉 顏色:黃色 重量:300克 形狀:長條狀 類別 1:香蕉 類別 2:蘋果 類別 3:西瓜 蘋果 顏色:紅色 重量:150克 形狀:圓形 屬性 1:顏色 屬性 2:重量 屬性 3:形狀 西瓜 顏色:綠色 重量:900克 形狀:圓形
機器學習簡介 ? 顏色:? 重量:? 形狀:長條 ? 顏色:紅色 重量:? 形狀:圓形 ? 顏色:? 重量:840克 形狀:圓形
Query: existence:"evidence at protein level" AND annotation:(type:location membrane confidence:experimental) AND reviewed:yes AND (keyword:transport or go:transport) <尋找Transport的Qiery>
二.序列剖析 • 1.AAC: 計算20種胺基酸在每條protein上各自出現的比例當成屬性 • 2.DPC: 計算20種胺基酸兩兩配對在protein上各自出現的比例當成屬性 • 3. PSSM: 統計20種胺基酸能被其他胺基酸所取代的可能性做為一種屬性
三.屬性選取 • 加入AAIndex內的屬性,利用Fscore公式算出來值較高的屬性增加到AAC、DPC或PSSM EX: 屬性 Fscore值 AAIndex10.52 AAIndex20.01 AAIndex30.45 AAIndex40.03 將aaindex1加入選取的屬性中
四.各分類器分析 執行後所產生的檔案 產生每條Protein的sequence file 序列分析AAC與DPC 利用產生出來的屬性AAC與DPC來跑weka 原有檔案
四.各分類器分析 以下結果由其他組利用我們所開發得工具做成果