1 / 29

膜運輸蛋白的鑑別與預測

膜運輸蛋白的鑑別與預測. 指導 教授 : 歐昱 言 學生 : 張晃銘 王仁亨 賈惟勛. 目錄. 前言 介紹與流程 膜蛋白 運輸蛋白 結晶法 軟體 介紹 相關 屬性 步驟總結 數據平均值 總結. 為什麼我們做這個 ?. 在我們替蛋白質定序時,經常發現新的蛋白質序列,這些序列既多且複雜,傳統方法上我們使用化學實驗去驗證它們的特性。 可是蛋白質序列變化千百種,有沒有更快的方式呢 ?. 前言.

chloe
Download Presentation

膜運輸蛋白的鑑別與預測

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 膜運輸蛋白的鑑別與預測 指導教授: 歐昱言 學生: 張晃銘 王仁亨 賈惟勛

  2. 目錄 • 前言 • 介紹與流程 • 膜蛋白 • 運輸蛋白 • 結晶法 • 軟體介紹 • 相關屬性 • 步驟總結 • 數據平均值 • 總結

  3. 為什麼我們做這個? • 在我們替蛋白質定序時,經常發現新的蛋白質序列,這些序列既多且複雜,傳統方法上我們使用化學實驗去驗證它們的特性。 • 可是蛋白質序列變化千百種,有沒有更快的方式呢?

  4. 前言 • 膜蛋白上的運輸蛋白在細胞傳輸物質中占有重要的地位,生物實驗中,經常會用到結晶法,但現行技術成功率低(1%),若能先取得相關蛋白質,並且輔以程式預測,透過這種方式,可以降低實驗成本,大幅提高效率。

  5. membrane protein • 連接相關胞器或細胞的蛋白質分子者稱之為膜蛋白。其主要功能是協助交換內外分子或保護細胞、建立細胞間溝通的管道。具有特殊的功能。

  6. Membrane transport protein • 凡膜蛋白協助離子/小分子/分子等移動者稱之。

  7. 目的 • 利用已知蛋白質之屬性,將未知蛋白質做分類。 • 利用機器自動判斷,可提前驗證實驗方向及正確性。 • 問題:正確率呢? • 我們利用幾個分類器和不同屬性,來看看它們的正確率。

  8. 分類也是大學問 • 類別 • 屬性 • 類別: • 老虎 • 大象 • 屬性: • 型態大小 • 組織差異(鼻子、象牙)

  9. 5-FOLD • 我們必須要知道,面對不同資料時,是不是仍然有判斷出正確所需資料的能力。 • 於是我們必須從已知的資料中先學習判斷特徵(定義屬性)。 • 如果已知的資料都是具有同一特殊特徵,會不會影響判斷? • 所以我們將資料分成數堆,先蓋住其中一堆,判斷其他堆的屬性,再來判斷蓋住的資料,重複步驟直到所有分類都被蓋過且判斷為止。

  10. Data fold3 fold4 fold2 fold1 fold5 Test data Test data Training data Test data Test data classifier Test data

  11. 架構圖 • 運輸蛋白 產生屬性 • 非運輸蛋白 5-fold • 非運輸蛋白 • (4606條) • 運輸蛋白 • (2367條) 非運輸蛋白 運輸蛋白 Test_1 train1 Test_1 train1 train3 Train2 Train2 train3 train4 train5 train4 train5 AAC、DPC、PSSM Test_1 AAC、DPC、PSSM Train1 AAC、DPC、PSSM Train2 AAC、DPC、PSSM Train3 AAC、DPC、PSSM Train4 AAC、DPC、PSSM Train5 製作5-fold所需資料 • 從Uniprot下載所需資料 Select_train_test.cpp • Get_sequence.cpp Blastclust 砍相似度(40%) Independent test WEKA、LIBSVM、QUICKRBF Blastpgp 產生PSSM檔 結果數據資料

  12. 步驟 • 資料取得 • 資料分析與處理 • 分類器 • 結果

  13. 步驟概述 • 將網站下載的膜蛋白之蛋白質序列分類成”運輸蛋白”與”不是運輸蛋白”兩類,再將兩類資料經由程式分別平均放入名為test_1(independent test用(1161條))、train1~5(5-fold用(各1163條))的資料夾中。 (MEMBRANE:6973條 TRANSPORT:2367條 NON-TRANSPORT:4606條) • 產生AAC、DPC、PSSM屬性。 • 利用這些屬性作為分類器分類的依據。 • 分析和比較結果的正確率。

  14. 相關屬性 • AAC(Amino acid composition) 每個蛋白質可用20種胺基酸組合而成,這20種可作為第一種屬性,可以統計它們在特別蛋白質中分別出現的次數。 • DPC(Dipepdite composition) 20種胺基酸又可兩兩組合成400種不同的因子,此400種作為第二種屬性,可以統計它們在特別蛋白質中分別出現的次數。 • PSSM(Position specific scoring matrix) 利用BLAST程式產生

  15. BLAST • 兩個不同的蛋白質,且蛋白質序列差異極小,具有類似功能,可以歸類為同一類型蛋白質,此例子會影響到我們的數據判斷(因為要分析不同類型的蛋白質),這種狀況稱為相似度。而利用的BLASTCLUST內建相關數據庫,可幫我們移除相似度的問題。 然後我們再用BLASTPGP來產生PSSM檔案進入下一個分析的步驟。

  16. PSSM • PSSM(Position-Specific Scoring Matrix) 利用PSSM.cpp來產生400個屬性,產生方法為將protein.pssm內的pssm值算出每一個acid可以被其他acid(包含自己)所取代的數值 • 從PSSM上的資料,找出每種acid可以被其他acid所取代的比例

  17. pssm

  18. 軟體介紹 • Weka • QuickRBF • LIBSVM

  19. weka • Waikato Environment for Knowledge Analysis • 可用於機器學習、數據分析的data mining軟體

  20. weka演算法 • 我們使用以下三種演算法: • RandomForests: • 對於很多種資料,它可以產生高準確度的分類器。 它可以處理大量的輸入變數。 它可以在決定類別時,評估變數的重要性。 • IBK: • 採用向量空間模型來分類,概念為相同類別的案例,彼此的相似度高,而可以藉由計算與已知類別案例之相似度,來評估未知類別案例可能的分類。 • J48: • 機器學習中,決策樹是一個預測模型 • 能夠同時處理數據型和常規型屬性,不必先統一資料來源(一般化)。 • 在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。

  21. LIBSVM • LIBSVM是SVM的一種,而SVM是兩種不同類別進行分類的分類器。 • 原始data:

  22. SVM 可以發現原先三種顏色的點被分區了,這邊所有的點就是我們的training data,而model記錄的就是點的分區狀況。

  23. 架構

  24. 分析結果-同一屬性不同分類器之比較 • AAC • DPC • PSSM

  25. 分析結果-同一分類器不同屬性之比較 • WEKA • QuickRBF • LIBSVM

  26. 總結 這次實驗的結果,PSSM搭配QuickRBF的預測正確率較為精準,比其他方法高出2-3%。 雖然結果只有小幅提升,但是在降低相關實驗成本和提升效率兩大要求上已是相當重要,如果能進一步發展,機器學習將可在生物實驗中佔有舉足輕重的地位。

  27. reference WEKA • http://www.cs.waikato.ac.nz/ml/weka/ LIBSVM • http://www.csie.ntu.edu.tw/~cjlin/libsvm/ • www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/libsvm.pdf QuickRBF • http://csie.org/~yien/quickrbf/quickstart.php • http://zh.wikipedia.org/wiki/Wiki

  28. Q & A

  29. Thank you!

More Related