膜運輸蛋白的鑑別與預測

膜運輸蛋白的鑑別與預測 指導教授: 歐昱言學生: 張晃銘王仁亨賈惟勛

目錄 • 前言 • 介紹與流程 • 膜蛋白 • 運輸蛋白 • 結晶法 • 軟體介紹 • 相關屬性 • 步驟總結 • 數據平均值 • 總結

為什麼我們做這個? • 在我們替蛋白質定序時，經常發現新的蛋白質序列，這些序列既多且複雜，傳統方法上我們使用化學實驗去驗證它們的特性。 • 可是蛋白質序列變化千百種，有沒有更快的方式呢?

前言 • 膜蛋白上的運輸蛋白在細胞傳輸物質中占有重要的地位，生物實驗中，經常會用到結晶法，但現行技術成功率低(1%)，若能先取得相關蛋白質，並且輔以程式預測，透過這種方式，可以降低實驗成本，大幅提高效率。

membrane protein • 連接相關胞器或細胞的蛋白質分子者稱之為膜蛋白。其主要功能是協助交換內外分子或保護細胞、建立細胞間溝通的管道。具有特殊的功能。

Membrane transport protein • 凡膜蛋白協助離子/小分子/分子等移動者稱之。

目的 • 利用已知蛋白質之屬性，將未知蛋白質做分類。 • 利用機器自動判斷，可提前驗證實驗方向及正確性。 • 問題:正確率呢? • 我們利用幾個分類器和不同屬性，來看看它們的正確率。

分類也是大學問 • 類別 • 屬性 • 類別: • 老虎 • 大象 • 屬性: • 型態大小 • 組織差異(鼻子、象牙)

5-FOLD • 我們必須要知道，面對不同資料時，是不是仍然有判斷出正確所需資料的能力。 • 於是我們必須從已知的資料中先學習判斷特徵(定義屬性)。 • 如果已知的資料都是具有同一特殊特徵，會不會影響判斷? • 所以我們將資料分成數堆，先蓋住其中一堆，判斷其他堆的屬性，再來判斷蓋住的資料，重複步驟直到所有分類都被蓋過且判斷為止。

Data fold3 fold4 fold2 fold1 fold5 Test data Test data Training data Test data Test data classifier Test data

架構圖 • 運輸蛋白產生屬性 • 非運輸蛋白 5-fold • 非運輸蛋白 • (4606條) • 運輸蛋白 • (2367條) 非運輸蛋白運輸蛋白 Test_1 train1 Test_1 train1 train3 Train2 Train2 train3 train4 train5 train4 train5 AAC、DPC、PSSM Test_1 AAC、DPC、PSSM Train1 AAC、DPC、PSSM Train2 AAC、DPC、PSSM Train3 AAC、DPC、PSSM Train4 AAC、DPC、PSSM Train5 製作5-fold所需資料 • 從Uniprot下載所需資料 Select_train_test.cpp • Get_sequence.cpp Blastclust 砍相似度(40%) Independent test WEKA、LIBSVM、QUICKRBF Blastpgp 產生PSSM檔結果數據資料

步驟 • 資料取得 • 資料分析與處理 • 分類器 • 結果

步驟概述 • 將網站下載的膜蛋白之蛋白質序列分類成”運輸蛋白”與”不是運輸蛋白”兩類，再將兩類資料經由程式分別平均放入名為test_1(independent test用(1161條))、train1~5(5-fold用(各1163條))的資料夾中。 (MEMBRANE:6973條 TRANSPORT:2367條 NON-TRANSPORT:4606條) • 產生AAC、DPC、PSSM屬性。 • 利用這些屬性作為分類器分類的依據。 • 分析和比較結果的正確率。

相關屬性 • AAC(Amino acid composition) 每個蛋白質可用20種胺基酸組合而成，這20種可作為第一種屬性，可以統計它們在特別蛋白質中分別出現的次數。 • DPC(Dipepdite composition) 20種胺基酸又可兩兩組合成400種不同的因子，此400種作為第二種屬性，可以統計它們在特別蛋白質中分別出現的次數。 • PSSM(Position specific scoring matrix) 利用BLAST程式產生

BLAST • 兩個不同的蛋白質，且蛋白質序列差異極小，具有類似功能，可以歸類為同一類型蛋白質，此例子會影響到我們的數據判斷(因為要分析不同類型的蛋白質)，這種狀況稱為相似度。而利用的BLASTCLUST內建相關數據庫，可幫我們移除相似度的問題。然後我們再用BLASTPGP來產生PSSM檔案進入下一個分析的步驟。

PSSM • PSSM(Position-Specific Scoring Matrix) 利用PSSM.cpp來產生400個屬性，產生方法為將protein.pssm內的pssm值算出每一個acid可以被其他acid(包含自己)所取代的數值 • 從PSSM上的資料，找出每種acid可以被其他acid所取代的比例

pssm

軟體介紹 • Weka • QuickRBF • LIBSVM

weka • Waikato Environment for Knowledge Analysis • 可用於機器學習、數據分析的data mining軟體

weka演算法 • 我們使用以下三種演算法: • RandomForests: • 對於很多種資料，它可以產生高準確度的分類器。它可以處理大量的輸入變數。它可以在決定類別時，評估變數的重要性。 • IBK: • 採用向量空間模型來分類，概念為相同類別的案例，彼此的相似度高，而可以藉由計算與已知類別案例之相似度，來評估未知類別案例可能的分類。 • J48: • 機器學習中，決策樹是一個預測模型 • 能夠同時處理數據型和常規型屬性，不必先統一資料來源(一般化)。 • 在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。

LIBSVM • LIBSVM是SVM的一種，而SVM是兩種不同類別進行分類的分類器。 • 原始data:

SVM 可以發現原先三種顏色的點被分區了，這邊所有的點就是我們的training data，而model記錄的就是點的分區狀況。

架構

分析結果-同一屬性不同分類器之比較 • AAC • DPC • PSSM

分析結果-同一分類器不同屬性之比較 • WEKA • QuickRBF • LIBSVM

總結這次實驗的結果，PSSM搭配QuickRBF的預測正確率較為精準，比其他方法高出2-3%。雖然結果只有小幅提升，但是在降低相關實驗成本和提升效率兩大要求上已是相當重要，如果能進一步發展，機器學習將可在生物實驗中佔有舉足輕重的地位。

reference WEKA • http://www.cs.waikato.ac.nz/ml/weka/ LIBSVM • http://www.csie.ntu.edu.tw/~cjlin/libsvm/ • www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/libsvm.pdf QuickRBF • http://csie.org/~yien/quickrbf/quickstart.php • http://zh.wikipedia.org/wiki/Wiki

Q & A

Thank you!

膜運輸蛋白的鑑別與預測

膜運輸蛋白的鑑別與預測

Presentation Transcript