190 likes | 342 Views
專題成果報告 胺基酸功能預測開發環境. 指導教授 : 歐昱言 971508 邱彥豪 971520 邱顯鈞. 前言. 隨著生物資訊的發展,蛋白質序列的 資料庫 變得非常 龐 大 ,大部分的蛋白質我們仍然未知它們的功能,所以取得 蛋白質序列且了解它們的功能是生物學家努力想要達到的 目標,生物學家必須透過實驗 ( 如結晶法 ) 來確定蛋白質的 功能。 透過實驗,我們發現眾多經過實驗確定的蛋白質序列, 當胺基酸排列相似的時候,它們的功能也類似,某些時候 甚至可以做為判斷的依據,但現行實驗技術成功率低且成 本昂貴,於是透過電腦分類龐大資料的想法便應運而生。. 目的.
E N D
專題成果報告胺基酸功能預測開發環境 指導教授:歐昱言 971508 邱彥豪971520 邱顯鈞
前言 隨著生物資訊的發展,蛋白質序列的資料庫變得非常龐 大,大部分的蛋白質我們仍然未知它們的功能,所以取得 蛋白質序列且了解它們的功能是生物學家努力想要達到的 目標,生物學家必須透過實驗(如結晶法)來確定蛋白質的 功能。 透過實驗,我們發現眾多經過實驗確定的蛋白質序列, 當胺基酸排列相似的時候,它們的功能也類似,某些時候 甚至可以做為判斷的依據,但現行實驗技術成功率低且成 本昂貴,於是透過電腦分類龐大資料的想法便應運而生。
目的 我們希望透過我們所開發的環境能使生物學 家利用電腦快速分類龐大的原始蛋白質序列資 料,再使用分類器預先預測出某一胺基酸區段 在未知蛋白質內所代表的功用並加以分類。
架構 1.序列相似度篩選 2.標記胺基酸功能區段 資料取得 分類器分析結果 資料處理 序列剖析 PSSM(Position-specific scoring matrix)
開發功能 我們的程式能 1.自動處理下載來的資料 2.快速的做序列相似度篩選 3.標記胺基酸功能區段 4.產生PSSM檔案 5.快速產生能進分類器的檔案格式
二.資料處理 在原始的資料中,紀錄蛋白質序列的所有資訊,我們為了預測胺基酸區段在未知蛋白質內所代表的功用,必須擷取胺基酸區段的位置,再將此位置標記在蛋白質序列上。
三.序列剖析 PSSM(位置加權矩陣): 具有相似化學特性的胺基酸之間會互相取代,每行列代表各胺基酸取代的可能,會以一加權值表示,值越大則表示此胺基酸能被取代的可能性越大。
四.產生結果 Select_pssm: 最終,以PSSM當作屬性產生出來的libsvm檔即可用分類器做分類了。
6.分類器:Weka 1.IBK-3NN
分類器:QuickRBF Center5000
報告結束 謝謝大家!