270 likes | 360 Views
Acetyllysine 與 Methyllysine 之 分類. 指導老師:李宗 夷 專題 製作 : 961472 陳少川 961531 林世偉. Outline. Background Motivation Goal Materials and Methods Expected results. 專題研究背景.
E N D
Acetyllysine與 Methyllysine之分類 指導老師:李宗夷 專題製作:961472 陳少川 961531 林世偉
Outline Background Motivation Goal Materials and Methods Expected results
專題研究背景 N-acetylation orchestrates a variety of cellular processes, including transcriptionregulation, DNA repair, apoptosis, cytokine signaling, and nuclear import. N-甲基離胺酸(N-methyllysine)被發現於肌凝蛋白(myosin)中,為一種與肌肉收縮有關之蛋白質。
研究動機 Acetyllysine & Methyllysine皆為蛋白質後轉譯修飾裡其中兩個重要的機制,若能預測出發生此兩機制的基因片段,對生物界以及醫學界都有很大的幫助。
研究目的 在未處理的蛋白質序列中,預測出發生Acetyllysine或Methyllysine的基因片段。
實驗材料 來源Database:UniProt 蛋白質序列: 會發生Acetyllysine有 2003 條 會發生Methyllysine有 158 條
實驗方法 先將會發生Acetyllysine和Methyllysine反應的蛋白質胺基酸序列一比例取出當作independent(測試樣本) ,剩下的用來做trainning model。 將給定發生分別會發生的Acetyllysine和Methyllysine的positive的基因片段,用來對蛋白質序列刪選出positive 和negative基因片段。 皆以K胺基酸為中心分別分段來分析,切成一定長度19/25的windows sizes。 把重複的片段刪除。
實驗方法 將基因片段作編碼(feature) Trainning model使用5-foldcross validation後,再使用分類工具分類。 將independent加入Trainning model裡,使用5-foldcross validation,再用分類工具分類。 評測結果
評測方法 Negative TN FN TP FP Positive Predict
STEP1 Acetyllysine_protein和Methyllysine_protein中有重複的蛋白質序列,將重複的序列捨去Acetyllysine_protein部分並留下Methyllysine_protein的部分。 #Acetyllysine_protein和Methyllysin_proteine重複的有46條。
STEP2 將STEP1處理後的Acetyllysine_protein和 Methyllysine_protein分別依比例以1:5取出,分成兩部份independent和training。 # 為了independent和training model都能取到
STEP3 把給定的Acetyllysine_pos和Methyllysine_pos中有完全相同的取出另存 # 會同時發生Acetyllysine和Methyllysine的K,在作分類的時候不易處理。
STEP4 利用step3 處理過的Acetyllysine_pos和Methyllysine_pos,將independent和trainning model的這兩類的蛋白質序列切windows size。並分成positive和negative
取出Positive & Negitive 將給定會發生 Acetyllysine/Methyllysine反應的K位置,將會發生反應的蛋白質序列片段篩選出Positive & Negative,並把Negative部分取出另存。
Windows sizes • 將處理後的基因片段,皆以K胺基酸為中心分別分段來分析,切成每段windows sizes長度為25的胺基酸片段。 • 格式: ID_位置_基因片段(fragment) 基因片段:以K胺基酸為中心,左右各12個胺基酸
STEP5 切好後WINDOWS SIZE的independent_Acetyllysine_SEQ和independent_Methyllysine_SEQ刪除重複片段。 Trainning Model亦將兩類作同樣處理。
STEP6 上步處理重複後的independent_Acetyllysine_SEQ和independent_Methyllysine_SEQ轉編碼合併成independent部分。 上步處理重複後的train_Acetyllysine_SEQ和 train_Methyllysine_SEQ轉編碼合併成trainning Model部分。
編碼1- 0 / 1 • 將20種胺基酸以0和1為組成,組成20個不同的編碼。 • 格式: 屬性(pos/neg)_編碼 1_1: 0 _2:1_~~499:1_500:0 #windos sizes長度為25所以有25*20=500個編碼數 • 屬性:pos/negpos為1neg為2
編碼2-BLOSUM62 • 格式: 屬性_編碼 • 屬性:pos/neg(pos為1 neg為2) • 編碼: 給定的編碼對照表 長度25*20
編碼-範例 • 範例 CST 1:9_2:-1_3:-1_4:-3_......_19:-2_20:-2_21:-1_22:4_......._39:-2_40:-3_41:-1_42:1_......_59:-2_60:-3
STEP7 trainning Model和independent用5-fold Cross Validation 做quickrbf分類處理。
評測預測結果 將QuickRBF分類器分類出來的預測結果和positive發生反應的胺基酸片段作資料作比對,將比對的結果作統計機率的分析,算出評測的效果表現。