Acetyllysine 與 Methyllysine 之分類

Acetyllysine與 Methyllysine之分類 指導老師：李宗夷專題製作：961472 陳少川 961531 林世偉

Outline Background Motivation Goal Materials and Methods Expected results

專題研究背景 N-acetylation orchestrates a variety of cellular processes, including transcriptionregulation, DNA repair, apoptosis, cytokine signaling, and nuclear import. N-甲基離胺酸(N-methyllysine)被發現於肌凝蛋白(myosin)中，為一種與肌肉收縮有關之蛋白質。

研究動機 Acetyllysine & Methyllysine皆為蛋白質後轉譯修飾裡其中兩個重要的機制，若能預測出發生此兩機制的基因片段，對生物界以及醫學界都有很大的幫助。

研究目的 在未處理的蛋白質序列中，預測出發生Acetyllysine或Methyllysine的基因片段。

實驗材料 來源Database：UniProt 蛋白質序列：會發生Acetyllysine有 2003 條會發生Methyllysine有 158 條

實驗方法 先將會發生Acetyllysine和Methyllysine反應的蛋白質胺基酸序列一比例取出當作independent(測試樣本) ，剩下的用來做trainning model。將給定發生分別會發生的Acetyllysine和Methyllysine的positive的基因片段，用來對蛋白質序列刪選出positive 和negative基因片段。皆以K胺基酸為中心分別分段來分析，切成一定長度19/25的windows sizes。把重複的片段刪除。

實驗方法 將基因片段作編碼(feature) Trainning model使用5-foldcross validation後，再使用分類工具分類。將independent加入Trainning model裡，使用5-foldcross validation，再用分類工具分類。評測結果

System Flow

評測方法 Negative TN FN TP FP Positive Predict

實作流程

STEP1 Acetyllysine_protein和Methyllysine_protein中有重複的蛋白質序列,將重複的序列捨去Acetyllysine_protein部分並留下Methyllysine_protein的部分。 #Acetyllysine_protein和Methyllysin_proteine重複的有46條。

STEP2 將STEP1處理後的Acetyllysine_protein和 Methyllysine_protein分別依比例以1:5取出，分成兩部份independent和training。 # 為了independent和training model都能取到

比例1:5

STEP3 把給定的Acetyllysine_pos和Methyllysine_pos中有完全相同的取出另存 # 會同時發生Acetyllysine和Methyllysine的K，在作分類的時候不易處理。

STEP4 利用step3 處理過的Acetyllysine_pos和Methyllysine_pos，將independent和trainning model的這兩類的蛋白質序列切windows size。並分成positive和negative

取出Positive & Negitive 將給定會發生 Acetyllysine/Methyllysine反應的K位置，將會發生反應的蛋白質序列片段篩選出Positive & Negative，並把Negative部分取出另存。

Windows sizes • 將處理後的基因片段，皆以K胺基酸為中心分別分段來分析，切成每段windows sizes長度為25的胺基酸片段。 • 格式: ID_位置_基因片段(fragment) 基因片段:以K胺基酸為中心，左右各12個胺基酸

STEP5 切好後WINDOWS SIZE的independent_Acetyllysine_SEQ和independent_Methyllysine_SEQ刪除重複片段。 Trainning Model亦將兩類作同樣處理。

STEP6 上步處理重複後的independent_Acetyllysine_SEQ和independent_Methyllysine_SEQ轉編碼合併成independent部分。上步處理重複後的train_Acetyllysine_SEQ和 train_Methyllysine_SEQ轉編碼合併成trainning Model部分。

編碼1- 0 / 1 • 將20種胺基酸以0和1為組成，組成20個不同的編碼。 • 格式: 屬性(pos/neg)_編碼 1_1: 0 _2:1_~~499:1_500:0 #windos sizes長度為25所以有25*20=500個編碼數 • 屬性:pos/negpos為1neg為2

編碼2-BLOSUM62 • 格式: 屬性_編碼 • 屬性:pos/neg(pos為1 neg為2) • 編碼: 給定的編碼對照表長度25*20

編碼-範例 • 範例 CST 1:9_2:-1_3:-1_4:-3_......_19:-2_20:-2_21:-1_22:4_......._39:-2_40:-3_41:-1_42:1_......_59:-2_60:-3

STEP7 trainning Model和independent用5-fold Cross Validation 做quickrbf分類處理。

評測預測結果 將QuickRBF分類器分類出來的預測結果和positive發生反應的胺基酸片段作資料作比對，將比對的結果作統計機率的分析，算出評測的效果表現。

實驗結果

Acetyllysine 與 Methyllysine 之 分類