510 likes | 1.13k Views
ホモロジー検索演習 (FASTA, BLAST). 遺伝子の生体内での働き(機能)を予測する. ・ 個々の遺伝子配列の決定 ・ 全ゲノム配列解析による膨大な量の遺伝子配列の決定. 様々なデータベースを用いる (統合化データベース). 生体内での働き(機能)を推測する. 遺伝子の機能予測. 機能が似ている. 塩基配列(遺伝子)が似ている. タンパク質の立体構造が似ている. アミノ酸の配列が似ている. 配列が似ていれば機能も似ている. 配列の類似度の計算. データベースに対するホモロジー検索. ペアワイズ アライメント. 問い合わせ配列. データベース.
E N D
遺伝子の生体内での働き(機能)を予測する ・ 個々の遺伝子配列の決定 ・ 全ゲノム配列解析による膨大な量の遺伝子配列の決定 様々なデータベースを用いる (統合化データベース) 生体内での働き(機能)を推測する
遺伝子の機能予測 機能が似ている 塩基配列(遺伝子)が似ている タンパク質の立体構造が似ている アミノ酸の配列が似ている 配列が似ていれば機能も似ている 配列の類似度の計算
データベースに対するホモロジー検索 ペアワイズ アライメント 問い合わせ配列 データベース BLAST, FASTA SSEARCH 機能が既知な遺伝子や タンパク質の配列 機能が未知の配列 例)実験で得た配列 Genbank, SWISS-PROT, PIR等 類似した配列をデータベースから検索することにより,問い合わせ配列の機能を予測する.
ペアワイズアライメント(1) ギャップ(挿入、欠失)を用いて類似度(スコア)が最大になるように 配列を並べ替える方法 塩基配列 4文字の一致度を計算 A,T,G,C 配列1TACG 配列2TTAG 配列1と配列2の間の類似度を知りたい
ペアワイズアライメント(2) ダイナミック・プログラミング法(DP法) 配列1 T A C G -1 -1 -1 -1 -1 -2 -3 -4 ギャップの挿入 (拡大図) T 1 -1 -1 -1 T -1 -1 -1 -1 1 0 -1 -2 1 -1 -1 -1 T -1 -1 同一文字:1 異なる文字:- 1 -2 0 0 -1 -2 配列2 T -1 1 -1 -1 A -1 -1 -1 -3 -1 1 0 -1 ギャップの挿入 -1 -1 -1 1 G -1 -1 -4 -2 0 0 1 -1 -1 -1 -1 配列1 TACG 配列2 TTAG 配列1 T-ACG 配列2 TTA-G ペアワイズアライメント ギャップ
ペアワイズアライメント(3) アミノ酸配列の場合はどのようにするか? アミノ酸配列 A,R,N,D,C,Q,E,G,H,I L,K,M,F,P,S,T,W,Y,V 20文字 配列1 GCRC 配列2 GWWD 配列1と配列2の間の類似度を知りたい 20文字の類似度を定義する必要がある
Dayhoff マトリックス(PAM250) 距離行列(PAM250) 進化の過程でアミノ酸間での置換が,どの程度 起こりやすいかを推定し,数値化したもの. 250は進化距離の基準. PAM40,PAM120,PAM250が存在する. ジスルフィド結合性 Cys C 12 Ser S 0 2 Thr T -2 1 3 小型 BLOSUM マトリックス Pro P -3 1 0 6 Ala A モチーフ周辺の配列の保存性 から数値化したもの. BLOSUM80,BLOSUM62, BLOSUM50が存在する. -2 1 1 1 2 Gly G -3 1 0 -1 1 5 Asn N -4 1 0 -1 0 0 2 酸性 Asp D -5 0 0 -1 0 1 2 4 Clu E -5 0 0 -1 0 0 1 3 4 Gln Q -5 -1 -1 0 0 -1 1 2 2 4 His H -3 -1 -1 0 -1 -2 2 1 1 3 6 塩基性 Arg R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6 Lys K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5 Met M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6 疎水性 Ile I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5 Leu L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6 Val V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4 芳香族 Phe F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9 Tyr Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10 Trp W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17 C S T P A G N D E Q H R K M I L V F Y W
ペアワイズアライメント(4) 配列1 G C R C -7 -7 -7 -7 -7 -14 -21 -28 ギャップの挿入 (拡大図) G 5 -3 -3 -3 G -7 -7 -7 -7 5 -2 -9 -16 -7 -8 2 -8 W -7 -7 アミノ酸の類似度 -14 -2 -3 0 -7 配列2 G 5 -7 -8 2 -8 W -7 -7 -7 -21 -9 -10 -1 -8 ギャップの挿入 1 -5 -1 -5 D -7 -7 -28 -16 -14 -8 -6 -7 -7 -7 -7 配列1 GCR-C 配列2 G-WWD 配列1 GCRC 配列2 GWWD ペアワイズアライメント 計算時間を要する。 ギャップ
遺伝子の機能予測 機能が似ている 塩基配列(遺伝子)が似ている タンパク質の立体構造が似ている アミノ酸の配列が似ている 配列が似ていれば機能も似ている 配列の類似度の計算
データベースに対するホモロジー検索 ペアワイズ アライメント 問い合わせ配列 データベース BLAST, FASTA SSEARCH 機能が既知な遺伝子や タンパク質の配列 機能が未知の配列 例)実験で得た配列 Genbank, SWISS-PROT, PIR等 類似した配列をデータベースから検索することにより,問い合わせ配列の機能を予測する.
生物学的データベースの例 種類 データベース名 URL Genbank 塩基配列 http://www.ncbi.nlm.nih.gov/ EMBL http://www.ebi.ac.uk/ DDBJ http://www.ddbj.nig.ac.jp/ SWISS-PROT アミノ酸配列 http://www.expasy.ch/sprot/ PIR http://pir.georgetown.edu/pirwww/ dbinfo/pir_psd.shtml PDB タンパク質立体構造 http://www.rcsb.org/pdb/
ホモロジー検索プログラム FASTA はじめに文字の良く一致する領域を高速に検索し,最終的には ギャップを入れた完全なアライメントを行う. (利点) BLASTよりも精度が高い. (欠点) BLASTよりも検索速度が遅い. BLAST ギャップを入れない部分配列のアライメントを複数集めて評価する. (利点) FASTAよりも検索速度が速い. (欠点) FASTAよりも精度が若干低い(充分な精度). 満足できる結果が 得られない場合 BLASTでの検索 FASTAでの検索
ホモロジー検索プログラム(FASTA)(1) ドット・マトリックス 問い合わせ配列 問い合わせ配列 A C A T G A C A C A T G A C ) ) ) ) ) ) G ) G A ) A T ) T データベース中の配列 データベース中の配列 G ) G A ) A T ) T A A ktup = 1 ktup = 2 一般に,アミノ酸配列の場合はktup=2,塩基配列の場合はktup=6。
ホモロジー検索プログラム(FASTA)(2) 初期検索で見つかった領域の結合 最適アライメント (initn score) (opt score) DP法で結合 初期検索で見つかった類似領域
統合化データベース(ゲノムネット) http://www.genome.jp
ホモロジー検索(FASTA) 配列をファイルから入力 配列を直接的に入力
検索の対象となるデータベース ○ゲノム解析された生物(KEGG) ・KEGG GENES(遺伝子) ○重複を除いたデータベース ・nr-aa (アミノ酸配列;Genbank, UniProt, Refseq, PRF, PDBSTRから作成 ・nr-nt (塩基配列;GenBank, EMBL and RefSeq)
入力する配列 例えば,実験で,以下の配列が分かったとする. この配列は何のタンパク質に似ているか? MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR データベースの中から,FASTAを使って,遺伝子を探す.
ホモロジー検索(FASTA) 配列を直接的に入力 MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR nr-aaを選択
FASTAの結果 opt E-value 配列の類似度が高いものから順に出力される
FASTAの結果 (アライメント) 問い合わせ配列とデータベースでヒットした配列とを並べたもの ヒットした配列名(アクセッション番号)
FASTAの結果(ヒットしたもののデータ) Egg white lysozymeと同一の配列 Lysozymeと推測できる.
アライメント initn init1 opt Z-score E-value 問い合わせ配列 データベースでヒットした配列 相同性(同一アミノ酸残基の割合%) 類似性(類似アミノ酸残基の割合%) E-value; 8.6e-15 = 8.6×10-15
アライメント 問い合わせ配列 データベースでヒットした配列 「:」は同一の配列 「.」はアミノ酸配列の性質が類似 「 」は類似していないもの
類似性の指標 1. 相同性(%) (Identity) 同一アミノ酸残基(塩基)数の割合。 2. 類似性(%) (Positive) 物理化学的性質が類似したアミノ酸残基数の割合。 3. E-value 統計的な指標。 同じ長さで同じスコアをもつ配列が偶然にデータベースから 見つかる期待値。 E-value 有意性 0.001未満 有意 0.1~0.001 微妙 0.1以上 有意でない
ホモロジー検索プログラム FASTA はじめに文字の良く一致する領域を高速に検索し,最終的には ギャップを入れた完全なアライメントを行う. (利点) BLASTよりも精度が高い. (欠点) BLASTよりも検索速度が遅い. BLAST ギャップを入れない部分配列のアライメントを複数集めて評価する. (利点) FASTAよりも検索速度が速い. (欠点) FASTAよりも精度が若干低い(充分な精度). 満足できる結果が 得られない場合 BLASTでの検索 FASTAでの検索
ホモロジー検索(BLAST) 問い合わせ配列: …EKAAFDMFDADGGGDISVKEL… 類似ワードのリスト MFD,MFE,MFN,MYD,MYE,MYN,LFD,… ワードの検索 問い合わせ配列: …EKAAFDMFDADGGGDISVKEL… データベース配列: …EKEAFSLFDKDGDGDISTKEL… 両側に伸長していく 高い類似性を与える部分配列の対 (HSP)の抽出
ホモロジー検索(BLAST) http://www.genome.jp
ホモロジー検索(BLAST) 配列をファイルから入力 配列を直接的に入力
入力する配列 例えば,実験で,以下の配列が分かったとする. この配列は何のタンパク質に似ているか? MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN データベースの中から,BLASTを使って,遺伝子を探す.
ホモロジー検索(BLAST) 配列をファイルから入力 配列を直接的に入力 MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN nr-aaを選択
BLASTの結果 bits E-value
BLASTの結果 (アライメント) 問い合わせ配列とデータベースでヒットした配列とを並べたもの ヒットした配列名(アクセッション番号) prion(プリオン)と推測される.
BLASTの結果 score E-value 問い合わせ配列 データベースでヒットした配列 相同性(同一アミノ酸残基の割合%) 類似性(類似アミノ酸残基の割合%)
BLASTの結果 「大文字」は同一の配列 「+」はアミノ酸配列の性質が類似 「 」は類似していないもの
BLAST(Basic Local Alignment Search Tool) BLASTのプログラムの一覧 問い合わせ配列 (クエリー) データベース (サブジェクト) プログラム名 BLASTN 塩基配列 塩基配列 BLASTP アミノ酸配列 アミノ酸配列 TBLASTN アミノ酸配列 塩基配列 BLASTX 塩基配列 アミノ酸配列
FASTA形式(ファイルから入力する場合) ホモロジー検索で用いる配列の形式 >lysozyme1 KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS RWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDV QAWIRGCRL >lysozyme2 RTDCYGNVNRIDTTGASCKTAKPEGLSYCGVSASKKIAERDLQAMDRYKTIIKKVGEKLC VEPAVIAGIISRESHAGKVLKNGWGDRGNGFGLMQVDKRSHKPQGTWNGEVHITQGTTIL INFIKTIQKKFPSWTKDQQLKGGISAYNAGAGNVRSYARMDIGTTHDDYANDVVARAQYY KQHGY 一般に60文字で改行を入れる。 “>”の行はヘッダー。配列の区切りにもなっている。
サンプル配列1 BLASTN, BLASTX テスト用 >seq1 ggcccgagtgggtgggggtgggggggcatccgggggcttagccctggaaccccagctcct tgtacttggcagcaatgtcattccggaacagctccagggccttcctcatggccgcctggg cgtcggcgccgaagtccccgggatgcttgctctgcaggacctggatgatggcttctgaga tgaactccaggtacttgacggggatcttgtgcttggtggcatgtgactgagccaggggct tcagctccgcctcgtgctgccccttcttcttgaggatgccccccagggcagtgaacaccg tgttgccatgcttcttcaggtcctcagaacccttcatctcgtcctctgacttcaggtgct tgaacttgtcgaacttctccagggtctcggggtggcccttgaagagcctgatgaggacct cctgcccatggcccgcgaggtcagcctctaccttcccccagacgttcagcaccaactgcc attccccgtcgctgagccccatggtgtggtctgaagaagacaaaaagagcaagtccgggc tgactcggtgtcctggctctgacagctggggtttgagatcgcctggccccaaagggattt tatactttccctgaagcttggcacagatcacttgacggcttgctcactctttctcctcct cctcctccctccctttcatgcggggtctaatcttttcctttctgtagctctcacatggaa gctattttggggcaggtgccattgtggggaggtaggac 塩基は小文字でも可。コード鎖でなく逆鎖でもよい。
サンプル配列2 BLASTP, TBLASTN テスト用 >seq2 MKATLVLGSLIVGAVSAYKATTTRYYDGQEGACGCGSSSGAFPWQLGIGNGVYTAAGSQA LFDTAGASWCGAGCGKCYQLTSTGQAPCSSCGTGGAAGQSIIVMVTNLCPNNGNAQWCPV VGGTNQYGYSYHFDIMAQNEIFGDNVVVDFEPIACPGQAASDWGTCLCVGQQETDPTPVL GNDTGSTPPGSSPPATSSSPPSGGGQQTLYGQCGGAGWTGPTTCQAPGTCKVQNQWYSQC LP* “*”は終止コドン(翻訳されない)。 似た性質のアミノ酸や塩基の繰り返しは複雑性フィルターによって”X”や”n”でマスクされる。 フィルターを解除して全長をアライメントすることもできる。
サンプル配列3 BLASTX テスト用 >seq3 ATGGCAAGCCTCCGAAAAACTCACCCGCTACTAAAAATCGCTAACGACGCACTAGTTGAC CTCCCTACCCCCTCTAATATCTCTGCATGATGAAACTTTGGCTCACTACTTGGCCTTTGC CTTATTTCTCAAATCCTTACAGGACTATTCCTCGCAATACACTATACCCCTGATGTCGAA コドン表が standard のままでは正しく翻訳できない場合がある。 上の例では Vertebrate Mitochondrial (2) が適切。 genome.jp の BLASTX ではコドン表の変更に未対応なので、必要に応じて NCBI (GenBank) 等のBLASTサービスを使う。 機能や生物種を推定する程度なら standard のままでもよい。
アミノ酸配列からの特徴抽出(1) 機能の発現に対して、重要なアミノ酸配列は何か? 幾つかの配列において保存されているアミノ酸残基は、構造の安定性 や機能の維持に関与する重要なものである 2つ以上の配列間の類似関係を明らかにする マルチプルアライメント
アミノ酸配列からの特徴抽出(2) 例)マルチプルアライメント(セリンプロテアーゼ) THRB_HUMAN LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP THRB_BOVIN FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP THRB_MOUSE LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP THRB_RAT LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP LFC_TACTR SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYS FA9_RAT EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK-- FA9_RABIT QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK-- FA9_PIG QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEP- FA7_BOVIN NGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFER- FA7_MOUSE NSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDN- FA7_RABIT GASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDK- PRTC_HUMAN QEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDE- PRTC_RAT EELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLES- PRTC_MOUSE DELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEG- PSS8_HUMAN CGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS- : * ***. : *. :: *:::****. 配列の保存性から共通構造や、 進化的な関係(系統関係)を推測 することができる 完全に保存されたアミノ酸残基 “*” 保存性が高い列 “:” 保存性が低い列 “.”
マルチプルアライメント(3) a-thrombin Autoprothrombin IIA βストランド構造 保存性が高い部分 βストランド構造 保存性が高い部分
配列解析が基本となる研究 ・ タンパク質の分類に関する研究 機能部位の配列の推定(モチーフ抽出) タンパク質ファミリーと配列パターンとの関係(機能分類) ・ アミノ酸配列とタンパク質の構造との関係 アミノ酸配列からの二次構造予測 アミノ酸配列からの立体構造予測 ホモロジーモデリング法 (配列の相同性≧25%) 3D-1D法 ab initio法 ・ 進化的系統関係の研究 ゲノムの多様性 集団内における遺伝子の多様性