ホモロジー検索演習 (FASTA, BLAST)

ホモロジー検索演習(FASTA, BLAST)

遺伝子の生体内での働き（機能）を予測する ・　個々の遺伝子配列の決定・　全ゲノム配列解析による膨大な量の遺伝子配列の決定様々なデータベースを用いる（統合化データベース）生体内での働き（機能）を推測する

遺伝子の機能予測 機能が似ている塩基配列（遺伝子）が似ているタンパク質の立体構造が似ているアミノ酸の配列が似ている配列が似ていれば機能も似ている配列の類似度の計算

データベースに対するホモロジー検索 ペアワイズアライメント問い合わせ配列データベース BLAST, FASTA SSEARCH 機能が既知な遺伝子やタンパク質の配列機能が未知の配列例）実験で得た配列 Genbank, SWISS-PROT, PIR等　類似した配列をデータベースから検索することにより，問い合わせ配列の機能を予測する．

ペアワイズアライメント（１） ギャップ（挿入、欠失）を用いて類似度（スコア）が最大になるように配列を並べ替える方法塩基配列４文字の一致度を計算 A，T，G，C 配列１TACG 配列２TTAG 配列１と配列２の間の類似度を知りたい

ペアワイズアライメント（２） ダイナミック・プログラミング法（DP法）配列１ T A C G -1 -1 -1 -1 -1 -2 -3 -4 ギャップの挿入（拡大図） T 1 -1 -1 -1 T -1 -1 -1 -1 1 0 -1 -2 1 -1 -1 -1 T -1 -1 同一文字：１異なる文字：- 1 -2 0 0 -1 -2 配列２ T -1 1 -1 -1 A -1 -1 -1 -3 -1 1 0 -1 ギャップの挿入 -1 -1 -1 1 G -1 -1 -4 -2 0 0 1 -1 -1 -1 -1 配列１　　TACG 配列２　　TTAG 配列１　　T-ACG 配列２　　TTA-G ペアワイズアライメントギャップ

ペアワイズアライメント（３） アミノ酸配列の場合はどのようにするか？アミノ酸配列 A，R，N，D，C，Q，E，G，H，I L，K，M，F，P，S，T，W，Y，V 20文字配列１　　GCRC 配列２　　GWWD 配列１と配列２の間の類似度を知りたい 20文字の類似度を定義する必要がある

Dayhoff マトリックス（PAM250） 距離行列（PAM250）　進化の過程でアミノ酸間での置換が，どの程度起こりやすいかを推定し，数値化したもの. 250は進化距離の基準. PAM40，PAM120，PAM250が存在する. ジスルフィド結合性 Cys C 12 Ser S 0 2 Thr T -2 1 3 小型 BLOSUM マトリックス Pro P -3 1 0 6 Ala A 　モチーフ周辺の配列の保存性から数値化したもの. BLOSUM80，BLOSUM62， BLOSUM50が存在する. -2 1 1 1 2 Gly G -3 1 0 -1 1 5 Asn N -4 1 0 -1 0 0 2 酸性 Asp D -5 0 0 -1 0 1 2 4 Clu E -5 0 0 -1 0 0 1 3 4 Gln Q -5 -1 -1 0 0 -1 1 2 2 4 His H -3 -1 -1 0 -1 -2 2 1 1 3 6 塩基性 Arg R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6 Lys K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5 Met M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6 疎水性 Ile I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5 Leu L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6 Val V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4 芳香族 Phe F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9 Tyr Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10 Trp W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17 C S T P A G N D E Q H R K M I L V F Y W

ペアワイズアライメント（４） 配列１ G C R C -7 -7 -7 -7 -7 -14 -21 -28 ギャップの挿入（拡大図） G 5 -3 -3 -3 G -7 -7 -7 -7 5 -2 -9 -16 -7 -8 2 -8 W -7 -7 アミノ酸の類似度 -14 -2 -3 0 -7 配列２ G 5 -7 -8 2 -8 W -7 -7 -7 -21 -9 -10 -1 -8 ギャップの挿入 1 -5 -1 -5 D -7 -7 -28 -16 -14 -8 -6 -7 -7 -7 -7 配列１　　GCR-C 配列２　　G-WWD 配列１　　GCRC 配列２　　GWWD ペアワイズアライメント計算時間を要する。ギャップ

遺伝子の機能予測 機能が似ている塩基配列（遺伝子）が似ているタンパク質の立体構造が似ているアミノ酸の配列が似ている配列が似ていれば機能も似ている配列の類似度の計算

データベースに対するホモロジー検索 ペアワイズアライメント問い合わせ配列データベース BLAST, FASTA SSEARCH 機能が既知な遺伝子やタンパク質の配列機能が未知の配列例）実験で得た配列 Genbank, SWISS-PROT, PIR等　類似した配列をデータベースから検索することにより，問い合わせ配列の機能を予測する．

生物学的データベースの例 種類データベース名 URL Genbank 塩基配列 http://www.ncbi.nlm.nih.gov/ EMBL http://www.ebi.ac.uk/ DDBJ http://www.ddbj.nig.ac.jp/ SWISS-PROT アミノ酸配列 http://www.expasy.ch/sprot/ PIR http://pir.georgetown.edu/pirwww/ dbinfo/pir_psd.shtml PDB タンパク質立体構造 http://www.rcsb.org/pdb/

ホモロジー検索プログラム FASTA 　はじめに文字の良く一致する領域を高速に検索し，最終的にはギャップを入れた完全なアライメントを行う．　　（利点）　BLASTよりも精度が高い．　　（欠点）　BLASTよりも検索速度が遅い． BLAST 　ギャップを入れない部分配列のアライメントを複数集めて評価する．　　（利点）　FASTAよりも検索速度が速い．　　（欠点）　FASTAよりも精度が若干低い（充分な精度）．満足できる結果が得られない場合 BLASTでの検索 FASTAでの検索

ホモロジー検索プログラム（FASTA）（１） ドット・マトリックス問い合わせ配列問い合わせ配列 A C A T G A C A C A T G A C ）））））） G ） G A ） A T ） T データベース中の配列データベース中の配列 G ） G A ） A T ） T A A ktup = 1 ktup = 2 一般に，アミノ酸配列の場合はktup=2，塩基配列の場合はktup=6。

ホモロジー検索プログラム（FASTA）（２） 初期検索で見つかった領域の結合最適アライメント (initn score) (opt score) DP法で結合初期検索で見つかった類似領域

統合化データベース(ゲノムネット） http://www.genome.jp

ホモロジー検索（FASTA） 配列をファイルから入力配列を直接的に入力

検索の対象となるデータベース ○ゲノム解析された生物（KEGG）　　・KEGG GENES（遺伝子） ○重複を除いたデータベース・nr-aa 　　　（アミノ酸配列；Genbank, UniProt, Refseq, PRF, PDBSTRから作成　　・nr-nt 　　　（塩基配列；GenBank, EMBL and RefSeq）　

入力する配列 例えば，実験で，以下の配列が分かったとする．この配列は何のタンパク質に似ているか？ MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR データベースの中から，FASTAを使って，遺伝子を探す．

ホモロジー検索（FASTA） 配列を直接的に入力 MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR nr-aaを選択

FASTAの結果 opt E-value 配列の類似度が高いものから順に出力される

FASTAの結果

FASTAの結果 （アライメント）問い合わせ配列とデータベースでヒットした配列とを並べたものヒットした配列名（アクセッション番号）

FASTAの結果（ヒットしたもののデータ） Egg white lysozymeと同一の配列 Lysozymeと推測できる．

アライメント initn init1 opt Z-score E-value 問い合わせ配列データベースでヒットした配列相同性（同一アミノ酸残基の割合％）類似性（類似アミノ酸残基の割合％） E-value; 8.6e-15 = 8.6×10-15

アライメント 問い合わせ配列データベースでヒットした配列「：」は同一の配列「．」はアミノ酸配列の性質が類似「　」は類似していないもの

類似性の指標 １.　相同性（％）　（Identity）　　　同一アミノ酸残基（塩基）数の割合。２．類似性（％）　（Positive）　　　物理化学的性質が類似したアミノ酸残基数の割合。３． E-value 　　　統計的な指標。　　　同じ長さで同じスコアをもつ配列が偶然にデータベースから　　見つかる期待値。 E-value 有意性 0.001未満有意 0.1～0.001 微妙 0.1以上有意でない

ホモロジー検索プログラム FASTA 　はじめに文字の良く一致する領域を高速に検索し，最終的にはギャップを入れた完全なアライメントを行う．　　（利点）　BLASTよりも精度が高い．　　（欠点）　BLASTよりも検索速度が遅い． BLAST 　ギャップを入れない部分配列のアライメントを複数集めて評価する．　　（利点）　FASTAよりも検索速度が速い．　　（欠点）　FASTAよりも精度が若干低い（充分な精度）．満足できる結果が得られない場合 BLASTでの検索 FASTAでの検索

ホモロジー検索（BLAST） 問い合わせ配列： …EKAAFDMFDADGGGDISVKEL… 類似ワードのリスト MFD,MFE,MFN,MYD,MYE,MYN,LFD,… ワードの検索問い合わせ配列： …EKAAFDMFDADGGGDISVKEL… データベース配列： …EKEAFSLFDKDGDGDISTKEL… 両側に伸長していく高い類似性を与える部分配列の対（HSP）の抽出

ホモロジー検索（BLAST） http://www.genome.jp

ホモロジー検索（BLAST） 配列をファイルから入力配列を直接的に入力

入力する配列 例えば，実験で，以下の配列が分かったとする．この配列は何のタンパク質に似ているか？ MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN データベースの中から，BLASTを使って，遺伝子を探す．

ホモロジー検索（BLAST） 配列をファイルから入力配列を直接的に入力 MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN nr-aaを選択

BLASTの結果 bits E-value

BLASTの結果 （アライメント）問い合わせ配列とデータベースでヒットした配列とを並べたものヒットした配列名（アクセッション番号） prion（プリオン）と推測される．

BLASTの結果 score E-value 問い合わせ配列データベースでヒットした配列相同性（同一アミノ酸残基の割合％）類似性（類似アミノ酸残基の割合％）

BLASTの結果 「大文字」は同一の配列「+」はアミノ酸配列の性質が類似「　」は類似していないもの

BLAST（Basic Local Alignment Search Tool） BLASTのプログラムの一覧問い合わせ配列（クエリー）データベース（サブジェクト）プログラム名 BLASTN 塩基配列塩基配列 BLASTP アミノ酸配列アミノ酸配列 TBLASTN アミノ酸配列塩基配列 BLASTX 塩基配列アミノ酸配列

FASTA形式（ファイルから入力する場合） ホモロジー検索で用いる配列の形式 >lysozyme1 KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS RWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDV QAWIRGCRL >lysozyme2 RTDCYGNVNRIDTTGASCKTAKPEGLSYCGVSASKKIAERDLQAMDRYKTIIKKVGEKLC VEPAVIAGIISRESHAGKVLKNGWGDRGNGFGLMQVDKRSHKPQGTWNGEVHITQGTTIL INFIKTIQKKFPSWTKDQQLKGGISAYNAGAGNVRSYARMDIGTTHDDYANDVVARAQYY KQHGY 一般に６０文字で改行を入れる。 “>”の行はヘッダー。配列の区切りにもなっている。

サンプル配列1 BLASTN, BLASTX テスト用 >seq1 ggcccgagtgggtgggggtgggggggcatccgggggcttagccctggaaccccagctcct tgtacttggcagcaatgtcattccggaacagctccagggccttcctcatggccgcctggg cgtcggcgccgaagtccccgggatgcttgctctgcaggacctggatgatggcttctgaga tgaactccaggtacttgacggggatcttgtgcttggtggcatgtgactgagccaggggct tcagctccgcctcgtgctgccccttcttcttgaggatgccccccagggcagtgaacaccg tgttgccatgcttcttcaggtcctcagaacccttcatctcgtcctctgacttcaggtgct tgaacttgtcgaacttctccagggtctcggggtggcccttgaagagcctgatgaggacct cctgcccatggcccgcgaggtcagcctctaccttcccccagacgttcagcaccaactgcc attccccgtcgctgagccccatggtgtggtctgaagaagacaaaaagagcaagtccgggc tgactcggtgtcctggctctgacagctggggtttgagatcgcctggccccaaagggattt tatactttccctgaagcttggcacagatcacttgacggcttgctcactctttctcctcct cctcctccctccctttcatgcggggtctaatcttttcctttctgtagctctcacatggaa gctattttggggcaggtgccattgtggggaggtaggac 塩基は小文字でも可。コード鎖でなく逆鎖でもよい。

サンプル配列2 BLASTP, TBLASTN テスト用 >seq2 MKATLVLGSLIVGAVSAYKATTTRYYDGQEGACGCGSSSGAFPWQLGIGNGVYTAAGSQA LFDTAGASWCGAGCGKCYQLTSTGQAPCSSCGTGGAAGQSIIVMVTNLCPNNGNAQWCPV VGGTNQYGYSYHFDIMAQNEIFGDNVVVDFEPIACPGQAASDWGTCLCVGQQETDPTPVL GNDTGSTPPGSSPPATSSSPPSGGGQQTLYGQCGGAGWTGPTTCQAPGTCKVQNQWYSQC LP* “*”は終止コドン（翻訳されない）。似た性質のアミノ酸や塩基の繰り返しは複雑性フィルターによって”X”や”n”でマスクされる。フィルターを解除して全長をアライメントすることもできる。

サンプル配列3 BLASTX テスト用 >seq3 ATGGCAAGCCTCCGAAAAACTCACCCGCTACTAAAAATCGCTAACGACGCACTAGTTGAC CTCCCTACCCCCTCTAATATCTCTGCATGATGAAACTTTGGCTCACTACTTGGCCTTTGC CTTATTTCTCAAATCCTTACAGGACTATTCCTCGCAATACACTATACCCCTGATGTCGAA コドン表が standard のままでは正しく翻訳できない場合がある。上の例では Vertebrate Mitochondrial (2) が適切。 genome.jp の BLASTX ではコドン表の変更に未対応なので、必要に応じて NCBI (GenBank) 等のBLASTサービスを使う。機能や生物種を推定する程度なら standard のままでもよい。

アミノ酸配列からの特徴抽出（１） 　機能の発現に対して、重要なアミノ酸配列は何か？　幾つかの配列において保存されているアミノ酸残基は、構造の安定性や機能の維持に関与する重要なものである　２つ以上の配列間の類似関係を明らかにする　マルチプルアライメント

アミノ酸配列からの特徴抽出（２） 例）マルチプルアライメント（セリンプロテアーゼ） THRB_HUMAN LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP THRB_BOVIN FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP THRB_MOUSE LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP THRB_RAT LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP LFC_TACTR SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYS FA9_RAT EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK-- FA9_RABIT QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK-- FA9_PIG QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEP- FA7_BOVIN NGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFER- FA7_MOUSE NSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDN- FA7_RABIT GASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDK- PRTC_HUMAN QEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDE- PRTC_RAT EELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLES- PRTC_MOUSE DELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEG- PSS8_HUMAN CGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS- : * ***. : *. :: *:::****. 配列の保存性から共通構造や、進化的な関係（系統関係）を推測することができる完全に保存されたアミノ酸残基 “*” 保存性が高い列　“:” 保存性が低い列　“.”

マルチプルアライメント（３） a-thrombin Autoprothrombin IIA βストランド構造保存性が高い部分 βストランド構造保存性が高い部分

配列解析が基本となる研究 ・　タンパク質の分類に関する研究　　　　機能部位の配列の推定（モチーフ抽出）　　　　タンパク質ファミリーと配列パターンとの関係（機能分類）・　アミノ酸配列とタンパク質の構造との関係　　　　アミノ酸配列からの二次構造予測　　　　アミノ酸配列からの立体構造予測　　　　　　ホモロジーモデリング法　（配列の相同性≧25％） 3D-1D法 ab initio法・　進化的系統関係の研究　　　　ゲノムの多様性　　　　集団内における遺伝子の多様性

ホモロジー検索演習 (FASTA, BLAST)