1 / 46

ホモロジー検索演習 (FASTA, BLAST)

ホモロジー検索演習 (FASTA, BLAST). 遺伝子の生体内での働き(機能)を予測する. ・ 個々の遺伝子配列の決定 ・ 全ゲノム配列解析による膨大な量の遺伝子配列の決定. 様々なデータベースを用いる (統合化データベース). 生体内での働き(機能)を推測する. 遺伝子の機能予測. 機能が似ている. 塩基配列(遺伝子)が似ている. タンパク質の立体構造が似ている. アミノ酸の配列が似ている. 配列が似ていれば機能も似ている. 配列の類似度の計算. データベースに対するホモロジー検索. ペアワイズ アライメント. 問い合わせ配列. データベース.

zandra
Download Presentation

ホモロジー検索演習 (FASTA, BLAST)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ホモロジー検索演習(FASTA, BLAST)

  2. 遺伝子の生体内での働き(機能)を予測する ・ 個々の遺伝子配列の決定 ・ 全ゲノム配列解析による膨大な量の遺伝子配列の決定 様々なデータベースを用いる (統合化データベース) 生体内での働き(機能)を推測する

  3. 遺伝子の機能予測 機能が似ている 塩基配列(遺伝子)が似ている タンパク質の立体構造が似ている アミノ酸の配列が似ている 配列が似ていれば機能も似ている 配列の類似度の計算

  4. データベースに対するホモロジー検索 ペアワイズ アライメント 問い合わせ配列 データベース BLAST, FASTA SSEARCH 機能が既知な遺伝子や タンパク質の配列 機能が未知の配列 例)実験で得た配列 Genbank, SWISS-PROT, PIR等  類似した配列をデータベースから検索することにより,問い合わせ配列の機能を予測する.

  5. ペアワイズアライメント(1) ギャップ(挿入、欠失)を用いて類似度(スコア)が最大になるように 配列を並べ替える方法 塩基配列 4文字の一致度を計算 A,T,G,C 配列1TACG 配列2TTAG 配列1と配列2の間の類似度を知りたい

  6. ペアワイズアライメント(2) ダイナミック・プログラミング法(DP法) 配列1 T A C G -1 -1 -1 -1 -1 -2 -3 -4 ギャップの挿入 (拡大図) T 1 -1 -1 -1 T -1 -1 -1 -1 1 0 -1 -2 1 -1 -1 -1 T -1 -1 同一文字:1 異なる文字:- 1 -2 0 0 -1 -2 配列2 T -1 1 -1 -1 A -1 -1 -1 -3 -1 1 0 -1 ギャップの挿入 -1 -1 -1 1 G -1 -1 -4 -2 0 0 1 -1 -1 -1 -1 配列1  TACG 配列2  TTAG 配列1  T-ACG 配列2  TTA-G ペアワイズアライメント ギャップ

  7. ペアワイズアライメント(3) アミノ酸配列の場合はどのようにするか? アミノ酸配列 A,R,N,D,C,Q,E,G,H,I L,K,M,F,P,S,T,W,Y,V 20文字 配列1  GCRC 配列2  GWWD 配列1と配列2の間の類似度を知りたい 20文字の類似度を定義する必要がある

  8. Dayhoff マトリックス(PAM250) 距離行列(PAM250)  進化の過程でアミノ酸間での置換が,どの程度 起こりやすいかを推定し,数値化したもの. 250は進化距離の基準. PAM40,PAM120,PAM250が存在する. ジスルフィド結合性 Cys C 12 Ser S 0 2 Thr T -2 1 3 小型 BLOSUM マトリックス Pro P -3 1 0 6 Ala A  モチーフ周辺の配列の保存性 から数値化したもの. BLOSUM80,BLOSUM62, BLOSUM50が存在する. -2 1 1 1 2 Gly G -3 1 0 -1 1 5 Asn N -4 1 0 -1 0 0 2 酸性 Asp D -5 0 0 -1 0 1 2 4 Clu E -5 0 0 -1 0 0 1 3 4 Gln Q -5 -1 -1 0 0 -1 1 2 2 4 His H -3 -1 -1 0 -1 -2 2 1 1 3 6 塩基性 Arg R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6 Lys K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5 Met M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6 疎水性 Ile I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5 Leu L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6 Val V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4 芳香族 Phe F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9 Tyr Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10 Trp W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17 C S T P A G N D E Q H R K M I L V F Y W

  9. ペアワイズアライメント(4) 配列1 G C R C -7 -7 -7 -7 -7 -14 -21 -28 ギャップの挿入 (拡大図) G 5 -3 -3 -3 G -7 -7 -7 -7 5 -2 -9 -16 -7 -8 2 -8 W -7 -7 アミノ酸の類似度 -14 -2 -3 0 -7 配列2 G 5 -7 -8 2 -8 W -7 -7 -7 -21 -9 -10 -1 -8 ギャップの挿入 1 -5 -1 -5 D -7 -7 -28 -16 -14 -8 -6 -7 -7 -7 -7 配列1  GCR-C 配列2  G-WWD 配列1  GCRC 配列2  GWWD ペアワイズアライメント 計算時間を要する。 ギャップ

  10. 遺伝子の機能予測 機能が似ている 塩基配列(遺伝子)が似ている タンパク質の立体構造が似ている アミノ酸の配列が似ている 配列が似ていれば機能も似ている 配列の類似度の計算

  11. データベースに対するホモロジー検索 ペアワイズ アライメント 問い合わせ配列 データベース BLAST, FASTA SSEARCH 機能が既知な遺伝子や タンパク質の配列 機能が未知の配列 例)実験で得た配列 Genbank, SWISS-PROT, PIR等  類似した配列をデータベースから検索することにより,問い合わせ配列の機能を予測する.

  12. 生物学的データベースの例 種類 データベース名 URL Genbank 塩基配列 http://www.ncbi.nlm.nih.gov/ EMBL http://www.ebi.ac.uk/ DDBJ http://www.ddbj.nig.ac.jp/ SWISS-PROT アミノ酸配列 http://www.expasy.ch/sprot/ PIR http://pir.georgetown.edu/pirwww/ dbinfo/pir_psd.shtml PDB タンパク質立体構造 http://www.rcsb.org/pdb/

  13. ホモロジー検索プログラム FASTA  はじめに文字の良く一致する領域を高速に検索し,最終的には ギャップを入れた完全なアライメントを行う.   (利点) BLASTよりも精度が高い.   (欠点) BLASTよりも検索速度が遅い. BLAST  ギャップを入れない部分配列のアライメントを複数集めて評価する.   (利点) FASTAよりも検索速度が速い.   (欠点) FASTAよりも精度が若干低い(充分な精度). 満足できる結果が 得られない場合 BLASTでの検索 FASTAでの検索

  14. ホモロジー検索プログラム(FASTA)(1) ドット・マトリックス 問い合わせ配列 問い合わせ配列 A C A T G A C A C A T G A C ) ) ) ) ) ) G ) G A ) A T ) T データベース中の配列 データベース中の配列 G ) G A ) A T ) T A A ktup = 1 ktup = 2 一般に,アミノ酸配列の場合はktup=2,塩基配列の場合はktup=6。

  15. ホモロジー検索プログラム(FASTA)(2) 初期検索で見つかった領域の結合 最適アライメント (initn score) (opt score) DP法で結合 初期検索で見つかった類似領域

  16. 統合化データベース(ゲノムネット) http://www.genome.jp

  17. ホモロジー検索(FASTA) 配列をファイルから入力 配列を直接的に入力

  18. 検索の対象となるデータベース ○ゲノム解析された生物(KEGG)   ・KEGG GENES(遺伝子) ○重複を除いたデータベース ・nr-aa    (アミノ酸配列;Genbank, UniProt, Refseq, PRF, PDBSTRから作成   ・nr-nt    (塩基配列;GenBank, EMBL and RefSeq) 

  19. 入力する配列 例えば,実験で,以下の配列が分かったとする. この配列は何のタンパク質に似ているか? MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR データベースの中から,FASTAを使って,遺伝子を探す.

  20. ホモロジー検索(FASTA) 配列を直接的に入力 MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR nr-aaを選択

  21. FASTAの結果 opt E-value 配列の類似度が高いものから順に出力される

  22. FASTAの結果

  23. FASTAの結果 (アライメント) 問い合わせ配列とデータベースでヒットした配列とを並べたもの ヒットした配列名(アクセッション番号)

  24. FASTAの結果(ヒットしたもののデータ) Egg white lysozymeと同一の配列 Lysozymeと推測できる.

  25. アライメント initn init1 opt Z-score E-value 問い合わせ配列 データベースでヒットした配列 相同性(同一アミノ酸残基の割合%) 類似性(類似アミノ酸残基の割合%) E-value; 8.6e-15 = 8.6×10-15

  26. アライメント 問い合わせ配列 データベースでヒットした配列 「:」は同一の配列 「.」はアミノ酸配列の性質が類似 「 」は類似していないもの

  27. 類似性の指標 1. 相同性(%) (Identity)    同一アミノ酸残基(塩基)数の割合。 2. 類似性(%) (Positive)    物理化学的性質が類似したアミノ酸残基数の割合。 3. E-value    統計的な指標。    同じ長さで同じスコアをもつ配列が偶然にデータベースから   見つかる期待値。 E-value 有意性 0.001未満 有意 0.1~0.001 微妙 0.1以上 有意でない

  28. ホモロジー検索プログラム FASTA  はじめに文字の良く一致する領域を高速に検索し,最終的には ギャップを入れた完全なアライメントを行う.   (利点) BLASTよりも精度が高い.   (欠点) BLASTよりも検索速度が遅い. BLAST  ギャップを入れない部分配列のアライメントを複数集めて評価する.   (利点) FASTAよりも検索速度が速い.   (欠点) FASTAよりも精度が若干低い(充分な精度). 満足できる結果が 得られない場合 BLASTでの検索 FASTAでの検索

  29. ホモロジー検索(BLAST) 問い合わせ配列: …EKAAFDMFDADGGGDISVKEL… 類似ワードのリスト MFD,MFE,MFN,MYD,MYE,MYN,LFD,… ワードの検索 問い合わせ配列: …EKAAFDMFDADGGGDISVKEL… データベース配列: …EKEAFSLFDKDGDGDISTKEL… 両側に伸長していく 高い類似性を与える部分配列の対 (HSP)の抽出

  30. ホモロジー検索(BLAST) http://www.genome.jp

  31. ホモロジー検索(BLAST) 配列をファイルから入力 配列を直接的に入力

  32. 入力する配列 例えば,実験で,以下の配列が分かったとする. この配列は何のタンパク質に似ているか? MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN データベースの中から,BLASTを使って,遺伝子を探す.

  33. ホモロジー検索(BLAST) 配列をファイルから入力 配列を直接的に入力 MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN nr-aaを選択

  34. BLASTの結果 bits E-value

  35. BLASTの結果 (アライメント) 問い合わせ配列とデータベースでヒットした配列とを並べたもの ヒットした配列名(アクセッション番号) prion(プリオン)と推測される.

  36. BLASTの結果 score E-value 問い合わせ配列 データベースでヒットした配列 相同性(同一アミノ酸残基の割合%) 類似性(類似アミノ酸残基の割合%)

  37. BLASTの結果 「大文字」は同一の配列 「+」はアミノ酸配列の性質が類似 「 」は類似していないもの

  38. BLAST(Basic Local Alignment Search Tool) BLASTのプログラムの一覧 問い合わせ配列 (クエリー) データベース (サブジェクト) プログラム名 BLASTN 塩基配列 塩基配列 BLASTP アミノ酸配列 アミノ酸配列 TBLASTN アミノ酸配列 塩基配列 BLASTX 塩基配列 アミノ酸配列

  39. FASTA形式(ファイルから入力する場合) ホモロジー検索で用いる配列の形式 >lysozyme1 KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS RWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDV QAWIRGCRL >lysozyme2 RTDCYGNVNRIDTTGASCKTAKPEGLSYCGVSASKKIAERDLQAMDRYKTIIKKVGEKLC VEPAVIAGIISRESHAGKVLKNGWGDRGNGFGLMQVDKRSHKPQGTWNGEVHITQGTTIL INFIKTIQKKFPSWTKDQQLKGGISAYNAGAGNVRSYARMDIGTTHDDYANDVVARAQYY KQHGY 一般に60文字で改行を入れる。 “>”の行はヘッダー。配列の区切りにもなっている。

  40. サンプル配列1 BLASTN, BLASTX テスト用 >seq1 ggcccgagtgggtgggggtgggggggcatccgggggcttagccctggaaccccagctcct tgtacttggcagcaatgtcattccggaacagctccagggccttcctcatggccgcctggg cgtcggcgccgaagtccccgggatgcttgctctgcaggacctggatgatggcttctgaga tgaactccaggtacttgacggggatcttgtgcttggtggcatgtgactgagccaggggct tcagctccgcctcgtgctgccccttcttcttgaggatgccccccagggcagtgaacaccg tgttgccatgcttcttcaggtcctcagaacccttcatctcgtcctctgacttcaggtgct tgaacttgtcgaacttctccagggtctcggggtggcccttgaagagcctgatgaggacct cctgcccatggcccgcgaggtcagcctctaccttcccccagacgttcagcaccaactgcc attccccgtcgctgagccccatggtgtggtctgaagaagacaaaaagagcaagtccgggc tgactcggtgtcctggctctgacagctggggtttgagatcgcctggccccaaagggattt tatactttccctgaagcttggcacagatcacttgacggcttgctcactctttctcctcct cctcctccctccctttcatgcggggtctaatcttttcctttctgtagctctcacatggaa gctattttggggcaggtgccattgtggggaggtaggac 塩基は小文字でも可。コード鎖でなく逆鎖でもよい。

  41. サンプル配列2 BLASTP, TBLASTN テスト用 >seq2 MKATLVLGSLIVGAVSAYKATTTRYYDGQEGACGCGSSSGAFPWQLGIGNGVYTAAGSQA LFDTAGASWCGAGCGKCYQLTSTGQAPCSSCGTGGAAGQSIIVMVTNLCPNNGNAQWCPV VGGTNQYGYSYHFDIMAQNEIFGDNVVVDFEPIACPGQAASDWGTCLCVGQQETDPTPVL GNDTGSTPPGSSPPATSSSPPSGGGQQTLYGQCGGAGWTGPTTCQAPGTCKVQNQWYSQC LP* “*”は終止コドン(翻訳されない)。 似た性質のアミノ酸や塩基の繰り返しは複雑性フィルターによって”X”や”n”でマスクされる。 フィルターを解除して全長をアライメントすることもできる。

  42. サンプル配列3 BLASTX テスト用 >seq3 ATGGCAAGCCTCCGAAAAACTCACCCGCTACTAAAAATCGCTAACGACGCACTAGTTGAC CTCCCTACCCCCTCTAATATCTCTGCATGATGAAACTTTGGCTCACTACTTGGCCTTTGC CTTATTTCTCAAATCCTTACAGGACTATTCCTCGCAATACACTATACCCCTGATGTCGAA コドン表が standard のままでは正しく翻訳できない場合がある。 上の例では Vertebrate Mitochondrial (2) が適切。 genome.jp の BLASTX ではコドン表の変更に未対応なので、必要に応じて NCBI (GenBank) 等のBLASTサービスを使う。 機能や生物種を推定する程度なら standard のままでもよい。

  43. アミノ酸配列からの特徴抽出(1)  機能の発現に対して、重要なアミノ酸配列は何か?  幾つかの配列において保存されているアミノ酸残基は、構造の安定性 や機能の維持に関与する重要なものである  2つ以上の配列間の類似関係を明らかにする  マルチプルアライメント

  44. アミノ酸配列からの特徴抽出(2) 例)マルチプルアライメント(セリンプロテアーゼ) THRB_HUMAN LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP THRB_BOVIN FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP THRB_MOUSE LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP THRB_RAT LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP LFC_TACTR SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYS FA9_RAT EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK-- FA9_RABIT QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK-- FA9_PIG QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEP- FA7_BOVIN NGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFER- FA7_MOUSE NSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDN- FA7_RABIT GASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDK- PRTC_HUMAN QEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDE- PRTC_RAT EELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLES- PRTC_MOUSE DELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEG- PSS8_HUMAN CGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS- : * ***. : *. :: *:::****. 配列の保存性から共通構造や、 進化的な関係(系統関係)を推測 することができる 完全に保存されたアミノ酸残基 “*” 保存性が高い列 “:” 保存性が低い列 “.”

  45. マルチプルアライメント(3) a-thrombin Autoprothrombin IIA βストランド構造 保存性が高い部分 βストランド構造 保存性が高い部分

  46. 配列解析が基本となる研究 ・ タンパク質の分類に関する研究     機能部位の配列の推定(モチーフ抽出)     タンパク質ファミリーと配列パターンとの関係(機能分類) ・ アミノ酸配列とタンパク質の構造との関係     アミノ酸配列からの二次構造予測     アミノ酸配列からの立体構造予測       ホモロジーモデリング法 (配列の相同性≧25%) 3D-1D法 ab initio法 ・ 進化的系統関係の研究     ゲノムの多様性     集団内における遺伝子の多様性

More Related