1 / 80

Ch 11 . Assessing Pairwise Sequence Similarity: BLAST and FASTA

Ch 11 . Assessing Pairwise Sequence Similarity: BLAST and FASTA. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition . IDB Lab. Seoul National University. Contents. Introduction Global Versus Local Sequence Alignments Dotplots Scoring Matrices BLAST

kayla
Download Presentation

Ch 11 . Assessing Pairwise Sequence Similarity: BLAST and FASTA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ch11. Assessing Pairwise Sequence Similarity: BLAST and FASTA Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition IDB Lab. Seoul National University

  2. Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary

  3. Introduction • 서열 비교  단백질의 기능, 위치, 구조 예측 • Similarity and homology • Similarity: 두 서열이 얼마나 유사한가 • Homology: 서열 유사성 등으로부터 얻는 잠재적 결론(진화론적으로 관련이 있다/없다) • Ortholog: 공통의 유전자로부터 분화된 유전자들을 서로 다른 종들이 가지고 있는 경우 (e.g. – geneA , – geneA’) • Paralog: 어떤 유전자와 그것의 유전적 복제에 의해 생성된 유전자가 한 생물체 내에 공존하는 경우 (e.g. geneA’ –– geneA)

  4. Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary

  5. Global Versus Local Sequence Alignments(1/13) • Global vs. local sequence alignments • Global: 서열 전체 비교 – 길이가 거의 같고 비슷한 서열들에 대해 적용 • Local: 서열 부분 비교 – 서열들에서 유사한 부분들 찾음 (길이가 서로 달라도 비교 가능) • 대부분의 생물학자들이 local alignment를 사용

  6. Global Versus Local Sequence Alignments(2/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  7. Global Versus Local Sequence Alignments(3/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  8. Global Versus Local Sequence Alignments(4/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  9. Global Versus Local Sequence Alignments(5/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  10. Global Versus Local Sequence Alignments(6/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  11. Global Versus Local Sequence Alignments(7/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  12. Global Versus Local Sequence Alignments(8/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  13. Global Versus Local Sequence Alignments(9/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  14. Global Versus Local Sequence Alignments(10/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  15. Global Versus Local Sequence Alignments(11/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  16. Global Versus Local Sequence Alignments(12/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9

  17. Global Versus Local Sequence Alignments(13/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

  18. Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary

  19. Dotplots(1/4) • 두 서열들 간의 관계를 도표로 표현 • 부분 일치(정방향/역방향), 삽입, 삭제 등을 직관적으로 표현 • 어느 부분이 얼마나 유사한지 정확한 값을 알기 위해서는 다른 방법 필요

  20. Dotplots(2/4) • Comparison of HMGB1 with SOX-10 • Global alignment를 사용하면 이러한 관계 포착 불가능

  21. Dotplots(3/4) • Comparison of mucin with itself

  22. Dotplots(4/4) • Comparison of achaete-scute protein with itself

  23. Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary

  24. Scoring Matrices(1/10) • 서열 간의 유사성을 정량적으로 분석 • Scoring matrix를 구성할 때 고려할 사항들 • Conservation: conservative substitution 고려 • Frequency: 흔하지 않은 잔기에 높은 비중 둠 • Evolution: 진화론적 거리 고려

  25. Scoring Matrices(2/10) • PAM Matrices • 1978년 Dayhoff가 유사도 85% 이상인 단백질들을 대상으로 대체 패턴 조사 • “서열 A, B의 진화적 거리가 n PAM이다.” ≡ “A, B가 평균적으로 n% 차이가 난다.” (1 PAM = one change per 100 residues) • 진화적 거리가 n PAM인 서열들 간의 substitution matrix를 PAMn이라 함 (PAMn = (PAM1)n) ※ PAM scoring matrix: PAM 행렬에 log odds ratio(lod score; ☞ Box 11.1)를 적용한 행렬

  26. Scoring Matrices(3/10) • Example – PAM1

  27. Scoring Matrices(4/10) • PAM 행렬의 단점 • 다음과 같은 가정 하에 행렬 계산됨 • 변이들은 서로 독립 (실제로는 PAMn ≠ (PAM1)n) • 변이 확률은 어느 위치든 동일 (실제로는 단백질 구조와 관련) • 진화 경향은 불변 • 대체로 1978년 이전에 발견된 단백질들로부터 행렬 계산  작은 구상 단백질에 편향

  28. Scoring Matrices(5/10) • BLOSUM Matrices • 1992년 Henikoff가 여러 단백질들이 공통으로 가지고 있는 모티프들 조사, BLOCKS 데이터베이스 구축 • 단백질에서 변화가 적은 영역들만을 대상으로 대체 패턴 조사 • PAM 행렬보다 훨씬 정확 • BLOSUMn: 유사도가 n% 이하인 서열들을 대상으로 구축한 행렬

  29. Scoring Matrices(6/10) • Example – BLOSUM62 • 자주 일어나는 substitution일 수록 큰 값 부여 • 희귀한 아미노산일 수록 큰 값 부여

  30. Scoring Matrices(7/10) • Selecting an Appropriate Scoring Matrix • PAM250은 BLOSUM45와 동등 • PAM160은 BLOSUM62와 동등 • PAM120은 BLOSUM80과 동등

  31. Scoring Matrices(8/10) • Nucleotide Scoring Matrices(1/2) • A, T, G, C가 같은 비율로 존재한다고 가정 • 뉴클레오티드 기반 비교는 단백질 기반 비교에 비해 정확도가 떨어짐 Sequence1 GA P G M W L R L A A G S F E H A G * * * * * (28% 일치) Sequence2 D T P R I W E E F A G G W L H H G A Sequence1 GGTGCACCCGGTATGTGACTGCGATTAGCAGCGGGATCATTTCAGCATGCAGGG * * ***** **** **** ** *** **** ***** *** ** **** ** * (76% 일치) Sequence2 GATACACCCCGTATTTGACAGCAATTTGCAGGGGGATGATTGCACCATGGAGCG

  32. Scoring Matrices(9/10) • Nucleotide Scoring Matrices(2/2)

  33. Scoring Matrices(10/10) • Gaps and Gap Penalties • 아미노산 삽입과 삭제를 고려해 서열 비교 • 일반적으로 20 잔기 당 기껏해야 1개의 틈 발생 • Affine gap penalty • 틈 간격에 따라 유사도에 패널티 부과 • 패널티 = G + Ln (G:틈 생성 비용, L: 틈 확장 비용, n: 틈 길이) • 틈 허용함으로써 더 먼 homolog도 찾을 수 있음

  34. Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary

  35. BLAST(1/21) • 서열 간 비교를 빠르고 정확하게 수행 • Scoring matrix 이용

  36. BLAST(2/21) • Step1 – Seeding(1/4) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  37. BLAST(3/21) • Step1 – Seeding(2/4) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  38. BLAST(4/21) • Step1 – Seeding(3/4) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  39. BLAST(5/21) • Step1 – Seeding(4/4) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  40. BLAST(6/21) • Step2 – Extension(1/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  41. BLAST(7/21) • Step2 – Extension(2/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  42. BLAST(8/21) • Step2 – Extension(3/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  43. BLAST(9/21) • Step2 – Extension(4/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  44. BLAST(10/21) • Step2 – Extension(5/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  45. BLAST(11/21) • Step2 – Extension(6/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  46. BLAST(12/21) • Step2 – Extension(7/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  47. BLAST(13/21) • Step2 – Extension(8/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  48. BLAST(14/21) • Step2 – Extension(9/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  49. BLAST(15/21) • Step2 – Extension(10/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

  50. BLAST(16/21) • Step2 – Extension(11/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS

More Related