1 / 90

2章:配列の収集と蓄積

2章:配列の収集と蓄積. D. Mount, Bioinformatics: sequence and genome analysis. 配列読み取り 方法の概要 ・ DNA( 短い配列) ・ゲノム(長い配列) ・ cDNA( 冗長性の ない配列). 配列データベースの概要 ・ 登録方法 ・書式(単一/複数配列) ・ 検索方法( ENTREZ). 概要. aagcgatcta gaaatgactc gaagaacacc ctatacctac. DNA 配列の読み取り. DNA 配列の増幅. DNA 配列の断片を増幅する.

alijah
Download Presentation

2章:配列の収集と蓄積

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2章:配列の収集と蓄積 D. Mount, Bioinformatics: sequence and genome analysis

  2. 配列読み取り 方法の概要 ・DNA(短い配列) ・ゲノム(長い配列) ・cDNA(冗長性の ない配列) 配列データベースの概要 ・登録方法 ・書式(単一/複数配列) ・検索方法(ENTREZ) 概要 aagcgatcta gaaatgactc gaagaacacc ctatacctac..

  3. DNA 配列の読み取り

  4. DNA 配列の増幅 • DNA 配列の断片を増幅する. • DNA 断片 1 つから配列情報を読み取るのは困難. • 増幅する方法 • 生物を利用した増幅 • プラスミド(原核生物細胞内にある環状の DNA) • ファージ(細菌に感染するウィルス) • ポリメラーゼ連鎖反応法(polymerase chain reaction (PCR) 法) • 高温: DNA 配列は一本鎖になろうとする. • 低温: DNA 配列は二本鎖になろうとする.

  5. T G A C A G Taq ポリメラーゼ 耐熱性の DNA 合成酵素. 細菌(Thermus aquaticus) から調製される A C T G T C オリゴヌクレオチドプライマー 新しい DNA 鎖の合成開始点となる 短い (10 から 40塩基の) DNA 一本鎖. dATP dTTP dGTP dCTP ポリメラーゼ連鎖反応法(1/2) DNA断片 デオキシリボヌクレオチド 三リン酸(dNTPs) 新たな DNA 鎖の原料.

  6. DNA断片 T G A C A G A C T G T C ポリメラーゼ連鎖反応法(2/2) 1. 95℃程度まで熱を 加えて, DNA 断片を 2 つにほどく. 2. 60℃までゆっくり 温度を下げることに よりプライマーと DNA を結合させる. 3. dNTPs と結合する ことにより 二本鎖 DNA が合成される. 4. 1 に戻る.

  7. dATP dTTP dGTP dCTP ddATP ddTTP ddGTP ddCTP DNA 配列の読み取り • サンガー法 • ポリメラーゼ連鎖反応法に基づく. • 一方の DNA 鎖に対するプライマーのみを用意する. • ジデオキシリボヌクレオチド三リン酸(ddNTPs)を用いる. • DNA 鎖の伸長を止める. • 配列読み取りのために蛍光標識がついている.

  8. DNA断片 T G A C A G A C T ddNTPs は隣とつながる 部分が欠けている. G T C 対応するプライマーがないので, 他方の DNA 鎖は合成されない. サンガー法(1/2) 1. 熱を加えて, DNA 断片を 2 つにほどく. 2. ゆっくり冷すことに よりプライマーと DNA を結合させる. 3. dNTPs と結合する ことにより 二本鎖 DNA が合成される. 3’. ddNTPs と結合する ことにより 二本鎖 DNA の伸長が停止する.

  9. 1. 熱を加えて, DNA 断片を 2 つにほどく. T G A C A G 2. ゆっくり冷すことに よりプライマーと DNA を結合させる. 3. dNTPs と結合する ことにより 二本鎖 DNA が合成される. 3’. ddNTPs と結合する ことにより 二本鎖 DNA の伸長が停止する. サンガー法(1/2) DNA断片 4. 1 に戻る.

  10. 電気泳動 重 軽 ddATP ddTTP ddGTP ddCTP サンガー法(2/2) 蛍光標識のついた配列

  11. 蛍光標識のついた配列 電気泳動 重 軽 ddATP ddTTP ddGTP ddCTP G T C A サンガー法(2/2)

  12. 読み取り プライマー 配列 相補 配列 配列の逐次読取り • 読み取り長:500 塩基対くらい(1回あたり) • より後ろの配列は読み取りの信頼性が落ちる. • プライマーを順番にずらしていく. • 相補配列も読み取る.

  13. ゲノム配列の読み取り

  14. 長い配列の増幅 • ポリメラーゼ連鎖反応法 • 長い配列×(5,000塩基対程度まで○) • 染色体の長さ: 4,800 万塩基対(21番染色体) • クローンコンティグ法 • 長い配列を複製するためのベクターを用いる. • YAC (Yeast Artificial Chromosome): 酵母人工染色体 • 60 万塩基対程度は○ • BAC (Bacterial Artificial Chromosome): バクテリア人工染色体 • 30 万塩基対程度は○

  15. YAC YAC によるクローニング 配列の断片 1. 制限酵素を用いて YAC に挿入できる 長さに切断する. 2. 増幅する配列を 挿入するために YAC を切断する. 3. 増幅する配列を 挿入してYAC を つなぎ直す. 4. この酵母を培養 することにより挿入 した配列が増幅 される.

  16. 染色体 小断片 BAC クローン YAC クローン 100万-200万塩基対 10万-20万塩基対 クローンコンティグ法 個々の小断片を配列決定する.

  17. 染色体 YAC クローン 重複部分が出来るように複数通り切断する. クローンコンティグ法

  18. 染色体 超音波によりランダムに切断する. 長さ 1600-2000塩基対の断片のみ配列を読み取る. 計算機により断片配列を結合させる. 配列ギャップ/物理的ギャップを埋める. ショットガン法

  19. ショットガン法 • インフルエンザ菌の配列を読み取ったことにより, 有用性が確認される. • 長さ 400万塩基対. • この後, ショットガン法は改良されている. • ショウジョウバエの配列読み取りに適用されている. • 様々な長さの配列を利用する. • 短い配列(2,000 塩基対) • 中程度の配列(10,000 塩基対) • 長い配列(100,000 塩基対)

  20. 発現遺伝子の cDNA ライブラリの読み取り

  21. 遺伝子 DNA エキソン イントロン 転写 RNA RNA スプライシング メッセンジャー RNA 翻訳 タンパク質 DNA とたんぱく質の関係

  22. 遺伝子 DNA エキソン イントロン 転写 RNA RNA スプライシング 逆転写 メッセンジャー RNA DNA とたんぱく質の関係 相補鎖 DNA (cDNA) 翻訳 タンパク質 タンパク質のコード化に必要な 部分だけを読み取ることができる. DNA 配列からタンパク質をコード化して いる部分を予測するよりも確実.

  23. 相補鎖 DNA ライブラリ • 相補鎖 DNA ライブラリの作成 • RT-PCR(逆転写-ポリメラーゼ連鎖反応法). • 1.逆転写酵素により, 対象 RNA の相補鎖 DNAを作る. • 2. その相補鎖 DNA をポリメラーゼ連鎖反応法により増幅させる. • タンパク質を表す配列の発見が容易になる. • 相補鎖 DNA にはイントロン(たんぱく質の生成に使われない部分)が含まれていないため.

  24. 相補鎖 DNA ライブラリの問題点 • 全ての遺伝子を均等に見ているわけではない. • 以下の部分が強調される. • メッセンジャー RNA を多く作る DNA • 現在の条件下で働いている DNA

  25. 発現配列タグ(ESTs) • 発現配列タグ(Expressed Sequence Tags) • 配列決定された相補対 DNA • ゲノム中の遺伝子を見つけるための標識になる. • 機能のわかっているタンパク質配列と EST との相同性を見つけることにより, 対応する相補対 DNA が得られる.

  26. データベースへの配列の提出

  27. 配列の提出先 • NCBI (National Center for Biotechnology Information) • GenBank (www.ncbi.nlm.nih.gov/Genbank/) • DDBJ (the DNA Databank of Japan) (www.ddbj.nig.ac.jp/) • EMBL (European Molecular Biology Laboratory) • EBML Nucleotide Sequence Database (www.ebi.ac.uk/embl/)

  28. 配列の手軽な提出方法 • BankIt (www.ncbi.nlm.nih.gov/BankIt/) • web ブラウザを通して配列を提出できる. • mRNA の開始/コード領域などの情報を付与できる. • GenBank の書式に変換されたデータが登録希望者に返される. • Sequin (www.ncbi.nlm.nih.gov/Sequin/) • Authorin の改良版. • UNIX/Macintosh/Windows 上で動作し, グラフィカルユーザインターフェイスを持つプログラム. • ゲノム配列などの長いデータを扱える.

  29. 配列の正確さ

  30. 登録されている配列中の誤り • データベースに登録されている配列は必ずしも正しくない. • 正確な読み取りには, 時間と費用が掛かる. • 登録されている配列の殆どは論文になっていない. • 査読による誤りの修正がされていない.

  31. プロリン イソロイシン グリシン フレームシフト AUACCCGGCUU… アルギニン ロイシン 誤りの度合 誤りの度合 注 大規模解析計画 (ヒトゲノム計画) での読み取り 10,000 塩基 対に1つの 誤り 配列比較,パターン探索, 翻訳(アミノ酸配列への 変換)に十分な精度. 進化解析には不十分な精度 (翻訳したアミノ酸配列を 用いるため). 発現配列タグ (EST) での 読み取り 100 塩基対 に1つの誤り

  32. 配列情報の蓄積

  33. 配列ファイルの扱い方 • 配列のデータファイルには, 配列に関する記号以外が入らないようにする. • テキストエディターなどで変な文字(制御文字(改行など))を加えたり除いたりしない. • 解析プログラムが正しく作動しない可能性がある.

  34. 塩基を表す記号 記号 意味 記号の由来 G G グアニン (Guanine) A A アデニン (Adenine) T T チミン (Thymine) C C チトシン (Cytosine) R A またはG プリン (puRine) Y C またはT ピリミジン (pYrimidine) M A またはC アミノ基 (aMino) K G またはT ケト基 (Keto) S C またはG 強い(Strong)3本の水素結合 W A またはT 弱い(Weak)2本の水素結合 H G 以外(A,C,T のいずれか)H はG の次だから B A 以外(C,G,T のいずれか)B はA の次だから V T(U)以外(A,C,G のいずれか)V はU の次だから D C 以外(A,G,T のいずれか)D はC の次だから N A,C,G,T のいずれか 任意

  35. NH2 NH2 A(アデニン) C(シトシン) C N C N CH C N HC C CH CH C N N N O G(グアニン) O O CH3 T(チミン) C N C HN C C N HC C CH C C N N N NH2 O プリンとピリミジン

  36. NH2 NH2 C N C N CH C N C CH CH C N N N O O O CH3 C N C HN C C N HC C CH C C N N N NH2 O アミノ基とケト基 A(アデニン) C(シトシン) HC G(グアニン) T(チミン)

  37. 水素結合 C G T A

  38. アミノ酸を表す文字(1/2) 3文字 アミノ酸 1文字 A Ala アラニン (alanine) C Cys システイン (cysteine) D Asp アスパラギン酸 (aspartic acid) E Glu グルタミン酸 (glutamic acid) F Phe フェニルアラニン (phenylalanine) G Gly グリシン (glycine) H His ヒスチジン (histidine) I Ile イソロイシン (isoleucine) K Lys リジン (Lysine) L Leu ロイシン (leucine) M Met メチオニン (methionine)

  39. アミノ酸を表す文字(2/2) 1文字 3文字 アミノ酸 N Asn アスパラギン酸 (asparagine) P Pro プロリン (proline) Q Gln グルタミン酸 (glutamic acid) R Arg アルギニン (arginine) S Ser セリン (serine) T Thr スレオニン (threonine) V Val バリン (valine) W Trp トリプトファン (tryptophan) X Xxx 未決定のアミノ酸 Y Tyr チロシン (leucine) Z Glx グルタミン酸 (glutamic acid) または            グルタミン (glutamine) Zは終止コドン(メッセンジャー RNA が翻訳を終える 位置を表す塩基の 3 つ組)を表すこともある.

  40. 配列の書式

  41. 配列の書式 • 各データベース/ソフトウェアは個別の書式をデータを用いている. • GenBank • EMBL • SwissProt • FASTA • NBRF/PIR • Stanford Univ./Intelligenetics • GCG • Plain/ASCII.Staden

  42. GenBank 書式の例(1/3) 長さ 配列の種類 LOCUS BD003039 103 bp DNA linear PAT 31-JAN-2002 DEFINITION Design, cloning and expression of humanized monoclonal antibodies against human interleukin-5. ACCESSION BD003039 VERSION BD003039.1 GI:18631000 KEYWORDS JP 2000210097-A/40. SOURCE unidentified. ORGANISM unidentified unclassified. REFERENCE 1 (bases 1 to 103) AUTHORS Chou,C.C., Murgolo,N.J., Abrams,J.S., Jenh,C.H., Petro,M.E., Silver,J.E., Tindall,S., Windsor,W.T. and Zavod,P.J. TITLE Design, cloning and expression of humanized monoclonal antibodies against human interleukin-5 JOURNAL Patent: JP 2000210097-A 40 02-AUG-2000; SCHERING CORP 項目の説明 登録番号 相互参照のためのキーワード 生物名

  43. GenBank 書式の例(2/3) コメント COMMENT OS Unidentified PN JP 2000210097-A/40 PD 02-AUG-2000 PF 11-NOV-1999 JP 1999321698 PR 06-FEB-1992 US 832842 PI CHUAN CHU CHOU,NICHOLAS J MURGOLO,JOHN S ABRAMS, CHUNG HER JENH, PI MARY E PETRO,JON E SILVER,STEPHEN TINDALL, PI WILLIAM T WINDSOR,PAUL J ZAVODNY PC C12P21/08,C07K16/24,C12N5/10,C12N15/02,C12N15/09//(C12P21/08, PC C12R1:91), PC C12N5/00,C12N15/00,C12N15/00 CC Strandedness: Single; CC Topology: Linear; FH Key Location/Qualifiers FT source 1..103 FT /organism='Unidentified'.

  44. GenBank 書式の例(3/3) 配列に関する情報 FEATURES Location/Qualifiers source 1..103 /organism="unidentified" /db_xref="taxon:32644" BASE COUNT 33 a 22 c 23 g 25 t ORIGIN 1 aagcgatcta gaaatgactc gaagaacacc ctatacctac agatgaacgg tctgcaagct 61 gaagtaagtg caatctactt ctgtgctcgt gagtactatg gat // 配列の長さ a,c,g,t 各塩基の総数 塩基配列 配列の終わり

  45. EBML データライブラリの書式 • EBML: European Molecular Biology Laboratory

  46. EBML 書式の例(1/4) データベースのID 番号 ID BD003039 standard; DNA; UNC; 103 BP. XX AC BD003039; XX SV BD003039.1 XX DT 08-FEB-2002 (Rel. 70, Created) DT 08-FEB-2002 (Rel. 70, Last updated, Version 1) XX DE Design, cloning and expression of humanized monoclonal antibodies against DE human interleukin-5. XX KW JP 2000210097-A/40. XX OS unidentified OC unclassified. XX 登録番号 登録日 修正日 相互参照のためのキーワード 生物名

  47. EBML 書式の例(2/4) RN [1] RP 1-103 RA Chou C.C., Murgolo N.J., Abrams J.S., Jenh C.H., Petro M.E., Silver J.E., RA Tindall S., Windsor W.T., Zavod P.J.; RT "Design, cloning and expression of humanized monoclonal antibodies against RT human interleukin-5"; RL Patent number JP2000210097-A/40, 02-AUG-2000. RL SCHERING CORP. XX CC OS Unidentified CC PN JP 2000210097-A/40 CC PD 02-AUG-2000 CC PF 11-NOV-1999 JP 1999321698 CC PR 06-FEB-1992 US 832842 関連文献に関する情報 生物的機能に関する情報(コメント)

  48. EBML 書式の例(3/4) CC PI CHUAN CHU CHOU,NICHOLAS J MURGOLO,JOHN S ABRAMS, CC CHUNG HER JENH, CC PI MARY E PETRO,JON E SILVER,STEPHEN TINDALL, CC PI WILLIAM T WINDSOR, PAUL J ZAVODNY CC PC C12P21/08,C07K16/24,C12N5/10,C12N15/02,C12N15/09//(C12P21/08, CC PC C12R1:91), CC PC C12N5/00,C12N15/00,C12N15/00 CC CC Strandedness: Single; CC CC Topology: Linear; CC FH Key Location/Qualifiers CC FT source 1..103 CC FT /organism="Unidentified" XX FH Key Location/Qualifiers FH 生物的機能に関する情報(コメント) 配列に関する情報

  49. EBML 書式の例(4/4) FT source 1..103 FT /db_xref="taxon:32644" FT /organism="unidentified" XX SQ Sequence 103 BP; 33 A; 22 C; 23 G; 25 T; 0 other; aagcgatcta gaaatgactc gaagaacacc ctatacctac agatgaacgg tctgcaagct 60 gaagtaagtg caatctactt ctgtgctcgt gagtactatg gat 103 // 配列に関する情報 配列の長さ 塩基の数 塩基配列 配列の終わり

  50. DDBJ データライブラリの書式 • DNA DataBank of Japan • GenBank の書式とほぼ同じ.

More Related