200 likes | 453 Views
RNA の研究が熱い!. そもそもどういう背景で細胞内に多数の RNA があることが判明したか 完全長 cDNA のゲノムへのマッピング FANTOM プロジェクト なぜ RNA が重要と考えられるのか miRNA 、アンチセンス RNA RNA の解析を進める上でどんな手法があるか 二次構造解析. RNA 二次構造予測 (2). 生命情報解析 200 7 年10月 25 日. RNA の二次構造の解析. RNA は一本鎖なので、折れ曲がって自分自身と結合を作りやすい 二次構造が機能と大きく関わっているため、機能を知る手がかりに?. 5’. 3’.
E N D
RNAの研究が熱い! • そもそもどういう背景で細胞内に多数のRNAがあることが判明したか • 完全長cDNAのゲノムへのマッピング • FANTOMプロジェクト • なぜRNAが重要と考えられるのか • miRNA、アンチセンスRNA • RNAの解析を進める上でどんな手法があるか • 二次構造解析
RNA二次構造予測(2) 生命情報解析 2007年10月25日
RNAの二次構造の解析 • RNAは一本鎖なので、折れ曲がって自分自身と結合を作りやすい • 二次構造が機能と大きく関わっているため、機能を知る手がかりに? 5’ 3’
二次構造の抽出 複数の配列を並べると… • 一次配列の保存性 … 配列パターン • 二次構造の保存性 … 配列パターンでは見えにくい場合がある (RNAの構造など)
RNA二次構造による塩基間相互作用 C C C C C C C C C C C C C C C C C C C C AT TA CG GC AT TA AT TA AT GC AT TA AT TA GC GC AT TA AT TA A G GC AT TA AT TA TA GC AT TA (e) (c) (d) (b) (a) (a) ATGCTACCCCTAGCTA (b) TAGATACCCCTATCTA (c) TAGGTACCCCTACCTA (d) TAGTTACCCCTAACTA (e) TAGATACCCCTAGCTA
結合エントロピー (1) • 2つの情報源から組み合わせとして得られる情報の情報量の期待値 • サイコロ1と2を考える • サイコロ1が”6”の目… -log1/6の情報量 • サイコロ2が”3”の目 …-log1/6の情報量 • 両方のサイコロを振ったとき、サイコロ1が”6”の目で、サイコロ2が”3”の目 … -log1/36の情報量
結合エントロピー (2) • サイコロ1(情報源X, 情報xiが出力される)とサイコロ2 (情報源Y, 情報yjが出力される)の目を組み合わせとして考える • サイコロ1の目がxiである確率をP(X=xi)、サイコロ2の目がyjである確率をP(Y=yj)とする (省略してP(xi)、 P(yj)と表す) • サイコロ1の目がxiのときにサイコロ2の目がyjである確率をP(X=xi, Y=yj)とする (省略してP(xi, yj)と表す) • サイコロ1の目のエントロピーH(X)は-∑iP(xi)log P(xi) • サイコロ2の目のエントロピーH(Y)は-∑jP(yj)log P(yj)
結合エントロピー (3) • 2つのサイコロを同時に振って、サイコロ1の目がxi、2の目がyjであることが分かったときに得られる情報量は、-log P(xi, yj) • 期待値を取って 但し、∑∑P(xi, yj) = 1, ∑iP(xi, yj) = P(yj), ∑jP(xi, yj) = P(xi)
結合エントロピーの計算 U V U V U V A C A C A G A G C G C G C T C T G T G T G A G A T A T A T C T C A A A C A G A T C A C C C G C T G A G C G G G T T A T C T G T T A C A C A C A C C G C G C G C G G T G T G T G T T A T A T A T A (a)のケースでは、 AAの頻度P(ua,va) = 1/16 ACの頻度P(ua,vc) = 1/16 : TTの頻度P(ut,vt) = 1/16 従って列UとVの結合エントロピーH(U, V)は、 -P(ua,va)log P(ua, va)-P(ua,vc)log P(ua,vc) - … -P(ut,vt)log P(ut, vt) = 4 (a) (b) (c)
結合エントロピーの性質 • H(U, V) = H(V, U) • 0 ≦ H(U, V) ≦ H(U) + H(V) • 列Uの塩基の出現と列Vの塩基の出現が互いに独立なら、 H(U,V) = H(U) + H(V)
相互情報量 (1) • 一方の情報源Xから情報を得たときに、他方の情報源Yのことがどれくらい分かるか • 一方の列Uの列が塩基uiと判明したとき、他方の列Vの列の塩基の種類に関する情報はどれくらい得られる?
相互情報量 (2) • 情報量の加法性より、 列Vの塩基がvjであることが判明したときに得られる情報量 = 列Uの塩基がuiであることが判明したときに得られる列Vに関する情報量 +その上でさらに列Vの塩基がvjであることが判明したときの情報量 • 式で表すと、-log P(vi) = I(vi//ui) + -log P(ui,vj)/P(ui) 従って、 I(vi//ui) = -log P(vi) --log P(ui,vj)/P(ui) = log P(ui,vj)/(P(ui)P(vi))
相互情報量 (3) • U, Vについて期待値を計算して、 列UとVの塩基間の関連性の強さを定量的にとらえている
相互情報量の性質 • I(U // V) = I(V // U) • I(U // V) ≧ 0 • I(U // V) = H(U) + H(V) – H(U, V)
相互情報量の計算 U V U V U V A C A C A G A G C G C G C T C T G T G T G A G A T A T A T C T C A A A C A G A T C A C C C G C T G A G C G G G T T A T C T G T T A C A C A C A C C G C G C G C G G T G T G T G T T A T A T A T A (a)のケースでは、 H(U)=2, H(V)=2, H(U,V)=4 従って、 I(U//V) = H(U)+H(V)-H(U,V) = 0 (a) (b) (c)
演習問題 U V A A A A A G A T C C C C C G C T 列U,Vにおける塩基間の相互情報量を求めよ。
tRNAの二次構造 GC GC AU GU CG GCGC 3’ A C C 5’ G A H G G A U U B UGCCC GCGGG G G U A A C C CUUG GAAU G U U C F G U A U A G U C CG CG UA GC CG G G D E C C U A C G U
C A B E F D G H 1 2 3 4 5 6 7 0123456789012345678901234567890123456789012345678901234567890123456789012345678 aspU -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCA aspV -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCA aspT -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCA ileV -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCA ileU -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCA ileT -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCA valV -GCGTTCATAGCTCAG-TTGGTTAGAGCACCACCTTGACATGGTGGGGGTCGTTGGTTCGAGTCCAATTGAACGCACCA valW -GCGTCCGTAGCTCAG-TTGGTTAGAGCACCACCTTGACATGGTGGGGGTCGGTGGTTCGAGTCCACTCGGACGCACCA alaU -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCA alaT -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCA alaV -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCA alaX -GGGGCTATAGCTCAG-CTGGG-AGAGCGCTTGCATGGCATGCAAGAGGTCAGCGGTTCGATCCCGCTTAGCTCCACCA alaW -GGGGCTATAGCTCAG-CTGGG-AGAGCGCTTGCATGGCATGCAAGAGGTCAGCGGTTCGATCCCGCTTAGCTCCACCA hisR GGTGGCTATAGCTCAG-TTGGT-AGAGCCCTGGATTGTGATTCCAGTTGTCGTGGGTTCGAATCCCATTAGCCACCCCA pheV -GCCCGGATAGCTCAG-TCGGT-AGAGCAGGGGATTGAAAATCCCCGTGTCCTTGGTTCGATTCCGAGTCCGGGCACCA pheU -GCCCGGATAGCTCAG-TCGGT-AGAGCAGGGGATTGAAAATCCCCGTGTCCTTGGTTCGATTCCGAGTCCGGGCACCA thrW -GCCGATATAGCTCAG-TTGGT-AGAGCAGCGCATTCGTAATGCGAAGGTCGTAGGTTCGACTCCTATTATCGGCACCA asnT -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCA asnW -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCA asnU -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCA asnV -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCA glyW TGCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCA glyV -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCA glyX -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCA glyY -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCA thrV -GCTGATATGGCTCAG-TTGGT-AGAGCGCACCCTTGGTAAGGGTGAGGTCCCCAGTTCGACTCTGGGTATCAGCACCA thrT -GCTGATATAGCTCAG-TTGGT-AGAGCGCACCCTTGGTAAGGGTGAGGTCGGCAGTTCGAATCTGCCTATCAGCACCA thrU -GCCGACTTAGCTCAG-TAGGT-AGAGCAACTGACTTGTAATCAGTAGGTCACCAGTTCGATTCCGGTAGTCGGCACCA metU -GGCTACGTAGCTCAG-TTGGTTAGAGCACATCACTCATAATGATGGGGTCACAGGTTCGAATCCCGTCGTAGCCACCA metT -GGCTACGTAGCTCAG-TTGGTTAGAGCACATCACTCATAATGATGGGGTCACAGGTTCGAATCCCGTCGTAGCCACCA lysT -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysW -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysY -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysZ -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysQ -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysV -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA ileY -GGCCCTTTAGCTCAG-TGGTT-AGAGCAGGCGACTCATAATCGCTTGGTCGCTGGTTCAAGTCCAGCAAGGGCCACCA ileX -GGCCCCTTAGCTCAG-TGGTT-AGAGCAGGCGACTCATAATCGCTTGGTCGCTGGTTCAAGTCCAGCAGGGGCCACCA valT -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCA valZ -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCA valU -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCA
C E G H A B D F
演習問題 を示せ。