310 likes | 593 Views
生命情報解析 第2回 シグナル配列の統計解析. 慶應義塾大学先端生命科学研究所. 今日の話は …. 一本だけの配列では何も分からないけど … catgagctgatgctagtcgatgtgctag 複数の配列があれば何か見えてくる! catgagctgatgctagtcgatgtgctag tagctagtgatagtcagtagctatacga agcatgtgaatgctgtgatgctatgtcg catcgatcgtgaagtcagtcgtagtata. 核酸配列やアミノ酸配列中には様々なシグナルが存在する. 開始コドン、終止コドン
E N D
生命情報解析 第2回シグナル配列の統計解析 慶應義塾大学先端生命科学研究所
今日の話は… • 一本だけの配列では何も分からないけど… catgagctgatgctagtcgatgtgctag • 複数の配列があれば何か見えてくる! catgagctgatgctagtcgatgtgctag tagctagtgatagtcagtagctatacga agcatgtgaatgctgtgatgctatgtcg catcgatcgtgaagtcagtcgtagtata
核酸配列やアミノ酸配列中には様々なシグナルが存在する核酸配列やアミノ酸配列中には様々なシグナルが存在する • 開始コドン、終止コドン • 翻訳開始シグナル(SD, Kozak) • プロモータ配列 • タンパクのモチーフ
シグナル配列を見つけるには? 共通の生命現象に関わる配列を並べれば、シグナルが見えてくる!? 生体分子 塩基配列 アミノ酸配列 コンセンサス配列 … 共通配列、保存された配列
遺伝子発現のプロセス DNA ATG 転写 mRNA AUG 翻訳 タンパク質
P P P 境界領域に現れる塩基配列シグナル DNAに結合するタンパク質 RNAポリメラーゼ TATA 遺伝子 プロモーター 遺伝子の発現を制御する配列 リボソーム 開始コドン 3‘ 5‘ AUG Shine-Dalgarno配列
リボソーム Methionine fMet-tRNAf 16S rRNA AUUCCUCC mRNA AUG AGGAGG 開始コドン Shine-Dalgarno sequence 16S rRNAの3‘末端はShine-Dalgarno配列と 対合する
大腸菌開始コドン周辺の配列 同一の反応に関わる配列を並べれば、シグナルが見えてくる!? 上流配列 機能注釈 開始コドン コード領域 ttacagagtacacaacatcc atg aaacgcatta [thr operon leader peptide:thrL] aaggtaacgaggtaacaacc atg cgagtgttga [aspartokinase I] atggaagttaggagtctgac atg gttaaagttt [homoserine kinase:thrB] cacgagtactggaaaactaa atg aaactctaca [threonine synthase:thrC] aatgataaaaggagtaacct gtg aaaaagatgc [hypothetical protein:b0005] atttcctgcaaggactggat atg ctgattctta [hypothetical protein:yaaA] gtttaaagagaaatactatc atg acggacaaat [transaldolase B:talB] シグナル配列パターンが曖昧
へリックス・ループ・へリックスの例 1 50 YNP2_CAEEL_6-57 AKR..NARER TRVHTVNQAF .LVLKQHLPS .LR....... .......... Q9W7E6_51-103 KREMVNAKER LRIRNLNTMF .SRLKRMLPL MQ........ .......... O55208_60-112 RRRVANAKER ERIKNLNRGF .AKLKALVPF LP........ .......... ASH3_MOUSE_94-145 IRK.RNERER QRVKCVNEGY .ARLRRHLPE .D........ .......... O76488_77-138 ARR..NARER NRVKQVNDGF .NALRRHLPA .SVVAALS.. .......... AST5_DROME_27-91 IRR..NARER NRVKQVNNGF .SQLRQHIPA .AVIADLSN. .......... AST4_DROME_102-163 QRR..NARER NRVKQVNNSF .ARLRQHIPQ .SIITDLT.. .......... 51 93 YNP2_CAEEL_6-57 .......... .........Q FTKR.VSKLR ILNAAITYID TLL Q9W7E6_51-103 .......... .......... PDKK.PSKVD TLKAATEYIR LLL O55208_60-112 .......... .......... QSRK.PSKVD ILKGATEYIQ ILG ASH3_MOUSE_94-145 .......... .......... YLEKRLSKVE TLRAAIKYIS YLQ O76488_77-138 .......... ....GGARRG SGKK.LSKVD TLRMVVEYIR YLQ AST5_DROME_27-91 .......... ..GRRGIGPG ANKK.LSKVS TLKMAVEYIR RLQ AST4_DROME_102-163 .......... ....KGGGRG PHKK.ISKVD TLRIAVEYIR RLQ これも曖昧
シグナル配列の解析 • シグナル配列をどのように表現するか? • シグナル配列の強さ(保存性)をどのように測るか? • シグナル配列の有意性をどのように測るか? • シグナル配列をどのように発見するか?
塩基の偏りの程度はどのように測ればよいか?塩基の偏りの程度はどのように測ればよいか? • ある位置にはAしか出現しない … 1種類の塩基 • ある位置にはA,Cしか出現しない … 2種類の塩基 • ある位置にはA,C,G,Tが出現する … 4種類の塩基 種類数が偏りを表す指標になる?
情報の種類数が同じでも… • ある位置にAが10個、Gが10個 • 2種類 • ある位置にAが15個、Gが5個 • 2種類 両方とも同じでいいのか?
情報理論による種類数の定式化 • 種類数を情報量で表す • 種類数という概念の拡張が容易 • 情報理論的な解析・考察が可能 • 単位はビット
ビット(Bit)とは? http://en.wikipedia.org/wiki/Bit • ほとんどのデジタルコンピュータが扱うデータの最小単位。英語の binary digit (2進数字)の略であり、2進数の1桁のこと。 • 1ビットを用いて2通りの状態を表現できる。これらの2状態は一般に“0”、“1”と表記される。 • 1 Byte = 8 Bits
種類数と情報量の関係 • 1ビットで2種類の情報を表せる (ex. 0 = ‘A’, 1 = ‘C’) • 2ビットで4種類の情報を表せる (ex. 00 = ‘A’, 01 = ‘C’, 10 = ‘G’, 11 = ‘T’) • nビットで2nの情報を表すことができる • n種類の情報を表すのに必要なビット数はlog2n • 1Mバイトの画像とは… • 1M Byte = 1024 × 1024 × 8 Bits = 8,388,608 Bits • 28388608 = 4.26×102525222通りの可能な表現方法のうちの1つ
塩基の偏りの程度を情報量で表す • 2種類の塩基を表すには、1ビット必要 • 4種類の塩基を表すには、2ビット必要 • 塩基が1種類だけなら、ビットは不要 • n種類の塩基を表すにはlog2nビット必要 各々の塩基の頻度が均等にP存在するなら、P=1/nより -log2Pビット 必要となる
情報の種類数が同じでも…(2) • ある位置にAが10個、Gが10個 • 2種類 • 1 ビット • ある位置にAが15個、Gが5個 • 2種類 • 1ビット 両方とも同じでいいのか?
新たな情報量の概念の導入 • 情報量が多いと感じられるのはどっち? • 北海道に大雪 • 沖縄に大雪 • 対象となる事象が起こる確率Pが低いほど、起こったときに得られる情報量は大きい
情報量の定義ハートレイの情報量 生起確率Pの事象が起こったという通報があったとき、 得られる情報量は ゲノム上のある領域ではA,C,G,Tが均等に観測されることが 期待されるとき、その領域でAが観測されたときに得られる情報量は -log21/4 = 2 ビット
情報量の加法的性質 タンパク質上のアミノ酸が観測される確率は20アミノ酸について同率だと仮定する。 • Argだと判明したときに得られる情報量は、 -log 1/20 … (1) • 塩基性(Lys,Arg or His)だと判明したときに得られる情報量は、 -log 3/20 … (2) • 上の情報を持っている状態でさらにArgだと判明したときに得られる情報量は、 -log 1/3 … (3) • (1) = (2) + (3)が成立する。
期待値 • 確率変数の値とその生起確率の掛け算の総和を期待値という • サイコロの目の期待値は、 • 1枚200円の宝くじ、1000,000人に一人の割合で一千万円
情報量の期待値ーエントロピー 4つの事象の生起確率が P1,P2,P3,P4 なら、その情報量の期待値は、 -P1log2P1–P2log2P2–P3log2P3–P4log2P4 =-ΣPi log Pi 但しP1+P2+P3+P4=1
塩基の偏りの程度をエントロピーで測る 但しPiは塩基iの頻度(0≦ Pi≦1), 0log0 = 0と定義 • 0 ≦ H ≦ 2 • 塩基の偏りが強い → Hが0に近づく • 塩基の偏りが弱い → Hが2に近づく A,C,G,Tが1/4ずつなら H = 2 A,Cが1/2, C,Gが0なら H = 1 全てAなら H = 0
演習問題 Aが50%、C、Gが25%、Tが0%のときの エントロピーを求めよ。
シグナル配列が見られるところで、値が下がるというのは感覚に合わない?シグナル配列が見られるところで、値が下がるというのは感覚に合わない? • Schneider T et al. 1986はRseqを導入した Rseq = エントロピーの最大値 – 対象位置のエントロピー • 塩基の偏りが強い → Rseqが2に近づく • 塩基の偏りが弱い → Rseqが0に近づく • 不確定性の減少の度合い
最大エントロピーから対象位置のエントロピーを引くと…最大エントロピーから対象位置のエントロピーを引くと…
配列ロゴ http://www.lecb.ncifcrf.gov/~toms/gallery/ribo.logo.gif
配列ロゴの作成方法 • 合計の高さ = Rseq • 各塩基iの高さ = Pi・Rseq • どの塩基が保存されているのかを観察できる