集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

バイオインフォマティクス（１） • 生物学＋情報技術（IT） • １９９０年代に大きく発展　　　←　ゲノム計画の急速な進展（既に１００種類以上の生物種のゲノムが決定） • 情報解析の必要性 • DNA配列⇔プログラムのオブジェクトコード • 意味の解析が必要 • 配列以外のデータ解析も重要 • 立体構造、遺伝子発現データ、代謝パスウェイなど

バイオインフォマティクス（２） • 主要トピック • データベース構築 • 遺伝子発見、遺伝子制御領域推定 • 配列検索、配列比較、進化系統樹 • タンパク質構造予測、機能予測、相互作用予測 • 遺伝子発現データ解析 • ネットワーク構造解析 • 化合物の性質推定 • 分野としての特徴 • 多くのデータベース・ソフトウェアがWEBなどから利用可能 • 研究成果が（生物学研究への）応用に直結

バイオインフォマティクスにおけるデータベースバイオインフォマティクスにおけるデータベース • 多くの重要なデータベースが無償でWEBからアクセス可能 • DNA配列：　GenBank, EMBL, DDBJ • タンパク質配列：　Swissprot • タンパク質立体構造： PDB • モチーフ： Prosite, Pfam, … • 代謝パスウェイ： KEGG

バイオインフォマティクスセンター Bioinformatics Center • 京都大学　化学研究所　附属 • 2001年4月設立 • 現在、４研究室 • 金久研: KEGG • 馬見塚研: データマイニング • 阿久津研: アルゴリズム • 人材養成ユニット（藤研）:　分子進化

KEGG: Kyoto Encyclopedia of Genes and Genomes • 金久研が開発しているデータベース • 様々な生物情報データを格納 • 代謝パスウェイ • 化合物、代謝反応式 • ゲノム配列 • 遺伝子発現データ • DBGET (統合データベースシステム) • GenBnak, PDB, SwissProt, …

KEGG:Top page

KEGG中の代謝パスウェイの例

KEGG/LIGAND中の代謝反応式の例

研究室の研究内容 • 研究方針 • 数理的原理に基づく生命情報解析手法の開発 • 生命システムの数理的理解 • 研究トピック • 相互作用推定 • タンパク質―タンパク質、遺伝子―遺伝子など • スケールフリーネットワーク • 配列解析（文字列解析）アルゴリズム • タンパク質立体構造解析（比較・予測） • 化学情報解析（ケモインフォマティクス） • 生物データ解析のための統計的手法 • HMM、サポートベクタマシン

遺伝子と蛋白質 • 遺伝情報の流れ • DNA⇒RNA⇒タンパク • 遺伝子 • DNA配列中で直接的に　機能する部分 • ゲノム • 染色体全体（半数体） • 遺伝情報の総体 • タンパク質 • アミノ酸（２０種類）の鎖

DNAとアミノ酸 • DNAはA,C,G,Tの４文字の並び • DNAは二重ラセン構造⇒相補鎖 • 塩基：DNA１文字、　残基：アミノ酸１文字 • DNA３文字がアミノ酸１文字に対応　（アミノ酸は２０種類）

アミノ酸と蛋白質 • アミノ酸：２０種類 • 蛋白質：アミノ酸の鎖（短いものはペプチドと呼ばれる）

側鎖の例

計算量 • 情報科学では、入力データのサイズ(n)に対して、計算時間がどのように変化するかを理論的に解明することが重要 • O(n): かなり速い（文字列検索など） • O(n log n): 結構速い（ソートなど） • O(n2): まあまあ速い（アライメントなど） • O(n3): ちょっと遅い（RNA二次構造予測など） • O(n4): 結構遅い（Pseudo-knotつきRNA二次構造予測など） • NP困難：すごく遅い（マルチプルアライメント、スレッディングなど) • P=NPは理論計算機科学における最大の難問 • P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム（多項式時間アルゴリズム）は存在しない • しかし、タンパク質配列などは n ≦ 1000くらいなので、実用アルゴリズムを開発できる可能性はある

講義内容 • スケールフリーネットワーク • 配列アライメント • タンパク質立体構造予測 • 遺伝子発現データ解析 • タンパク質-リガンド・ドッキング • カーネル法を用いた化合物の性質予測 • おわりに＋２１世紀COE「ゲノム科学の知的情報基盤・研究拠点形成」

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観