160 likes | 280 Views
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観. 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. バイオインフォマティクス(1). 生物学+情報技術( IT) 1990年代に大きく発展 ← ゲノム計画の急速な進展 (既に100種類以上の生物種のゲノムが決定) 情報解析の必要性 DNA 配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要 立体構造、遺伝子発現データ、代謝パスウェイなど.
E N D
集中講義(東京大学)「化学システム工学特論第3」バイオインフォマティクス的手法による化合物の性質予測(1)バイオインフォマティクス概観集中講義(東京大学)「化学システム工学特論第3」バイオインフォマティクス的手法による化合物の性質予測(1)バイオインフォマティクス概観 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
バイオインフォマティクス(1) • 生物学+情報技術(IT) • 1990年代に大きく発展 ← ゲノム計画の急速な進展 (既に100種類以上の生物種のゲノムが決定) • 情報解析の必要性 • DNA配列⇔プログラムのオブジェクトコード • 意味の解析が必要 • 配列以外のデータ解析も重要 • 立体構造、遺伝子発現データ、代謝パスウェイなど
バイオインフォマティクス(2) • 主要トピック • データベース構築 • 遺伝子発見、遺伝子制御領域推定 • 配列検索、配列比較、進化系統樹 • タンパク質構造予測、機能予測、相互作用予測 • 遺伝子発現データ解析 • ネットワーク構造解析 • 化合物の性質推定 • 分野としての特徴 • 多くのデータベース・ソフトウェアがWEBなどから利用可能 • 研究成果が(生物学研究への)応用に直結
バイオインフォマティクスにおけるデータベースバイオインフォマティクスにおけるデータベース • 多くの重要なデータベースが無償でWEBからアクセス可能 • DNA配列: GenBank, EMBL, DDBJ • タンパク質配列: Swissprot • タンパク質立体構造: PDB • モチーフ: Prosite, Pfam, … • 代謝パスウェイ: KEGG
バイオインフォマティクスセンター Bioinformatics Center • 京都大学 化学研究所 附属 • 2001年4月設立 • 現在、4研究室 • 金久研: KEGG • 馬見塚研: データマイニング • 阿久津研: アルゴリズム • 人材養成ユニット(藤研): 分子進化
KEGG: Kyoto Encyclopedia of Genes and Genomes • 金久研が開発しているデータベース • 様々な生物情報データを格納 • 代謝パスウェイ • 化合物、代謝反応式 • ゲノム配列 • 遺伝子発現データ • DBGET (統合データベースシステム) • GenBnak, PDB, SwissProt, …
研究室の研究内容 • 研究方針 • 数理的原理に基づく生命情報解析手法の開発 • 生命システムの数理的理解 • 研究トピック • 相互作用推定 • タンパク質―タンパク質、遺伝子―遺伝子など • スケールフリーネットワーク • 配列解析(文字列解析)アルゴリズム • タンパク質立体構造解析(比較・予測) • 化学情報解析(ケモインフォマティクス) • 生物データ解析のための統計的手法 • HMM、サポートベクタマシン
遺伝子と蛋白質 • 遺伝情報の流れ • DNA⇒RNA⇒タンパク • 遺伝子 • DNA配列中で直接的に 機能する部分 • ゲノム • 染色体全体(半数体) • 遺伝情報の総体 • タンパク質 • アミノ酸(20種類)の鎖
DNAとアミノ酸 • DNAはA,C,G,Tの4文字の並び • DNAは二重ラセン構造⇒相補鎖 • 塩基:DNA1文字、 残基:アミノ酸1文字 • DNA3文字がアミノ酸1文字に対応 (アミノ酸は20種類)
アミノ酸と蛋白質 • アミノ酸:20種類 • 蛋白質:アミノ酸の鎖(短いものはペプチドと呼ばれる)
計算量 • 情報科学では、入力データのサイズ(n)に対して、計算時間がどのように変化するかを理論的に解明することが重要 • O(n): かなり速い(文字列検索など) • O(n log n): 結構速い(ソートなど) • O(n2): まあまあ速い(アライメントなど) • O(n3): ちょっと遅い(RNA二次構造予測など) • O(n4): 結構遅い(Pseudo-knotつきRNA二次構造予測など) • NP困難: すごく遅い (マルチプルアライメント、スレッディングなど) • P=NPは理論計算機科学における最大の難問 • P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム(多項式時間アルゴリズム)は存在しない • しかし、タンパク質配列などは n ≦ 1000くらいなので、実用アルゴリズムを開発できる可能性はある
講義内容 • スケールフリーネットワーク • 配列アライメント • タンパク質立体構造予測 • 遺伝子発現データ解析 • タンパク質-リガンド・ドッキング • カーネル法を用いた化合物の性質予測 • おわりに+21世紀COE「ゲノム科学の知的情報基盤・研究拠点形成」