1 / 16

集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観. 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. バイオインフォマティクス(1). 生物学+情報技術( IT) 1990年代に大きく発展    ← ゲノム計画の急速な進展 (既に100種類以上の生物種のゲノムが決定) 情報解析の必要性 DNA 配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要 立体構造、遺伝子発現データ、代謝パスウェイなど.

Download Presentation

集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 集中講義(東京大学)「化学システム工学特論第3」バイオインフォマティクス的手法による化合物の性質予測(1)バイオインフォマティクス概観集中講義(東京大学)「化学システム工学特論第3」バイオインフォマティクス的手法による化合物の性質予測(1)バイオインフォマティクス概観 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

  2. バイオインフォマティクス(1) • 生物学+情報技術(IT) • 1990年代に大きく発展    ← ゲノム計画の急速な進展 (既に100種類以上の生物種のゲノムが決定) • 情報解析の必要性 • DNA配列⇔プログラムのオブジェクトコード • 意味の解析が必要 • 配列以外のデータ解析も重要 • 立体構造、遺伝子発現データ、代謝パスウェイなど

  3. バイオインフォマティクス(2) • 主要トピック • データベース構築 • 遺伝子発見、遺伝子制御領域推定 • 配列検索、配列比較、進化系統樹 • タンパク質構造予測、機能予測、相互作用予測 • 遺伝子発現データ解析 • ネットワーク構造解析 • 化合物の性質推定 • 分野としての特徴 • 多くのデータベース・ソフトウェアがWEBなどから利用可能 • 研究成果が(生物学研究への)応用に直結

  4. バイオインフォマティクスにおけるデータベースバイオインフォマティクスにおけるデータベース • 多くの重要なデータベースが無償でWEBからアクセス可能 • DNA配列: GenBank, EMBL, DDBJ • タンパク質配列: Swissprot • タンパク質立体構造: PDB • モチーフ: Prosite, Pfam, … • 代謝パスウェイ: KEGG

  5. バイオインフォマティクスセンター Bioinformatics Center • 京都大学 化学研究所 附属 • 2001年4月設立 • 現在、4研究室 • 金久研: KEGG • 馬見塚研: データマイニング • 阿久津研: アルゴリズム • 人材養成ユニット(藤研): 分子進化

  6. KEGG: Kyoto Encyclopedia of Genes and Genomes • 金久研が開発しているデータベース • 様々な生物情報データを格納 • 代謝パスウェイ • 化合物、代謝反応式 • ゲノム配列 • 遺伝子発現データ • DBGET (統合データベースシステム) • GenBnak, PDB, SwissProt, …

  7. KEGG:Top page

  8. KEGG中の代謝パスウェイの例

  9. KEGG/LIGAND中の代謝反応式の例

  10. 研究室の研究内容 • 研究方針 • 数理的原理に基づく生命情報解析手法の開発 • 生命システムの数理的理解 • 研究トピック • 相互作用推定 • タンパク質―タンパク質、遺伝子―遺伝子など • スケールフリーネットワーク • 配列解析(文字列解析)アルゴリズム • タンパク質立体構造解析(比較・予測) • 化学情報解析(ケモインフォマティクス) • 生物データ解析のための統計的手法 • HMM、サポートベクタマシン

  11. 遺伝子と蛋白質 • 遺伝情報の流れ • DNA⇒RNA⇒タンパク • 遺伝子 • DNA配列中で直接的に 機能する部分 • ゲノム • 染色体全体(半数体) • 遺伝情報の総体 • タンパク質 • アミノ酸(20種類)の鎖

  12. DNAとアミノ酸 • DNAはA,C,G,Tの4文字の並び • DNAは二重ラセン構造⇒相補鎖 • 塩基:DNA1文字、 残基:アミノ酸1文字 • DNA3文字がアミノ酸1文字に対応  (アミノ酸は20種類)

  13. アミノ酸と蛋白質 • アミノ酸:20種類 • 蛋白質:アミノ酸の鎖(短いものはペプチドと呼ばれる)

  14. 側鎖の例

  15. 計算量 • 情報科学では、入力データのサイズ(n)に対して、計算時間がどのように変化するかを理論的に解明することが重要 • O(n): かなり速い(文字列検索など) • O(n log n): 結構速い(ソートなど) • O(n2): まあまあ速い(アライメントなど) • O(n3): ちょっと遅い(RNA二次構造予測など) • O(n4): 結構遅い(Pseudo-knotつきRNA二次構造予測など) • NP困難: すごく遅い (マルチプルアライメント、スレッディングなど) • P=NPは理論計算機科学における最大の難問 • P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム(多項式時間アルゴリズム)は存在しない • しかし、タンパク質配列などは n ≦ 1000くらいなので、実用アルゴリズムを開発できる可能性はある

  16. 講義内容 • スケールフリーネットワーク • 配列アライメント • タンパク質立体構造予測 • 遺伝子発現データ解析 • タンパク質-リガンド・ドッキング • カーネル法を用いた化合物の性質予測 • おわりに+21世紀COE「ゲノム科学の知的情報基盤・研究拠点形成」

More Related