1 / 29

ゲノムネットについて

ゲノムネットについて. 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二. ゲノムデータ. 主に分子生物学の実験の結果得られるデータ。 世界各国で集積・配付されている。. 核酸配列情報   GATC … タンパク質配列情報   SER ALA PRO … タンパク質立体構造情報 遺伝病などの疾病に関する情報 文献情報. …. 実験技術の進歩とともに データの産出速度が加速. 指数的に増え続けるゲノムデータ. ゲノムデータの例( GenBank のエントリ).

kaili
Download Presentation

ゲノムネットについて

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ゲノムネットについて 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

  2. ゲノムデータ 主に分子生物学の実験の結果得られるデータ。 世界各国で集積・配付されている。 • 核酸配列情報  GATC… • タンパク質配列情報  SER ALA PRO … • タンパク質立体構造情報 • 遺伝病などの疾病に関する情報 • 文献情報 … 実験技術の進歩とともに データの産出速度が加速

  3. 指数的に増え続けるゲノムデータ

  4. ゲノムデータの例(GenBankのエントリ) LOCUS EBOMAY 157 bp ss-RNA VRL 15-SEP-1990 DEFINITION Ebola virus 3' proximal protein gene, 5' end. ACCESSION M33062 NID g323684 KEYWORDS . SOURCE Ebola virus (strain MAY; Zaire 1976) RNA. ORGANISM Ebola virus Viruses; ssRNA negative-strand viruses; Mononegavirales; Filoviridae; Filovirus. REFERENCE 1 (bases 1 to 157) AUTHORS Kiley,M.P., Wilusz,J., McCormick,J.B. and Keene,J.D. TITLE Conservation of the 3' terminal nucleotide sequences of Ebola and Marburg virus JOURNAL Virology 149, 251-254 (1986) MEDLINE 86124724 FEATURES Location/Qualifiers source 1..157 /organism="Ebola virus" /db_xref="taxon:11268" CDS 53..>157 /note="3'proximal protein" /codon_start=1 /db_xref="PID:g323685" /translation="MRKINNFLSLKFDDRNLKLKLLICNHTVDSEPHTS" BASE COUNT 56 a 22 c 31 g 48 t ORIGIN 1 gggcacacaa aaagaaagaa gaatttttag gatcttttgt gtgcgaataa ctatgaggaa 61 gattaataat ttcctctcat tgaaatttga tgatcggaat ttgaaattga aattgttgat 121 ctgtaatcac accgttgatt cagagccaca cacaagt //

  5. ゲノムデータの量(エントリ数) Date Database Release #Entries #Residues ------ ------------- -------------------- ---------- ------------ 98/9/22 genbank 108.0 (Aug 98) 2,532,359 1,797,137,713 98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601 98/8/25 embl 55 (Jun 98) 2,131,533 1,434,776,497 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813 98/8/25 swissprot 36.0 (Jul 98) 74,019 26,840,295 98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820 98/8/25 pir 57.0 (Jun 98) 109,075 34,838,376 98/9/18 prf 98-09 (Sep 98) 108,435 39,113,650 98/8/25 pdb 84.0 (Apr 98) 7,533 2,644,523 98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475 98/8/25 pdbstr 84.0 (Apr 98) 12,420 2,617,704 98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113 98/8/25 epd 50.0 (Apr 97) 1,308 784,800 98/8/25 transfac 3.4 (May 98) 7,321 98/8/25 prosite 15.0 (Jul 98) 1,352 98/8/25 prosdoc 15.0 (Jul 98) 1,014 98/8/27 blocks 10.0 (Feb 98) 3,845 98/8/25 prints 18.0 (May 98) 865 98/8/25 prodom 34.2 (Nov 97) 53,597 6,756,724 98/8/25 pmd 96-05 (May 96) 7,078 98/9/8 aaindex 3.0 (Sep 98) 500 98/9/9 litdb 24-16 (Aug 20) 298,878 98/10/27 omim MIM10+/10-27 (Oct 98) 10,116 98/10/28 genes 8.0+/10-28 (Oct 98) 76,891 70,793,382 98/10/27 ligand 18.0+/10-26 (Oct 98) 9,291 98/10/28 pathway 8.0+/10-28 (Oct 98) 2,092 98/8/27 brite 0.5 (May 98) 87 98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 プロモータ配列 転写因子 アミノ酸配列の モチーフ(パタ ーン辞書) 変異タンパク(ミュータント) アミノ酸の各種指標 文献データ(PRFから生成) 遺伝病 遺伝子百科 事典(KEGG) 上記データ全ての参照関係 -upd がついているものは、毎日更新される追加分。その他は定期/不定期に更新。

  6. ゲノムネット(GenomeNet) JAISTのミラーサーバ 京大化研 スパコンラボ(SCL) 東大医科研 ヒトゲノム解析センター(HGC)

  7. ゲノムネットのサービス • ftpミラーリング(最新のゲノムデータのコピーを持つ) • DBGET(キーワード検索/エントリ取得) • LinkDB(関連したエントリを辿る) • ホモロジーサーチ(類似した配列の検索) • 他の配列解析ツール(PSORT etc.) • 日本独自のゲノムデータを公開(BSORF, MBGD, etc.) • 遺伝子百科事典(KEGG )

  8. ゲノムネットのWWWサーバ http://www.genome.ad.jp/

  9. DBGET

  10. DBGETを使ってGenBankを検索

  11. 検索結果のリスト

  12. リストに挙がっているエントリを表示

  13. LinkDB

  14. LinkDB

  15. ホモロジー検索(BLAST)

  16. BLASTの実行結果

  17. これらのサービスは相互呼び出しを行っておりこれらのサービスは相互呼び出しを行っており ゲノムネット上でサービスされている(可視化 機能を提供する PDB highlight から入れる) タンパク質の立体構造検索・解析・および 知識発見を統合したシステム WebPACADE 類似部分構造検索機能(PACADE) http://pacade.genome.ad.jp/pacade.html 可視化機能(PDB highlight) http://pacade.genome.ad.jp/pdb_highlight.html 簡易データマイニング機能 http://pacade.genome.ad.jp/cgi-bin/mining_form.pl

  18. システムの構成と動作 WebPACADE PACADE PDB highlight data mining module assoc. rule discovery structural sim. search visualization links to foreign services links to foreign services input forms result of sim. search visual window result of mining user

  19. WebPACADE がサポートするデータ PACADE PDB rel.80 から選んだ4842エントリのタンパク質の 二次構造に関するジオメトリ情報をファクトとして 格納している(約170万ファクト) PDB highlight ゲノムネットでの最新PDB(rel.84)を全てサポート (7688エントリ) 簡易データマイニング ゲノムネットが提供する LinkDB(異なるゲノムデータ ベースのエントリ間の参照関係)を用いている 参照関係の総数は約600万件

  20. PACADE による類似部分構造検索 可視化で使う プラグイン (フリーウェア) 類似元を 可視化 類似部分構 造を可視化 簡易データ マイニング

  21. PDB highlight による可視化 他のデータベースの参照 一次構造 他の解析サービスの呼び出し 立体構造 プラグインを操作するこ とにより拡大縮小/回転 /平行移動などが可能 二次構造

  22. 簡易データマイニングの模様 対象のゲノムデータ ベースを指定 PDBのエントリ集合 簡易データ マイニング 見つかった 相関ルール

  23. JAISTにおけるゲノムネットのミラーサーバ ディスクが足りないので ここは工事中。今月中旬 から利用可能になる予定。

  24. DB更新 EBI 必要な データ を取得 DB更新 NCBI DB更新 NIG … 東京と京都で互いに データ交換 国内外から最新データを 取得(一次ミラーリング) データ更新の様子 JAIST HGC SCL

  25. 更新状況の比較 :db1:ideas:binfo |egrep '\-upd|link' 98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813 98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820 98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475 98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113 98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418 :db1:ideas:rsh_star "binfo | egrep '\-upd|link'" 98/10/22 genbank-upd 108.0+/10-22 (Oct 98) 413,096 425,162,742 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,762 635,501,816 98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,430 3,826,052 98/10/22 genpept-upd 108.0+/10-22 (Oct 98) 28,017 10,131,562 98/10/17 pdb-upd 84.0+/10-18 (Oct 98) 455 178,133 98/10/17 pdbstr-upd 84.0+/10-18 (Oct 98) 787 176,088 98/10/28 linkdb 98-10-28 (Oct 98) 6,326,285 :db1:ideas:rsh_gray "binfo | egrep '\-upd|link'" 98/10/28 genbank-upd 108.0+/10-28 (Oct 98) 428,508 439,655,330 98/10/10 embl-upd 55+/10-10 (Oct 98) 627,994 637,653,593 98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,427 3,825,154 98/10/28 genpept-upd 108.0+/10-28 (Oct 98) 29,189 10,448,406 98/8/2 pdb-upd 84.0+/08-02 (Aug 98) 477 182,407 98/8/2 pdbstr-upd 84.0+/08-02 (Aug 98) 817 180,304 98/10/28 linkdb 98-10-28 (Oct 98) 6,326,285 JAIST SCL HGC

  26. SCLやHGCとの違い Webで使ってる範囲では機能的には全く同じ。例えば、ホモロ ジー検索などは自動的にHGCかSCLで実行される。サーバの URLは http://www.jaist.genome.ad.jp/。 ホモロジー検索をJAISTのマシンでローカルに実行することは できない(ディスク増設により解決予定)。 さすがにパフォーマンスがちょっと落ちる(HGCやSCLはStar Fireの32~64プロセッサ、こっちは Enterprize 3000 の4プロ セッサ)。近々メモリ増設予定なので、DBGETなどは改善見込。 サーバ管理者の立場からは、HGCやSCLとの接続速度が少々 不満(200MB/hしか出ないので、GenBankのリリース更新を転送 するのに3日かかる)。また、NCBIなど海外のサイトへの接続性 も速くなって欲しい。ちなみにHGCはIIJの6Mで北米などに接続 しており、SCLとHGCの間は6MのATMで直結なので相当速い。

  27. それでもミラーサーバを立ちあげる理由(利点)それでもミラーサーバを立ちあげる理由(利点) JAIST内部や、JAISTとネットワーク的に近いサイトでは、 東京や京都にWebでアクセスするよりも快適に使える。 共同研究者としてJAIST内部に来た場合、 最新のゲノムデータを格納したファイルを直接触ることができる。 →独自のゲノム解析研究を進めることができる。 コマンドラインからDBGETやホモロジー検索ができる。 →Webよりもスクリプトで回し易い。 オートマウントの設定をすれば自分のワークステーション上で 上記のことが行える(計画中)。 ゲノム解析以外の研究にも使えるかも? 情報や材料などの他研究科からもぼちぼち使われています。

  28. コマンドラインからの利用法 パスや環境変数の設定 :db1:ken:source /bio/lib/cshrc.ideas :db1:ken:which bfind /bio/bin/bfind :db1:ken:bfind pdb shiga-like pdb:1BOV VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) :db1:ken:bfind pdb shiga-like | bget HEADER TOXIN 08-OCT-91 1BOV 1BOV 2 COMPND VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) 1BOV 3 SOURCE (ESCHERICHIA COLI) 1BOV 4 AUTHOR P.E.STEIN,R.J.READ 1BOV 5 REVDAT 1 31-OCT-93 1BOV 0 1BOV 6 JRNL AUTH P.E.STEIN,A.BOODHOO,G.J.TYRRELL,J.L.BRUNTON, 1BOV 7 JRNL AUTH 2 R.J.READ 1BOV 8 JRNL TITL CRYSTAL STRUCTURE OF THE CELL-BINDING B OLIGOMER 1BOV 9 JRNL TITL 2 OF VEROTOXIN-1 FROM E. COLI 1BOV 10 JRNL REF NATURE V. 355 748 1992 1BOV 11 JRNL REFN ASTM NATUAS UK ISSN 0028-0836 006 1BOV 12 ~以下略~ キーワード shiga-like で PDB を検索 1件ヒット ヒットしたエントリを bget で取得 詳しくは「ゲノムネットのデータベース利用法 第2版」を御覧下さい。 http://www.genome.ad.jp/dbget/dbget_manual.html も多少参考に なります(Web用に書かれているのがちょっと難点ですが)。

  29. おわりに まだ立ち上がったばかりですが、興味のある方はぜひ ゲノムネットを使ってみて下さい。 ゲノムネットに関する御意見・御質問は佐藤までお寄せ 下さい。共同研究の御相談等に関しては小長谷教授の 方に御連絡頂いた方が良いかと思います。 北陸先端大のサーバに関する重要な変更等については 以下のURLで随時お知らせする予定です。 http://www.jaist.ac.jp/ks/labs/ken/genomenet/

More Related