ゲノムネットについて
Download
1 / 29

ゲノムネットについて - PowerPoint PPT Presentation


  • 90 Views
  • Uploaded on

ゲノムネットについて. 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二. ゲノムデータ. 主に分子生物学の実験の結果得られるデータ。 世界各国で集積・配付されている。. 核酸配列情報   GATC … タンパク質配列情報   SER ALA PRO … タンパク質立体構造情報 遺伝病などの疾病に関する情報 文献情報. …. 実験技術の進歩とともに データの産出速度が加速. 指数的に増え続けるゲノムデータ. ゲノムデータの例( GenBank のエントリ).

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' ゲノムネットについて' - kaili


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

ゲノムネットについて

北陸先端科学技術大学院大学

知識科学研究科

佐藤賢二


ゲノムデータ

主に分子生物学の実験の結果得られるデータ。

世界各国で集積・配付されている。

  • 核酸配列情報  GATC…

  • タンパク質配列情報  SER ALA PRO …

  • タンパク質立体構造情報

  • 遺伝病などの疾病に関する情報

  • 文献情報

実験技術の進歩とともに

データの産出速度が加速



ゲノムデータの例(GenBankのエントリ)

LOCUS EBOMAY 157 bp ss-RNA VRL 15-SEP-1990

DEFINITION Ebola virus 3' proximal protein gene, 5' end.

ACCESSION M33062

NID g323684

KEYWORDS .

SOURCE Ebola virus (strain MAY; Zaire 1976) RNA.

ORGANISM Ebola virus

Viruses; ssRNA negative-strand viruses; Mononegavirales;

Filoviridae; Filovirus.

REFERENCE 1 (bases 1 to 157)

AUTHORS Kiley,M.P., Wilusz,J., McCormick,J.B. and Keene,J.D.

TITLE Conservation of the 3' terminal nucleotide sequences of Ebola and

Marburg virus

JOURNAL Virology 149, 251-254 (1986)

MEDLINE 86124724

FEATURES Location/Qualifiers

source 1..157

/organism="Ebola virus"

/db_xref="taxon:11268"

CDS 53..>157

/note="3'proximal protein"

/codon_start=1

/db_xref="PID:g323685"

/translation="MRKINNFLSLKFDDRNLKLKLLICNHTVDSEPHTS"

BASE COUNT 56 a 22 c 31 g 48 t

ORIGIN

1 gggcacacaa aaagaaagaa gaatttttag gatcttttgt gtgcgaataa ctatgaggaa

61 gattaataat ttcctctcat tgaaatttga tgatcggaat ttgaaattga aattgttgat

121 ctgtaatcac accgttgatt cagagccaca cacaagt

//


ゲノムデータの量(エントリ数)

Date Database Release #Entries #Residues

------ ------------- -------------------- ---------- ------------

98/9/22 genbank 108.0 (Aug 98) 2,532,359 1,797,137,713

98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601

98/8/25 embl 55 (Jun 98) 2,131,533 1,434,776,497

98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813

98/8/25 swissprot 36.0 (Jul 98) 74,019 26,840,295

98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820

98/8/25 pir 57.0 (Jun 98) 109,075 34,838,376

98/9/18 prf 98-09 (Sep 98) 108,435 39,113,650

98/8/25 pdb 84.0 (Apr 98) 7,533 2,644,523

98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475

98/8/25 pdbstr 84.0 (Apr 98) 12,420 2,617,704

98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113

98/8/25 epd 50.0 (Apr 97) 1,308 784,800

98/8/25 transfac 3.4 (May 98) 7,321

98/8/25 prosite 15.0 (Jul 98) 1,352

98/8/25 prosdoc 15.0 (Jul 98) 1,014

98/8/27 blocks 10.0 (Feb 98) 3,845

98/8/25 prints 18.0 (May 98) 865

98/8/25 prodom 34.2 (Nov 97) 53,597 6,756,724

98/8/25 pmd 96-05 (May 96) 7,078

98/9/8 aaindex 3.0 (Sep 98) 500

98/9/9 litdb 24-16 (Aug 20) 298,878

98/10/27 omim MIM10+/10-27 (Oct 98) 10,116

98/10/28 genes 8.0+/10-28 (Oct 98) 76,891 70,793,382

98/10/27 ligand 18.0+/10-26 (Oct 98) 9,291

98/10/28 pathway 8.0+/10-28 (Oct 98) 2,092

98/8/27 brite 0.5 (May 98) 87

98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418

核酸配列

(遺伝子)

アミノ酸配列

(タンパク質)

タンパク質立体構造

アミノ酸配列

プロモータ配列

転写因子

アミノ酸配列の

モチーフ(パタ

ーン辞書)

変異タンパク(ミュータント)

アミノ酸の各種指標

文献データ(PRFから生成)

遺伝病

遺伝子百科

事典(KEGG)

上記データ全ての参照関係

-upd がついているものは、毎日更新される追加分。その他は定期/不定期に更新。


ゲノムネット(GenomeNet)

JAISTのミラーサーバ

京大化研

スパコンラボ(SCL)

東大医科研

ヒトゲノム解析センター(HGC)


ゲノムネットのサービス

  • ftpミラーリング(最新のゲノムデータのコピーを持つ)

  • DBGET(キーワード検索/エントリ取得)

  • LinkDB(関連したエントリを辿る)

  • ホモロジーサーチ(類似した配列の検索)

  • 他の配列解析ツール(PSORT etc.)

  • 日本独自のゲノムデータを公開(BSORF, MBGD, etc.)

  • 遺伝子百科事典(KEGG )


ゲノムネットのWWWサーバ

http://www.genome.ad.jp/



DBGETを使ってGenBankを検索







BLASTの実行結果


これらのサービスは相互呼び出しを行っておりこれらのサービスは相互呼び出しを行っており

ゲノムネット上でサービスされている(可視化

機能を提供する PDB highlight から入れる)

タンパク質の立体構造検索・解析・および

知識発見を統合したシステム WebPACADE

類似部分構造検索機能(PACADE)

http://pacade.genome.ad.jp/pacade.html

可視化機能(PDB highlight)

http://pacade.genome.ad.jp/pdb_highlight.html

簡易データマイニング機能

http://pacade.genome.ad.jp/cgi-bin/mining_form.pl


システムの構成と動作これらのサービスは相互呼び出しを行っており

WebPACADE

PACADE

PDB highlight

data mining module

assoc. rule

discovery

structural

sim. search

visualization

links to

foreign

services

links to

foreign

services

input forms

result of

sim. search

visual

window

result of

mining

user


WebPACADE これらのサービスは相互呼び出しを行っておりがサポートするデータ

PACADE

PDB rel.80 から選んだ4842エントリのタンパク質の

二次構造に関するジオメトリ情報をファクトとして

格納している(約170万ファクト)

PDB highlight

ゲノムネットでの最新PDB(rel.84)を全てサポート

(7688エントリ)

簡易データマイニング

ゲノムネットが提供する LinkDB(異なるゲノムデータ

ベースのエントリ間の参照関係)を用いている

参照関係の総数は約600万件


PACADE これらのサービスは相互呼び出しを行っておりによる類似部分構造検索

可視化で使う

プラグイン

(フリーウェア)

類似元を

可視化

類似部分構

造を可視化

簡易データ

マイニング


PDB highlight これらのサービスは相互呼び出しを行っておりによる可視化

他のデータベースの参照

一次構造

他の解析サービスの呼び出し

立体構造

プラグインを操作するこ

とにより拡大縮小/回転

/平行移動などが可能

二次構造


簡易データマイニングの模様これらのサービスは相互呼び出しを行っており

対象のゲノムデータ

ベースを指定

PDBのエントリ集合

簡易データ

マイニング

見つかった

相関ルール


JAISTこれらのサービスは相互呼び出しを行っておりにおけるゲノムネットのミラーサーバ

ディスクが足りないので

ここは工事中。今月中旬

から利用可能になる予定。


DBこれらのサービスは相互呼び出しを行っており更新

EBI

必要な

データ

を取得

DB更新

NCBI

DB更新

NIG

東京と京都で互いに

データ交換

国内外から最新データを

取得(一次ミラーリング)

データ更新の様子

JAIST

HGC

SCL


更新状況の比較これらのサービスは相互呼び出しを行っており

:db1:ideas:binfo |egrep '\-upd|link'

98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601

98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813

98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820

98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475

98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113

98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418

:db1:ideas:rsh_star "binfo | egrep '\-upd|link'"

98/10/22 genbank-upd 108.0+/10-22 (Oct 98) 413,096 425,162,742

98/10/24 embl-upd 55+/10-24 (Oct 98) 646,762 635,501,816

98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,430 3,826,052

98/10/22 genpept-upd 108.0+/10-22 (Oct 98) 28,017 10,131,562

98/10/17 pdb-upd 84.0+/10-18 (Oct 98) 455 178,133

98/10/17 pdbstr-upd 84.0+/10-18 (Oct 98) 787 176,088

98/10/28 linkdb 98-10-28 (Oct 98) 6,326,285

:db1:ideas:rsh_gray "binfo | egrep '\-upd|link'"

98/10/28 genbank-upd 108.0+/10-28 (Oct 98) 428,508 439,655,330

98/10/10 embl-upd 55+/10-10 (Oct 98) 627,994 637,653,593

98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,427 3,825,154

98/10/28 genpept-upd 108.0+/10-28 (Oct 98) 29,189 10,448,406

98/8/2 pdb-upd 84.0+/08-02 (Aug 98) 477 182,407

98/8/2 pdbstr-upd 84.0+/08-02 (Aug 98) 817 180,304

98/10/28 linkdb 98-10-28 (Oct 98) 6,326,285

JAIST

SCL

HGC


SCLこれらのサービスは相互呼び出しを行っておりやHGCとの違い

Webで使ってる範囲では機能的には全く同じ。例えば、ホモロ

ジー検索などは自動的にHGCかSCLで実行される。サーバの

URLは http://www.jaist.genome.ad.jp/。

ホモロジー検索をJAISTのマシンでローカルに実行することは

できない(ディスク増設により解決予定)。

さすがにパフォーマンスがちょっと落ちる(HGCやSCLはStar

Fireの32~64プロセッサ、こっちは Enterprize 3000 の4プロ

セッサ)。近々メモリ増設予定なので、DBGETなどは改善見込。

サーバ管理者の立場からは、HGCやSCLとの接続速度が少々

不満(200MB/hしか出ないので、GenBankのリリース更新を転送

するのに3日かかる)。また、NCBIなど海外のサイトへの接続性

も速くなって欲しい。ちなみにHGCはIIJの6Mで北米などに接続

しており、SCLとHGCの間は6MのATMで直結なので相当速い。


それでもミラーサーバを立ちあげる理由(利点)それでもミラーサーバを立ちあげる理由(利点)

JAIST内部や、JAISTとネットワーク的に近いサイトでは、

東京や京都にWebでアクセスするよりも快適に使える。

共同研究者としてJAIST内部に来た場合、

最新のゲノムデータを格納したファイルを直接触ることができる。

→独自のゲノム解析研究を進めることができる。

コマンドラインからDBGETやホモロジー検索ができる。

→Webよりもスクリプトで回し易い。

オートマウントの設定をすれば自分のワークステーション上で

上記のことが行える(計画中)。

ゲノム解析以外の研究にも使えるかも?

情報や材料などの他研究科からもぼちぼち使われています。


コマンドラインからの利用法それでもミラーサーバを立ちあげる理由(利点)

パスや環境変数の設定

:db1:ken:source /bio/lib/cshrc.ideas

:db1:ken:which bfind

/bio/bin/bfind

:db1:ken:bfind pdb shiga-like

pdb:1BOV VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1)

:db1:ken:bfind pdb shiga-like | bget

HEADER TOXIN 08-OCT-91 1BOV 1BOV 2

COMPND VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) 1BOV 3

SOURCE (ESCHERICHIA COLI) 1BOV 4

AUTHOR P.E.STEIN,R.J.READ 1BOV 5

REVDAT 1 31-OCT-93 1BOV 0 1BOV 6

JRNL AUTH P.E.STEIN,A.BOODHOO,G.J.TYRRELL,J.L.BRUNTON, 1BOV 7

JRNL AUTH 2 R.J.READ 1BOV 8

JRNL TITL CRYSTAL STRUCTURE OF THE CELL-BINDING B OLIGOMER 1BOV 9

JRNL TITL 2 OF VEROTOXIN-1 FROM E. COLI 1BOV 10

JRNL REF NATURE V. 355 748 1992 1BOV 11

JRNL REFN ASTM NATUAS UK ISSN 0028-0836 006 1BOV 12

~以下略~

キーワード shiga-like で PDB を検索

1件ヒット

ヒットしたエントリを bget で取得

詳しくは「ゲノムネットのデータベース利用法 第2版」を御覧下さい。

http://www.genome.ad.jp/dbget/dbget_manual.html も多少参考に

なります(Web用に書かれているのがちょっと難点ですが)。


おわりにそれでもミラーサーバを立ちあげる理由(利点)

まだ立ち上がったばかりですが、興味のある方はぜひ

ゲノムネットを使ってみて下さい。

ゲノムネットに関する御意見・御質問は佐藤までお寄せ

下さい。共同研究の御相談等に関しては小長谷教授の

方に御連絡頂いた方が良いかと思います。

北陸先端大のサーバに関する重要な変更等については

以下のURLで随時お知らせする予定です。

http://www.jaist.ac.jp/ks/labs/ken/genomenet/


ad