１．ゲノム解析と計算機の利用の方法

１．ゲノム解析と計算機の利用の方法

バイオインフォマティクスとは • 生物情報科学または情報生物学 • 生物または生物学に関する情報処理 • 生物情報（遺伝情報）を用いた情報処理技術とそれによる知識発見 • 実験生物学者にとっては，自分または他人のデータの集積に基づく，新たな実験のきっかけを与えるような知識の抽出 • 情報科学者にとっては，システム生物学を目指した生物情報の処理方法の開発と体系化

計算機に対する私の姿勢 生物情報科学を使って，生物の基本的なしくみや生物の進化を理解する。ソフトはあくまでも手段であるが，生物系の研究者がプログラム作りを全くできないようなことでは，これからの生物科学は発展しない。物理や化学では，実験をする研究者自身，自分の実験の解析のためにプログラムを作る。生物も同じはずだが，これまでは，生物系の研究が，遺伝子操作をつかってなまの生き物を取り扱うことにばかり重点を置きすぎていた。生物系の研究者がプログラミングをすることをもっと普及したい。

オフィスツールとしての計算機の利用 A．論文や原稿の作成（Word） B．数値データの処理とグラフ化（Excel） C．画像データの処理と図の作成（Photoshop, Illustrator） D．論文検索とオンラインジャーナルのダウンロード，プリント（ブラウザ，Acrobat）

光合成研究における計算機の利用 （１）シーケンサからのデータのアセンブル（２）相同性検索，論文で報告された配列の取得，ゲノムデータベースの利用（３）塩基配列の様々な処理（翻訳，制限酵素サイト，ターゲティング，疎水性など）（４）プライマーの設計（５）マイクロアレイデータの処理（６）タンパク質立体構造の表示（７）系統解析（８）シロイヌナズナやシアノバクテリアの様々なデータベース（変異体，アノテーション，EST, タグライン）からの情報収集（９）画像データの収集（ゲル，植物体，顕微鏡像など）（10）その他様々な計測（11）実験のプロトコルの管理 (Protocol）

生物学者としてどこまで情報に関わるか？ １．解析ツールの利用２．既存のソフトウェア間の橋渡しのためのスクリプトなど３．独自プログラムの開発（自分用）４．汎用ソフトウェアパッケージの開発

UNIXの利点 • 基本は，自分で好きなシステムを構成できること。特に，個々のアプリケーションを組み合わせて，連続した処理をすることができる。 • 異なるマシン間をLANでつないで，相互に自由に利用できること。リモートのマシンのウィンドウを，手元のマシンで開く形で，何台ものマシンを同時に操ることができる。 • マルチタスクOSであるため，個々のプロセスがクラッシュしても他に影響しない。また，複数のユーザーが同時に作業できる。

システムの選択肢

パソコンで使えるUNIX • MacOS Xは、G3, G4などで使えるパソコンの顔をしたUNIX (FreeBSDの一種であるDarwin)。 • X on Windowsは、Cygwinをさらに使いやすくしたパッケージで、Windows上で使えるX Windowシステム。基本的に普通のUNIXのように使え、gccコンパイラ、Perlなどもあるが、本質的にはUNIXではないので、微妙に異なる点がある。 • Dual bootでLinuxをWindowsかMacにいれる。 • Virtual PCなどを使って、複数のOSをいれる。

UNIXのはじめの困難の克服 • きれいなgraphical user interfaceをはじめから期待しない。コンピュータが実際にやっている仕事は単なる計算。表示は別の問題と割り切り，コマンドを使って作業する。 • すべてのコマンドを暗記している人はいない。わからないコマンドは，本かオンラインマニュアルで調べよう。 • MacOS Xなら，初心者もなじみやすい。

なぜMacOS Xがよいか • はじめからプログラム開発環境がある。 • BLASTサーチなどの計算速度はきわめて速い。 • 一台のマシン上で，UNIXとして計算した結果を，直ちにWord, Excel, Illustrator, Photoshopなどで使える。 • 他のMacやWindowsとのファイル共有ができ，また，リモートのUNIXマシンからログインして利用できる。 • 自動的にswapを確保してくれるので、大きなメモリを使うアプリケーションを使うことができる。 • Finkによりソフトウェアの導入が容易

自動処理は情報処理の第一歩 • スクリプトを使うことで，同種の処理を大量に一括処理できる。 • シェルスクリプト，perl, その他を活用する。 • 利点は，間違いがない，少し条件を変えてもう一度全部できる，他の人がその処理を検証できる，ことなど。 • クリックしなくてよいだけ，GUIよりも便利。

スクリプト初歩の初歩 • 例題のダウンロード • （例題１）カレントディレクトリにあるテキストファイルをすべて連結する。 • （例題２）カレントディレクトリにあるすべてのファイルの最初の数行を表示する。 • （例題３）カレントデクレクトリにあるすべてのファイルについて，同じ処理をする。 • （例題４）多数のアラインメントを作る。

少しでいいからできるようになりましょう • 基本的なシェルのコマンドを覚える。 • コマンドラインで使うperlと基本的な正規表現を覚える。基本形は， perl -pe ’s/xxx/yyy/’ file > outfile • 行末コードの変換でびっくりしないようになる。 • 次は，perlスクリプトを作って，簡単なことを自動処理してみる。

Blastを使いこなす • Basic Local Alignment Search Toolの略で，配列相同性検索ツールの代表格 • FASTAが配列全長同士の比較を行うものであったのに対して，部分的な類似も検出でき，繰り返し配列も正しく処理できることが特徴 • 1990年に発表された当初は一つのものだったが，その後，NCBIとWUに分かれて開発されている • 1997年の改良により，ギャップも考慮したアラインメントができるようになり，さらに，PSI-BLASTが開発され，弱い相同性も検出できるようになってきた

Basic Local Alignment Search Tool (BLAST) • An open source software provided by NCBI (National Center for Biotechnology Information, USA). • http://www.ncbi.nlm.nih.gov/ • It finds local similarity between a query sequence (DNA or protein) with database sequences. The similarity is assessed by various parameters, such as E value, similarity score etc. • Reference • Altschul, S. F., Madden, T. L., Schaffer, A. A., et al. 1997, Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucl. Acids Res., 25, 3389-3402.

Blast 検索のやり方 • NCBI toolboxのなかのformatdbとblastallを使う。 • データベースはGenomeNetから取得する(nr, nt, swissprotなどFASTA形式のファイル）。以下nrを例とする。 Formatdbの実行

Blast 検索のやり方（2） • 検索に使うnr, testfileともFASTA形式のファイルである。 nrファイルの先頭

Blast 検索のやり方（3） • 環境変数BLASTDBをセットし，検索を行う。 setenv BLASTDB /Volumes/HD1/DB/db1 検索ファイルもFASTA形式 blastallコマンドの実行

Blast 検索のやり方（4） • これが一番単純なblast検索コマンド blastall -i a1 -d nr -p blastp -o a1.result 入力ファイル名結果を書き出すファイル名プログラム名データベース名ハイフンの後にオプションを示す記号を書き，その後に設定する値を書く予めBLASTDB環境変数で指定したディレクトリの中にあって， formatdbにより加工された３個のファイルの拡張子なしの名前

Blast 検索のやり方（5） • プログラム名一覧 blastall -i a1 -d nr -p blastp -o a1.result

Blast 検索のやり方（6） • Webで見慣れた結果がテキストとしてでてくる。アラインメント部分はじめの方

Blast 検索の注意点 • ただ検索するだけなら簡単だが，自分の目的を達成できているか，検討が必要。 • 検索対象であるデータベースの選択 nr, est, その他 • 検索オプションの指定マスクの指定マトリクスの指定など

Blast 検索のメリット • では，自前の検索のメリットは？自分だけのデータベースが使える（非公開配列，特定の生物種など）　逆に，最新のデータベースは利用できないかもしれない。いちいち画面をクリックしなくてよい。同じ条件なら条件を含むコマンドをすべてスクリプトに含めておける。複数の配列を含むファイルを使い，一回のコマンド実行で，まとめて検索ができる。たとえば，ゲノム全体のタンパク質配列をデータベース化しておき，別のゲノム全体のタンパク質配列との比較が一回のコマンドでできる。計算時間はマシンによるが，細菌ゲノム全体程度なら，G4で１～２時間程度。結果はすべて一つのファイルになっているので，Perlなどを利用して，うまく自動的に整理する。

2. 比較ゲノム解析の方法

データベースの利用

微生物ゲノム解析が結びつける生命の多様性 地域共同研究センター出張講演会２００１年９月２０日データベースの利用(2)

微生物ゲノム解析が結びつける生命の多様性 地域共同研究センター出張講演会２００１年９月２０日データベースの利用(3)

大腸菌の代謝系

Synechocystisの代謝系

ゲノム配列の入手 • ゲノム塩基配列とコードされる推定タンパク質の配列は，GenBank （またはRefSeq）を利用するのが便利である。EMBLでもGenBankと同様のデータベースが得られるが，RefSeqはNCBIの独自のものなので，EMBLに同じものがあるとは限らない。 • データベースファイルは，通常，コマンドラインからFTPを使って取得する。データは膨大なので，圧縮されている。バイナリ形式で取得後，解凍して使用する。 • 大きなデータなので，できるだけ日本国内のサイトから入手する。GenomeNetなら， • ftp ftp.genome.ad.jp • である。

ゲノム配列の入手と加工 • 取得したファイルは，gzipまたはcompress圧縮されている。解凍法は，コマンドラインから， • gzip -d gbbact1.gz • uncompress nr.Z • などとする。 • BLAST検索用のデータベースファイルは，nr, ntなどであるが，ここでは，GenBank形式のファイルから，自分で，様々なデータを含むファイルを作製する方法を説明する。

ゲノム配列の大量処理 詳細はテキスト参照。私は，自分で開発したSISEQを利用しているが，そのほか，様々なツールが存在する。一般的なのは，GCG（有料），EMBOSSなど。 GenBank形式のファイルには，様々な情報が書き込まれており，特に，翻訳してできるタンパク質配列がfeatureの一部として記載されている。従って，GenBankファイルが一つあれば，個別のタンパク質の情報などはあとで自分で抽出できる。ただし，ゲノムに関しては，そのほかに，アノテーションをまとめた表や，タンパク質配列だけをまとめたものなども，データベースとともに取得できる。

BLASTによる相同性検索 ゲノムの比較を目的とした相同性検索では，比較したい２つのゲノムのそれぞれにコードされたタンパク質の配列からなるデータベースを構築する。ゲノムをA, Bとすると， A, B両ゲノムの全タンパク質配列を書いたFASTA形式のファイルA.faおよびB.faを準備する。それぞれについて，formatdbを行う。 A対BおよびB対AのBLASTP検索を行う。あるいは，AB両方のデータを一つにまとめたファイルAB.faを作り，AB対ABの検索を行う。

いろいろなhomolog: ortholog と paralog Ortholog: 別々のゲノム上にある２つの遺伝子が，共通の祖先遺伝子から進化した場合，orthologと呼ぶ。 Paralog: 同じゲノム上の２つの遺伝子が，共通祖先遺伝子から遺伝子重複によって生じた場合，paralogと呼ぶ。別々のゲノム上にある複数の遺伝子ファミリーメンバー同士の関係も，paralogであるが，上のparalogをin-paralogと呼ぶのに対し，out-paralogと呼ぶことが提唱されている。そのほか，水平移動や収斂進化などもあり，これらの場合には，analogous genesと呼ぶようである。

Ortholog とparalog

Ortholog pairの検出 • 双方向best-best hitによる定義 • BLAST（またはFASTA）による相同性検索において， • QueryとしてゲノムAの遺伝子xを用いて，ゲノムBの全遺伝子を検索した場合，遺伝子yが最高得点となり， • 逆に，queryとしてゲノムBの遺伝子yを用いて，ゲノムAの全遺伝子を検索した場合，遺伝子xが最高得点となる場合， • xとyとは，orthologsであると定義する。

Ortholog pairの検出（２） しかし， BLASTの点数が必ずしも配列の類似性を正しく表しているとは限らず，厳密には，類似遺伝子を集めた系統解析をすることによって初めて，orthologを決めることが可能になる。これは前のスライドで示されたとおりである。とはいうものの，これには時間がかかる上，人の手でいちいち見ながらやらなければならないので，大量のゲノム比較をする場合には，第一次近似として，双方向best-best hitが基準として使われることが多い。

Orthologs in KEGG

All-to-all search 1. One-way 3. Network 4. All-to-all (= 2+3) 2. Self

Gene familyの場合 遺伝子によっては，類似遺伝子が多数ファミリーになっている場合も多く，その場合に，best-best hitを一義的に定義できない場合がある。

Two strategies for the comparison of genome contents Ortholog gene method -- straightforward. Problems: Liability to gene duplication and fusion. Difficulty in identifying orthologues in genomes of very different sizes. Homolog group method -- stable result. Problems: No direct relation to orthologues. Common problem: multi-domain proteins or protein fusion. --> Two-step clustering

Homolog groupの利用 類似遺伝子群をまとめてhomolog groupとして取り扱い，それぞれのグループがそれぞれのゲノムに存在するか否かを調べる。細かい遺伝子ごとの比較は，このグループごとに詳しく系統解析をすることによって得られる。この方法によっても，マルチドメインタンパク質の扱いは難しい。

Multidomain proteins A 1 B 1 2 C 2 In the first step of clustering, all these are put in a single cluster. The advantage of this approach is that the motifs 1 and 2 are not included in other clusters.

種間の遺伝子移動

推定される水平移動した遺伝子

Gclust approach-- combined informatics and experiments -- Use of eight (or more) cyanobacterial genomes that are currently available. Use of a red alga, Cyanidioschyzon merolae, as a representative of the ‘red lineage’ of photosynthetic eukaryotes, besides Arabidopsis thaliana, a representative of the ‘green lineage’. Clustering of all protein sequences (by the software ‘gclust’) to extract lineage-specific clusters (to be made publicly available as ‘PhotoGclust’). Experimental verification of the cluster data by gene disruption and expression analysis.

Gclust: genome-wide clustering of proteins by the homologue group method Annotation table ORF pool • 1st step: BLAST E-value • Groups of all possible homologues • Iteration: progressive • increase of E-value • 2nd step: homology region • Subgroups and multi-domain proteins BLASTP bl2ls2.pl Homologue list gclust Homologue group matrix homologgroupsG.pl tbsort6d.pl etc Lineage-specific homologue groups Homologue group sequences

Gclust: genome-wide clustering of proteins by the homolog group method Before Gclust: List of similarity regions based on all-against-all BLASTP search Preparation: Exclusion of vary large proteins Single cut-off mode: Groups of all possible homologs using a BLAST E-value as a cut-off Iteration mode: Natural clusters estimated by progressive increase of E-value with removal of multidomain proteins Subcluster mode: Subclusters based on similarity matrix

Example result (2) Group 762: 14 sequences. S81_g3096 186 1 0 0 0 0 0 0 0 0 0 1 1 0 0 sll1656_57_1e-08 TE_c50g6270 188 0 1 1 1 1 1 1 1 0 0 0 0 1 0 sll1656_89_2e-18 Ana_all3977 170 0 1 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_protein Ana_all4113 194 0 1 1 1 1 1 1 1 1 1 0 0 0 0 hypothetical_protein Syn_sll1656 191 0 1 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_protein NP_c357g8 190 0 1 1 1 1 1 1 1 1 0 0 0 0 0 sll1656_100_1e-21 NP_c445g23 189 0 1 1 1 1 1 1 1 1 1 0 0 0 0 sll1656_109_2e-24 NP_c506g67 189 0 1 1 1 1 1 1 1 1 1 1 0 0 0 sll1656_92_5e-19 Tel_tll0396 198 0 0 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_protein NP_c459g43 123 0 0 0 1 0 0 1 1 0 1 0 0 0 0 sll1656_66_1e-11 PM2_g2695 187 1 0 0 0 0 0 0 1 0 0 1 1 0 0 sll1656_57_2e-08 PM1_g542 177 1 0 0 0 0 0 0 0 0 0 1 1 0 0 sll1656_54_8e-08 Cz_Cz11g913.048 350 0 0 0 0 0 0 0 0 0 0 0 0 1 1 unknown_protein ATH_At2g15290 296 0 0 0 0 0 0 0 0 0 0 0 0 1 1 unknown_protein

１． ゲノム解析と 計算機 の 利用 の 方法