超高速ネットワークのためのデータ・レゼボワール
Download
1 / 42

超高速ネットワークのためのデータ・レゼボワール - PowerPoint PPT Presentation


  • 105 Views
  • Uploaded on

超高速ネットワークのためのデータ・レゼボワール. 東京大学大学院理学系研究科 情報科学専攻 平木 敬. 2001年1月9日. 概要. ネットワーク( LAN,WAN)  の方向性 SUPER SINET 計画 東大における理学研究へのネットワーク利用 超高速ネットワーク通信の困難点 データレゼボワ-ルの概要 基本方式・基本設計 今後の課題. 情報システムのあり方. 過去から現在まで 1964年  汎用計算機システム元年 IBM360 CDC6600 HITAC5020 2000 年  MPP 時代 ( ASCI を除く)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 超高速ネットワークのためのデータ・レゼボワール' - lucky


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

超高速ネットワークのためのデータ・レゼボワール超高速ネットワークのためのデータ・レゼボワール

東京大学大学院理学系研究科

情報科学専攻

平木 敬

2001年1月9日


概要超高速ネットワークのためのデータ・レゼボワール

  • ネットワーク(LAN,WAN) の方向性

  • SUPER SINET計画

  • 東大における理学研究へのネットワーク利用

  • 超高速ネットワーク通信の困難点

  • データレゼボワ-ルの概要

  • 基本方式・基本設計

  • 今後の課題


情報システムのあり方超高速ネットワークのためのデータ・レゼボワール

  • 過去から現在まで

    • 1964年  汎用計算機システム元年

      • IBM360

      • CDC6600

      • HITAC5020

    • 2000年 MPP時代 (ASCIを除く)

      • IBM SP Power3 1.4TFLOPS,375MHz 1336CPU,1.3TB

      • 日立 SR-8000   1TFLOPS, 896CPU (112PE)

  • 36年で、約100万倍の速度向上、100万倍のメモリ増大

  • 大域ネットワーク

    • 50Kbps(1969)から 10Gbps(2000))  30年で20万倍の速度増加

2MFLOPS, 1Mバイトメモリ (CDC6600)

0.65MFLOPS,      256Kバイトメモリ (HITAC5020)


Cdc6600
CDC6600超高速ネットワークのためのデータ・レゼボワール


Ibm 360
IBM/360 超高速ネットワークのためのデータ・レゼボワールモデル67


Ibm sp power3
IBM SP Power3超高速ネットワークのためのデータ・レゼボワール


Sr 8000
SR-8000超高速ネットワークのためのデータ・レゼボワール

(著作権法に触れています。ごめんなさい ⇒ KEK)


情報システムの変身超高速ネットワークのためのデータ・レゼボワール

  • 過去4回の大きな変革

汎用コンピュータ

電子計算機の誕生

現在

イーサネット

WWW

2030

1950

2000

2010

1940

1960

1970

1980

1990

2020

2040

2050


Loadmap of lan and wan
Loadmap of LAN and WAN超高速ネットワークのためのデータ・レゼボワール


Loadmap of computing systems
Loadmap of computing systems超高速ネットワークのためのデータ・レゼボワール

FLOPS

30

10

32G

27

10

1G

1Y

Parallel

Computers

32M

1Z

Vector Computers

1E

1M

64K

1P

8K

16K

4K

1T

Processor Chips

1K

256

1G

64

16

1M

70

80

90

2000

2010

2020

2030

2040

2050


科学研究における情報システム利用形態超高速ネットワークのためのデータ・レゼボワール

  • Numerical Intensive Computation (NIC)

    • シミュレーション、QCD計算、物性理論計算

    • 入力パラメータ:少量、モデル計算中心:大計算量、可視化出力

    • スーパーコンピュータは、NICに特化した形態

    • ネットワーク利用:遠隔使用、画像出力、メールやWebなど

  • Data Intensive Computation

    • 実験データ解析、予測、診断

    • 観測データ、精密画像、人工衛星データ:大容量入力

    • データ並列型の計算(並列化に向く)→ クラスタの利用

    • 同一データセットによる、計算の繰り返し

    • ネットワーク利用:データ通信、分散データベース

  • Bandwidth Intensive Computation

    • 動画像、Grid、クラスタ計算

    • ネットワークバンド幅が、情報処理の主なボトルネック

    • ネットワーク利用:プロセス間通信、リアルタイム画像

    • 短レイテンシ、高バンド幅


東大超高速ネットワークのためのデータ・レゼボワール

Internet

すばる

天文台

宇宙研

100Mbps

高エネ研

CERN

科技庁

UTnet

現在の方法

(磁気テープによる

データ通信)

100Mbps

気象庁

Computing

Servers


10 gbps
例えば、10超高速ネットワークのためのデータ・レゼボワールGbps

実質 10Gbps 使うとして

100 TB/day

4.5 TB/hour

たとえば

1 時間に DLT 100 本 程度

full-animation 100 本程度(polygon)

たとえば地震計16000台(1台 64Kbps @気象庁)

10Gbpsは将来への中間地点


10超高速ネットワークのためのデータ・レゼボワールGbpsは計算機屋には楽でない

  •  ネットワーク制御 (error rate, latency +   Window 制御)

  • ネットワークI/F (パケットの授受)

  • I/Oバスバンド幅

  • Software Overhead(OS,ライブラリ)

  • Disk I/O (read 20MB/ドライブ

    write 10MB/ドライブ)

    Data Resevoir の必要性


10 gbps1

NIC超高速ネットワークのためのデータ・レゼボワール

10Gbps通信制御

Ethernet   基本パケット長 = 1.5Kバイト

NIC

100ms (東大 ⇔ CERN)

6ms(東大 ⇔ KEK)

100μs

100μs

10μs

10μs

125 MB

7.5 MB

125KB

12.5KB

5K

8

83

83K


やっかいな問題超高速ネットワークのためのデータ・レゼボワール

  • Slow Startによるウィンドウサイズ成長(小さいファイルの場合)

  • 誤り発生によるウィンドウサイズの縮小

  • 自己相関による多数ストリームの不安定性

  • QoSの協調動作(総合的バンド幅保証)

  • 信頼性層バッファの大規模化

TCPウィンドウ

送信側

ACK

受信側


スーパー超高速ネットワークのためのデータ・レゼボワールSINETによるデータ通信

東大

一橋

Internet

すばる

Data Cache

Server

天文台

宇宙研

Data Storage

Stations

高エネ研

CERN

科技庁

スーパーSINET

関連部分

気象庁

Computing

Servers

UTnet


一般的な処理の流れ超高速ネットワークのためのデータ・レゼボワール(バランスの一般法則)

1TIPS(TFLOPS)

1TB Memory

100GB Disk

10GIPS(GFLOPS)

10GB Memory

1TB Disk

80命令/バイト入出力

1Gbps

1~10Gbps

10Gbps

8000命令/バイト入出力

10GIPS

10GB Memory

100TB Disk

10GIPS

10GB Memory

100TB Disk

10Gb/s

8命令/バイト入出力


Performance of mbcf on 100base tx

Work Station超高速ネットワークのためのデータ・レゼボワール

data size (byte)

data size (byte)

4

SPARCstation 20 (85 MHz SuperSPARC × 1)

16

4

64

16

256

64

1024

256

1024

1408

NIC

MBCF_WRITE

MBCF_WRITE, Half-duplex

24.5

Sun Microsystems Fast Ethernet SBus Adapter 2.0

27.5

0.31

34

1.15

60.5

4.31

172

8.56

11.13

11.48

Network

MBCF_FIFO

MBCF_WRITE, full-duplex

32

SMC TigerStack 100 5324TX (non-switching 100BASE-TX HUB)

32

0.34

40.5

1.27

73

4.82

210.5

9.63

11.64

11.93

MBCF_SIGNAL

49

Bay Networks BayStack 350T (switching 100BASE-TX HUB)

52.5

60.5

93

227.5

OS

SSS-CORE Ver. 1.1

Performance of MBCF on 100BASE-TX

Hardware

MBCF/100BASE-TX , Peak Band-width (Unit: Mbyte/sec)

MBCF/100BASE-TX , One way latency (μsec)


Peak bandwidth on 100base tx
Peak Bandwidth on 100BASE-TX超高速ネットワークのためのデータ・レゼボワール


Round trip latency on 100base tx
Round-trip latency on 100BASE-TX超高速ネットワークのためのデータ・レゼボワール


Performance of mbcf

Workstation超高速ネットワークのためのデータ・レゼボワール

data size (byte)

data size (byte)

4

4

Sun Microsystems Ultra 60 (450 MHz UltraSPARC-II × 1)

16

16

64

64

256

256

1024

1024

1408

MBCF

MBCF

NIC

9.6

2.29

Sun Microsystems GigabitEthernet/P 2.0 Adapter

5.67

11.0

22.30

11.5

55.41

16.2

78.22

35.9

80.92

TCP/IP

Network

TCP/IP

95.08

0.09

(direct connection by a cross cable)

0.43

95.22

1.67

95.39

5.56

99.45

12.79

114.15

20.21

OS and protocol

SSS-CORE Ver. 2.3

MBCF

Solaris 2.6

TCP/IP

Performance of MBCF

Hardware

MBCF/1000BASE-SX , Peak band-width (Mbyte/sec)

MBCF/1000BASE-SX , One way latency (μsec)


Peak bandwidth by 1000base sx mbcf write
Peak Bandwidth by 1000BASE-SX (MBCF_WRITE)超高速ネットワークのためのデータ・レゼボワール


One way latency with 1000base sx mbcf write
One way latency with 1000BASE-SX(MBCF_WRITE)超高速ネットワークのためのデータ・レゼボワール


ハードウェア解とソフトウェア解超高速ネットワークのためのデータ・レゼボワール

  • ハードウェアによる超高速単一データストリームの実現

    • 専用ネットワークプロセッサによるプロトコル処理

    • ワイヤスピードの実現

      • 計算機内部バスバンド幅による制限

      • ディスクとのバンド幅による制限

      • バッファ領域

      • TCPのウィンドウ制御の問題点

  • ソフトウェアによる超高速単一データストリームの実現

    • クラスタ計算システムによるデータ転送

    • L4スイッチングによる単一データストリーム化とワイヤスピードの実現

      • TCPの統一のとれた制御

      • ストレージレベルでのネットワーク化

      • 流量制御、特に遠距離通信における衝突の制御


超高速ネットワークプロセッサ超高速ネットワークのためのデータ・レゼボワール

  • 超高速ネットワークの有効利用への障壁

    • 光通信方式  → 1000Gbpsまで

    • 光・電気インタフェース → 10Gbpsまで

    • プロセッサへのインタフェース  → 0.5Gbps で限界

    • 信頼性ある長距離プロトコル  → 0.15Gbps で限界

    • プログラムとのインタフェース  → 0.2Gbps で限界

    • 暗号化/復号化通信  → 数10Mbps で限界か?

      現状では超高速ネットワークの効率的活用は無理

       ギガビット・イーサネットを最大能力で生かすネットワーク方式

      (メモリベースプロセッサ:MBP2 の研究・開発)


MBP2超高速ネットワークのためのデータ・レゼボワールプロジェクト

  • ギガビット・イーサネットを用いる

  • ユーザレベル通信用ネットワークインタフェースVLSIの新規開発

  • MBCF、TCP/IPのインタフェースカード上での実現

  • 暗号化/復号化のハードウェア的実現

  • フィールドプログラマブル

  •   ・ゲートアレイを用いた

  •   プロトタイプ


現在のクラスタ計算システム超高速ネットワークのためのデータ・レゼボワール

  • Beowulf class cluster

    • Single user system

    • MPI based message passing communication

    • Gang scheduling

  • Linux and Windows

    • multi-image operating environment

    • Very high overheads due to kernel structure

    • Lack of migration capability

  • Use of specialized network hardware

    • e.g. myrinet

    • memory mapped communication


  • 高速ネットワークを利用したい理学系プロジェクト高速ネットワークを利用したい理学系プロジェクト

    実験

    現在、テープでデータを物理的に運んでいる

    理学系で15 project 程度( over Gbit は2か3)

    グラフィックス/CAD (full-screen, interactive)

    現在、画像サイズ/rate /リアルタイム性を我慢

    大域cluster コンピュータ

    100Mbps~1G bpsで PC-cluster が組める。

    (SR8000 cluster はおそらく非現実的)


    理研高速ネットワークを利用したい理学系プロジェクト

    理学系研究科

    学内研究センタ

    放医研

    原研

    原子核科学

    研究センタ

    高エネルギー実験データ

    素粒子物理

    国際研究センタ

    CERN

    (ジュネーブ)

    高エネ研

    物理学専攻

    生物科学専攻

    医科学研究所

    ゲノム情報

    生物化学専攻

    三島

    岡崎

    京大

    地球惑星科学専攻

    地震研

    天文学専攻

    海外

    データベース

    地震・気象情報

    天文学教育

    研究センタ

    海半球研究センタ

    (気象庁)

    気候システム

    研究センタ

    すばる

    (米国・ハワイ)

    フェルミ・ラボ

    (米国・イリノイ)

    化学専攻

    地殻化学研究センタ

    天文観測データ

    国立天文台

    情報科学専攻

    木曾観測所

    宇宙科学研

    初期宇宙

    研究センタ

    地球シミュレーション

    衛星観測データ

    地球変動研究所

    空間情報科学

    研究センター

    人工衛星観測データ

    情報基盤センター

    地質調査所

    衛星観測データ

    新情報処理開発機構

    Global Grid

    高エネ研

    工業技術院

    原研

    超高速ネットワークを要する理学系の研究プロジェクト

    富士通研究所


    関連プロジェクト高速ネットワークを利用したい理学系プロジェクト


    Data resevoir
    Data Resevoir高速ネットワークを利用したい理学系プロジェクト

    ・格納速度

      10Gをリアルタイム保証するストレージシステムを、学内の計算ファシ   リティに分散して配置することはコスト面から現実的でない

    ・バンド幅保証

      通信データのキャッシングは、バンド幅保証が困難な学内ネットワークの先 ではなく、東大への入り口で行うことが必要である。

    ・拡張性

      シングルストリームの超高速性が要請される幹線ネットワーク接続と、運  用に弾力性があり、かつ多数の通信が錯綜する学内ネットワーク接続のイ  分離

    ・信頼性

       極高速ネットワーク上でのTCP通信は、非常に高い信頼性と、最適化された  TCPプロトコル制御が求められる。学内レベルではレイテンシが2桁以上  小さいため、信頼性/バンド幅保証に関する制約を著しく小さくすることが 可能であり、また既存機器とのコンパチビリティや運用上の最適パラメータ 設 定でも問題が発生しない


    データレザボワールの基本要件高速ネットワークを利用したい理学系プロジェクト

    • 遠隔ノード間でのファイルの共有

    • 遠距離通信と近距離通信の分離

    • 10Gbps バンド幅の最大限の利用(いわゆるワイヤ・スピード)

    • 近距離での高バンド幅NFSの実現

      • 汎用ハードウェアの利用

      • 汎用ソフトウェアの活用

        CPU能力   ⇒ パケット処理、NFS処理

        メモリ量    ⇒ バッファ領域、NFSキャッシュ領域

        ディスク数   ⇒ 必要なバンド幅の実現

        I/Oバス数   ⇒ 必要なバンド幅の実現

        NIC数    ⇒ 必要なバンド幅の実現

        ネットワーク/ディスク系のストライピングが必須


    データレザボワールの実現方式高速ネットワークを利用したい理学系プロジェクト

    解1)SMPを用いたファイル共有

    解2)SANを用いたファイル共有

    解3)ローカルディスクを持つクラスタを用いたファイル共有

    NFS ポート

    NIC

    メモリ

    NIC

    SWITCH

    NIC

    CPU

    メモリ

    NIC

    CPU

    CPU

    NIC

    NIC

    CPU

    メモリ


    SMP高速ネットワークを利用したい理学系プロジェクトを用いたデータレゼボワ-ル

    NFS ネットワーク

    ファイル転送/同期

    UFS

    NFS

    STRIPING層

    ・ 高価 (SMPのため)

    ・ メモリ共有が活用されない

    ・ プログラミングが容易(OSソースがある

                    場合)


    SAN高速ネットワークを利用したい理学系プロジェクトを用いたデータレゼボワ-ル

    NFS ネットワーク

    STRIPING層

    ファイル転送/同期

    STRIPING層

    UFS

    NFS

    SANのスイッチ

    または

    双頭FCディスク


    クラスタを用いたデータレゼボワ-ル高速ネットワークを利用したい理学系プロジェクト

    NFS ネットワーク

    NFS

    UFS

    ストライ

    ピング層

    ファイル

    分割制御

    ファイル転

    送/同期

    NFS

    UFS

    ストライ

    ピング層

    ファイル

    分割制御

    ファイル転

    送/同期

    NFS

    UFS

    ストライ

    ピング層

    ファイル

    分割制御

    ファイル転

    送/同期

    NFS

    UFS

    ストライ

    ピング層

    NFS

    UFS

    ストライ

    ピング層

    ファイル

    分割制御

    ファイル転

    送/同期


    Super SINET高速ネットワークを利用したい理学系プロジェクト

    10Gbps

    Data Resevoirの構成

    例:64way SMP

    16GE NIC

    L4 Switch

      100TBディスク

    Network Router

    Data Cache

    Server

    Gigabit

    Ethernet 1Gbps

    Data Storage

    Station

    例:32ノードクラスタ

    Myrinet+GE

      10TBディスク

    Computing

    Servers


    バンド幅の計算例高速ネットワークを利用したい理学系プロジェクト

    GEの実効転送能力

       300Mbps = 37.5MB/s

    PCIバスの実効転送能力

       528MB/s / 4 = 132MB/s

    CPUの処理能力

       2 × 1GHz /4 = 500Mops

    メモリバス転送能力  

       133MHz × 8 / 8 = 133MB/s

    CPU

    Memory

    GE・I/F

    PCI64/66(528MB/s)

    SCSI

    I/F

    Ultra160(160MB/s)


    タイム・スケジュール高速ネットワークを利用したい理学系プロジェクト

    • スーパー・SINET    2002年初めから稼動予定

    • データレザボワール・パイロットモデル

      • 1Gbpsネットワークに対応

      • 基本ソフトウェア要素の構築

      • 東大理学系 ⇔ KEK, 国立天文台で実験運用

      • 2001年10月 試験開始

      • 2002年4月  運用開始

    • データ・レザボワール(10Gbpsモデル)

      • (予算獲得に成功すれば)2003年3月 試験開始

      • 2004年4月  運用開始

      • ノード数:約64

      • ディスク容量 10Tバイト程度


    プロジェクトを支える体制高速ネットワークを利用したい理学系プロジェクト

    実験 → 共同実験施設、データのリアルタイム入出力

    ネットワーク → 100Gbpsの実現へ

    情報科学技術

    ・OS技術(特に、負荷分散、マイグレーション)

    ・セキュリティ技術

    ・高速通信プロトコル技術

    ・Grid用コンパイラ技術

    ・パーフォーマンスツール群

    ・可視化、アニメーション方式

    情報科学系のメンバー    平木、稲葉、玉造


    ad