1 / 42

超高速ネットワークのためのデータ・レゼボワール

超高速ネットワークのためのデータ・レゼボワール. 東京大学大学院理学系研究科 情報科学専攻 平木 敬. 2001年1月9日. 概要. ネットワーク( LAN,WAN)  の方向性 SUPER SINET 計画 東大における理学研究へのネットワーク利用 超高速ネットワーク通信の困難点 データレゼボワ-ルの概要 基本方式・基本設計 今後の課題. 情報システムのあり方. 過去から現在まで 1964年  汎用計算機システム元年 IBM360 CDC6600 HITAC5020 2000 年  MPP 時代 ( ASCI を除く)

lucky
Download Presentation

超高速ネットワークのためのデータ・レゼボワール

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 超高速ネットワークのためのデータ・レゼボワール超高速ネットワークのためのデータ・レゼボワール 東京大学大学院理学系研究科 情報科学専攻 平木 敬 2001年1月9日

  2. 概要 • ネットワーク(LAN,WAN) の方向性 • SUPER SINET計画 • 東大における理学研究へのネットワーク利用 • 超高速ネットワーク通信の困難点 • データレゼボワ-ルの概要 • 基本方式・基本設計 • 今後の課題

  3. 情報システムのあり方 • 過去から現在まで • 1964年  汎用計算機システム元年 • IBM360 • CDC6600 • HITAC5020 • 2000年 MPP時代 (ASCIを除く) • IBM SP Power3 1.4TFLOPS,375MHz 1336CPU,1.3TB • 日立 SR-8000   1TFLOPS, 896CPU (112PE) • 36年で、約100万倍の速度向上、100万倍のメモリ増大 • 大域ネットワーク • 50Kbps(1969)から 10Gbps(2000))  30年で20万倍の速度増加 2MFLOPS, 1Mバイトメモリ (CDC6600) 0.65MFLOPS,      256Kバイトメモリ (HITAC5020)

  4. CDC6600

  5. IBM/360 モデル67

  6. IBM SP Power3

  7. SR-8000 (著作権法に触れています。ごめんなさい ⇒ KEK)

  8. 情報システムの変身 • 過去4回の大きな変革 汎用コンピュータ 電子計算機の誕生 現在 イーサネット WWW 2030 1950 2000 2010 1940 1960 1970 1980 1990 2020 2040 2050

  9. Loadmap of LAN and WAN

  10. Loadmap of computing systems FLOPS 30 10 32G 27 10 1G 1Y Parallel Computers 32M 1Z Vector Computers 1E 1M 64K 1P 8K 16K 4K 1T Processor Chips 1K 256 1G 64 16 1M 70 80 90 2000 2010 2020 2030 2040 2050

  11. 科学研究における情報システム利用形態 • Numerical Intensive Computation (NIC) • シミュレーション、QCD計算、物性理論計算 • 入力パラメータ:少量、モデル計算中心:大計算量、可視化出力 • スーパーコンピュータは、NICに特化した形態 • ネットワーク利用:遠隔使用、画像出力、メールやWebなど • Data Intensive Computation • 実験データ解析、予測、診断 • 観測データ、精密画像、人工衛星データ:大容量入力 • データ並列型の計算(並列化に向く)→ クラスタの利用 • 同一データセットによる、計算の繰り返し • ネットワーク利用:データ通信、分散データベース • Bandwidth Intensive Computation • 動画像、Grid、クラスタ計算 • ネットワークバンド幅が、情報処理の主なボトルネック • ネットワーク利用:プロセス間通信、リアルタイム画像 • 短レイテンシ、高バンド幅

  12. 東大 Internet すばる 天文台 宇宙研 100Mbps 高エネ研 CERN 科技庁 UTnet 現在の方法 (磁気テープによる データ通信) 100Mbps 気象庁 Computing Servers

  13. 例えば、10Gbps 実質 10Gbps 使うとして 100 TB/day 4.5 TB/hour たとえば 1 時間に DLT 100 本 程度 full-animation 100 本程度(polygon) たとえば地震計16000台(1台 64Kbps @気象庁) 10Gbpsは将来への中間地点

  14. 10Gbpsは計算機屋には楽でない •  ネットワーク制御 (error rate, latency +   Window 制御) • ネットワークI/F (パケットの授受) • I/Oバスバンド幅 • Software Overhead(OS,ライブラリ) • Disk I/O (read 20MB/ドライブ write 10MB/ドライブ) Data Resevoir の必要性

  15. NIC 10Gbps通信制御 Ethernet   基本パケット長 = 1.5Kバイト NIC 100ms (東大 ⇔ CERN) 6ms(東大 ⇔ KEK) 100μs 100μs 10μs 10μs 125 MB 7.5 MB 125KB 12.5KB 5K 8 83 83K

  16. やっかいな問題 • Slow Startによるウィンドウサイズ成長(小さいファイルの場合) • 誤り発生によるウィンドウサイズの縮小 • 自己相関による多数ストリームの不安定性 • QoSの協調動作(総合的バンド幅保証) • 信頼性層バッファの大規模化 TCPウィンドウ 送信側 ACK 受信側

  17. スーパーSINETによるデータ通信 東大 一橋 Internet すばる Data Cache Server 天文台 宇宙研 Data Storage Stations 高エネ研 CERN 科技庁 スーパーSINET 関連部分 気象庁 Computing Servers UTnet

  18. 一般的な処理の流れ(バランスの一般法則) 1TIPS(TFLOPS) 1TB Memory 100GB Disk 10GIPS(GFLOPS) 10GB Memory 1TB Disk 80命令/バイト入出力 1Gbps 1~10Gbps 10Gbps 8000命令/バイト入出力 10GIPS 10GB Memory 100TB Disk 10GIPS 10GB Memory 100TB Disk 10Gb/s 8命令/バイト入出力

  19. Work Station data size (byte) data size (byte) 4 SPARCstation 20 (85 MHz SuperSPARC × 1) 16 4 64 16 256 64 1024 256 1024 1408 NIC MBCF_WRITE MBCF_WRITE, Half-duplex 24.5 Sun Microsystems Fast Ethernet SBus Adapter 2.0 27.5 0.31 34 1.15 60.5 4.31 172 8.56 11.13 11.48 Network MBCF_FIFO MBCF_WRITE, full-duplex 32 SMC TigerStack 100 5324TX (non-switching 100BASE-TX HUB) 32 0.34 40.5 1.27 73 4.82 210.5 9.63 11.64 11.93 MBCF_SIGNAL 49 Bay Networks BayStack 350T (switching 100BASE-TX HUB) 52.5 60.5 93 227.5 OS SSS-CORE Ver. 1.1 Performance of MBCF on 100BASE-TX Hardware MBCF/100BASE-TX , Peak Band-width (Unit: Mbyte/sec) MBCF/100BASE-TX , One way latency (μsec)

  20. Peak Bandwidth on 100BASE-TX

  21. Round-trip latency on 100BASE-TX

  22. Workstation data size (byte) data size (byte) 4 4 Sun Microsystems Ultra 60 (450 MHz UltraSPARC-II × 1) 16 16 64 64 256 256 1024 1024 1408 MBCF MBCF NIC 9.6 2.29 Sun Microsystems GigabitEthernet/P 2.0 Adapter 5.67 11.0 22.30 11.5 55.41 16.2 78.22 35.9 80.92 TCP/IP Network TCP/IP 95.08 0.09 (direct connection by a cross cable) 0.43 95.22 1.67 95.39 5.56 99.45 12.79 114.15 20.21 OS and protocol SSS-CORE Ver. 2.3 MBCF Solaris 2.6 TCP/IP Performance of MBCF Hardware MBCF/1000BASE-SX , Peak band-width (Mbyte/sec) MBCF/1000BASE-SX , One way latency (μsec)

  23. Peak Bandwidth by 1000BASE-SX (MBCF_WRITE)

  24. One way latency with 1000BASE-SX(MBCF_WRITE)

  25. ハードウェア解とソフトウェア解 • ハードウェアによる超高速単一データストリームの実現 • 専用ネットワークプロセッサによるプロトコル処理 • ワイヤスピードの実現 • 計算機内部バスバンド幅による制限 • ディスクとのバンド幅による制限 • バッファ領域 • TCPのウィンドウ制御の問題点 • ソフトウェアによる超高速単一データストリームの実現 • クラスタ計算システムによるデータ転送 • L4スイッチングによる単一データストリーム化とワイヤスピードの実現 • TCPの統一のとれた制御 • ストレージレベルでのネットワーク化 • 流量制御、特に遠距離通信における衝突の制御

  26. 超高速ネットワークプロセッサ • 超高速ネットワークの有効利用への障壁 • 光通信方式  → 1000Gbpsまで • 光・電気インタフェース → 10Gbpsまで • プロセッサへのインタフェース  → 0.5Gbps で限界 • 信頼性ある長距離プロトコル  → 0.15Gbps で限界 • プログラムとのインタフェース  → 0.2Gbps で限界 • 暗号化/復号化通信  → 数10Mbps で限界か? 現状では超高速ネットワークの効率的活用は無理  ギガビット・イーサネットを最大能力で生かすネットワーク方式 (メモリベースプロセッサ:MBP2 の研究・開発)

  27. MBP2プロジェクト • ギガビット・イーサネットを用いる • ユーザレベル通信用ネットワークインタフェースVLSIの新規開発 • MBCF、TCP/IPのインタフェースカード上での実現 • 暗号化/復号化のハードウェア的実現 • フィールドプログラマブル •   ・ゲートアレイを用いた •   プロトタイプ

  28. 現在のクラスタ計算システム • Beowulf class cluster • Single user system • MPI based message passing communication • Gang scheduling • Linux and Windows • multi-image operating environment • Very high overheads due to kernel structure • Lack of migration capability • Use of specialized network hardware • e.g. myrinet • memory mapped communication

  29. 高速ネットワークを利用したい理学系プロジェクト高速ネットワークを利用したい理学系プロジェクト 実験 現在、テープでデータを物理的に運んでいる 理学系で15 project 程度( over Gbit は2か3) グラフィックス/CAD (full-screen, interactive) 現在、画像サイズ/rate /リアルタイム性を我慢 大域cluster コンピュータ 100Mbps~1G bpsで PC-cluster が組める。 (SR8000 cluster はおそらく非現実的)

  30. 理研 理学系研究科 学内研究センタ 放医研 原研 原子核科学 研究センタ 高エネルギー実験データ 素粒子物理 国際研究センタ CERN (ジュネーブ) 高エネ研 物理学専攻 生物科学専攻 医科学研究所 ゲノム情報 生物化学専攻 三島 岡崎 京大 地球惑星科学専攻 地震研 天文学専攻 海外 データベース 地震・気象情報 天文学教育 研究センタ 海半球研究センタ (気象庁) 気候システム 研究センタ すばる (米国・ハワイ) フェルミ・ラボ (米国・イリノイ) 化学専攻 地殻化学研究センタ 天文観測データ 国立天文台 情報科学専攻 木曾観測所 宇宙科学研 初期宇宙 研究センタ 地球シミュレーション 衛星観測データ 地球変動研究所 空間情報科学 研究センター 人工衛星観測データ 情報基盤センター 地質調査所 衛星観測データ 新情報処理開発機構 Global Grid 高エネ研 工業技術院 原研 超高速ネットワークを要する理学系の研究プロジェクト 富士通研究所

  31. 関連プロジェクト

  32. Data Resevoir ・格納速度   10Gをリアルタイム保証するストレージシステムを、学内の計算ファシ   リティに分散して配置することはコスト面から現実的でない ・バンド幅保証   通信データのキャッシングは、バンド幅保証が困難な学内ネットワークの先 ではなく、東大への入り口で行うことが必要である。 ・拡張性   シングルストリームの超高速性が要請される幹線ネットワーク接続と、運  用に弾力性があり、かつ多数の通信が錯綜する学内ネットワーク接続のイ  分離 ・信頼性    極高速ネットワーク上でのTCP通信は、非常に高い信頼性と、最適化された  TCPプロトコル制御が求められる。学内レベルではレイテンシが2桁以上  小さいため、信頼性/バンド幅保証に関する制約を著しく小さくすることが 可能であり、また既存機器とのコンパチビリティや運用上の最適パラメータ 設 定でも問題が発生しない

  33. データレザボワールの基本要件 • 遠隔ノード間でのファイルの共有 • 遠距離通信と近距離通信の分離 • 10Gbps バンド幅の最大限の利用(いわゆるワイヤ・スピード) • 近距離での高バンド幅NFSの実現 • 汎用ハードウェアの利用 • 汎用ソフトウェアの活用 CPU能力   ⇒ パケット処理、NFS処理 メモリ量    ⇒ バッファ領域、NFSキャッシュ領域 ディスク数   ⇒ 必要なバンド幅の実現 I/Oバス数   ⇒ 必要なバンド幅の実現 NIC数    ⇒ 必要なバンド幅の実現 ネットワーク/ディスク系のストライピングが必須

  34. データレザボワールの実現方式 解1)SMPを用いたファイル共有 解2)SANを用いたファイル共有 解3)ローカルディスクを持つクラスタを用いたファイル共有 NFS ポート NIC メモリ NIC SWITCH NIC CPU メモリ NIC CPU CPU NIC NIC CPU メモリ

  35. SMPを用いたデータレゼボワ-ル NFS ネットワーク ファイル転送/同期 UFS NFS STRIPING層 ・ 高価 (SMPのため) ・ メモリ共有が活用されない ・ プログラミングが容易(OSソースがある                 場合)

  36. SANを用いたデータレゼボワ-ル NFS ネットワーク STRIPING層 ファイル転送/同期 STRIPING層 UFS NFS SANのスイッチ または 双頭FCディスク

  37. クラスタを用いたデータレゼボワ-ル NFS ネットワーク NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期

  38. Super SINET 10Gbps Data Resevoirの構成 例:64way SMP 16GE NIC L4 Switch   100TBディスク Network Router Data Cache Server Gigabit Ethernet 1Gbps Data Storage Station 例:32ノードクラスタ Myrinet+GE   10TBディスク Computing Servers

  39. バンド幅の計算例 GEの実効転送能力    300Mbps = 37.5MB/s PCIバスの実効転送能力    528MB/s / 4 = 132MB/s CPUの処理能力    2 × 1GHz /4 = 500Mops メモリバス転送能力      133MHz × 8 / 8 = 133MB/s CPU Memory GE・I/F PCI64/66(528MB/s) SCSI I/F Ultra160(160MB/s)

  40. タイム・スケジュール • スーパー・SINET    2002年初めから稼動予定 • データレザボワール・パイロットモデル • 1Gbpsネットワークに対応 • 基本ソフトウェア要素の構築 • 東大理学系 ⇔ KEK, 国立天文台で実験運用 • 2001年10月 試験開始 • 2002年4月  運用開始 • データ・レザボワール(10Gbpsモデル) • (予算獲得に成功すれば)2003年3月 試験開始 • 2004年4月  運用開始 • ノード数:約64 • ディスク容量 10Tバイト程度

  41. プロジェクトを支える体制 実験 → 共同実験施設、データのリアルタイム入出力 ネットワーク → 100Gbpsの実現へ 情報科学技術 ・OS技術(特に、負荷分散、マイグレーション) ・セキュリティ技術 ・高速通信プロトコル技術 ・Grid用コンパイラ技術 ・パーフォーマンスツール群 ・可視化、アニメーション方式 情報科学系のメンバー    平木、稲葉、玉造

More Related