発表・掲載日:2002/11/21

グリッド技術を駆使して日米拠点間での超大規模データ処理に成功

-1万km離れた日米間で、これまでに例のない707Mbpsのデータ転送を実現-

ポイント

  • 産総研で開発中のグリッドデータファームを用いて、日米7拠点に複製配置したテラバイトのデータを高速処理する実証実験に成功
  • 1万km離れた日米間で、これまでに例のない 707Mbps のデータ転送速度の達成を実測
  • グリッドデータファームにより日米の複数のPCクラスタを同時に稼動させて、大容量高速ストレージを構築
  • 超大規模データセンターの実現や、国際的な共同実験の超大規模データ解析に目処

概要

 独立行政法人 産業技術総合研究所【理事長 吉川 弘之】(以下「産総研」という)グリッド研究センター【センター長 関口 智嗣】は、超大規模データを複数拠点で協調して解析するグリッド技術「グリッドデータファーム」の開発に取り組んでいます。本日(日本時間:2002/11/21未明、現地時間:2002/11/20 AM11:00 )、米国ボルチモアで開催されている国際会議SC2002(会期:2002/11/16-2002/11/22)において、日米の7拠点を高速ネットワークで接続し構築したグリッド環境を用いて、本グリッドデータファームによる大規模データ解析の実証実験に世界で初めて成功しました。

 本成果は、日米の6研究機関(産総研、高エネルギー加速器研究機構、東京工業大学、東京大学、米国インディアナ大学、米国サンディエゴ・スーパーコンピュータ・センター)の協力の下、利用するネットワークとして、つくばWANAPANMAFFINのサポートを得て、SC2002会場を含む7拠点に分散配置された計190台のパソコンからなるPCクラスタ 7システムをグリッドデータファームにより統合し、18TB(テラバイト:1TBは1兆文字、18TBはCD 3万枚相当)の大容量データを高速処理できるグリッド環境の構築に世界で初めて成功したものです。さらに、拠点間の高速データ複製により1万km離れた日米間で707Mbps(1.毎秒8838万文字、2.CD 1枚分のデータを5.7秒で転送できる速度)の実効データ転送速度を初めて達成しました。なお、18TBの大容量ストレージは、特別な装置を利用することなくパソコンが備えるハードディスクにより実現し、データアクセスの局所性を活用することにより6600MB/s(CD 1枚を0.1秒で読み書きする速度)の高速アクセスをも実現しました。

 なお、本研究開発の一部は、経済産業省において実施している平成14年度重点分野研究開発委託費「ネットワークコンピューティング技術の開発事業[研究開発責任者 関口 智嗣]」の支援により行われている。

各拠点のネットワーク地図とPCクラスタ



ネットワーク環境および実験内容

 今回の実験においては、日本国内の高速広域ネットワークに つくばWAN と SuperSINET 、日米間はAPAN / TransPACNII-ESnet HEP PVC 、米国内は主にAbileneEsnet 等の高速広域ネットワークおよび会場内のSCinetを利用しました。

 日米の協力機関は、このグリッド環境によるグリッドデータファームを用いて、素粒子実験を模擬する大規模データを主に東京工業大学の大規模PCクラスタで生成し、他拠点のPCクラスタに数百GB(ギガバイト)規模の複製を作成し、複数PCクラスタによるTB規模の超大規模データ処理の実証実験に成功しました。(複製はPCクラスタのノードが故障した場合やネットワークが不通になった場合などのためのバックアップとして、また、複数のPCクラスタに処理を分散させて効率よく処理するために利用されます。)

 複製作成に必要なデータ転送では、日米間で理論的なネットワーク性能の7割に相当する707Mbps、米国内で1Gbpsの転送性能を達成し、併せて1.7Gbpsを達成しました。日米間は1万km離れており、光ケーブルによる通信遅延は往復で0.2秒にもなります。通常インターネットで利用されている通信方式では、これくらいの遅延があるとデータ転送速度は2Mbps程度に落ちてしまいます。グリッドデータファームでは、多数存在するパソコンのハードディスクから別のパソコンのハードディスクへと数百という数の並列データ転送を行うことにより、従来では考えられないデータ転送速度を達成しています。また、特に今回の実験ではTransPACの2本の日米ネットワークを効率的に利用することにより、通常の理論ネットワーク性能の2倍のネットワーク性能を達成しています。日米間で一つのアプリケーションによって707Mbpsの転送速度を達成したことはこれまでに例がありません。

 本実験にあたり、産総研はグリッドデータファームのソフトウェア開発および実証実験環境の調整を、高エネルギー加速器研究機構は素粒子実験シミュレーションのプログラム開発を行いました。また、東京工業大学の大規模PCクラスタにより計算資源を必要とする実験シミュレーションデータを生成しました。インディアナ大学およびサンディエゴ・スーパーコンピュータ・センターはPRAGMA(環太平洋におけるグリッドアプリケーションに関するコラボレーション)による共同研究として議論を重ねるとともに、計算資源、ネットワーク資源、ディスク資源の提供および環境構築を行いました。

本実験で構築したグリッド環境のネットワーク論理図

今後の予定

 グリッドデータファームは、TBあるいはPB(ペタバイト:TBの1000倍)規模の超大規模データに対する高速処理を、多くの人々が安全に共有することを目指したグリッド技術です。より高速なネットワークを用い、装置の規模を拡大することにより、今後必要とされる今回の実験の10倍の高速データ転送、100倍の大規模データに対する高速処理にも対応できます。今後は、欧州も含めた世界規模のグリッド環境により、さらに大規模な実証実験を進めていく予定です。

 グリッドデータファームは、1.年間数PBの実験データの解析が必要な素粒子物理学や、2.天文学における全天多波長の観測データの解析、3.生命情報学の遺伝子解析など大規模データ解析、4.大規模データシミュレーションを必要とする理論・実験科学だけではなく、5.電子政府・電子商取引などビジネス分野における大量のデータ処理や、地理的に離れた拠点間の高速データ複製による冗長性の確保と負荷分散を、行うことができます。世界規模のデータベースなど大規模データの高速処理を、多くの人々が安全に共有するための基礎技術として非常に有効であり、幅広い産業応用が考えられます。


用語の説明

◆グリッド
次世代インターネット技術として、計算資源、データベース、実験装置、個人携帯端末等を柔軟に安全に共有し、問題を解決するための技術のこと。グリッドは元来、電力網(パワーグリッド)に由来する言葉で、電力網により経済的で安定した電力の供給が可能になり電力というサービスを得られるようになったのと同様に、計算資源、ディスク資源などに対する経済的で安定したアクセスを可能とすることにより計算サービス、データベースサービスなどを安全に得られるようにするための基盤技術である。[参照元へ戻る]
◆ストレージ
コンピュータ内でデータやプログラムを記憶する装置。大容量で高速な処理が求められている。[参照元へ戻る]
◆ノード
通信ネットワークにおける送受信ステーション(コンピューター端末など)。ネットワーク上のどのステーションからもアクセス可能な装置。[参照元へ戻る]
◆SC2002
High-performance networking and computingに関する国際会議(本年は第15回)。毎年米国で開催されている。世界最先端の質の高い研究論文発表と、大規模な企業展示、研究展示が行われ約6000名の参加者がある。[参照元へ戻る]
◆つくばWAN
筑波研究学都市内の研究機関を超高速(10Gbps)のアクセスリングで結ぶネットワークで、筑波研究学園都市内に点在するスーパーコンピュータ、大規模データベース、高度なシミュレーションソフトウェアを先駆的に活用し、共同研究を行うことを目的としたネットワーク。[参照元へ戻る]
◆APAN
Asia Pacific Advanced Networkの略。アジア地域における先端ネットワーク研究と、高性能ブロードバンドアプリケーションの開発を促進し、アジア地域の重要なバックボーンネットワークの一つとなっている。[参照元へ戻る]
◆MAFFIN
農林水産省研究ネットワーク(Ministry of Agriculrure, Forestry and FIshries research Network)の略。[参照元へ戻る]
SuperSINET
10Gbpsの光通信技術を用いる研究用の高速ネットワークで、文部科学省国立情報学研究所が、平成14年1月4日から運用している。[参照元へ戻る]
TransPAC
APAN と米国の高速広域ネットワークを結ぶ日米間の研究ネットワークプロジェクト。NSF(全米科学財団)と文部科学省が推進している。[参照元へ戻る]
◆NII-ESnet HEP PVC
米国ESnet(Energy Sciences Network)と接続している高エネルギー物理学関連の研究所を結ぶためのネットワーク。[参照元へ戻る]
Abilene
Internet 2をサポートするための高速広域ネットワーク。[参照元へ戻る]
◆ESnet
米国エネルギー省の研究機関を結ぶ高速ネットワーク。[参照元へ戻る]
◆SCinet
国際会議SC2002 の会期中に設置される実験用高速ネットワーク。米国内の主な広域ネットワークと高速に接続している。[参照元へ戻る]
◆Internet 2
次世代インターネットの構築を加速することを目的とした、企業・米国政府を含む大学主導のコンソーシアム。[参照元へ戻る]

関連記事


お問い合わせ

お問い合わせフォーム