独立行政法人 産業技術総合研究所【理事長 吉川 弘之】(以下「産総研」という)グリッド研究センター【センター長 関口 智嗣】は、超大規模データを複数拠点で協調して解析するグリッド技術の方式であるグリッドデータファームの開発に、他の研究機関と協力して取り組んでいます。このたび、国際会議SC2003において、この方式を実現するグリッド基本ソフトウェア「Gfarm」の実証実験に成功しました。
また、本日「Gfarm ver1.0」を正式リリースし、Web上で無償公開を開始しました。
Gfarmは、ネットワークにつながった世界中のたくさんのストレージを、1つのストレージとして使えるようにするソフトウェアです。全体で1つのファイルシステムを実現するため、ユーザは実際にデータを格納するリソースの配置場所を気にすることなく、超大規模データの処理を行うことができます。管理組織の異なるリソースも、グリッド単一認証技術を用いて、一度の認証で安全に共有できます。
Gfarmでは、大規模データの処理を世界中に分散させて処理することにより、データアクセスの局所性を利用し高い処理性能を実現します。同じデータの複製を複数の場所に置き、利用者に意識させること無く自動的に近くにあるデータを利用します。このため、プロセッサ台数に応じて性能が向上します。一部の装置が故障したりネットワークが不通になった場合には、他の複製を参照することにより高い信頼性を実現します。
今回の実験では、米国フェニックスで開催された国際会議SC2003(会期:2003/11/15-2003/11/21)において、日米の6拠点に分散した計236台のパソコンからなるPCクラスタ上に、1つの高速大容量共有ファイルシステム(記憶容量:70TB、テラバイト:1TBは1兆文字、70TBはDVD 1万5千枚)をGfarmにより実現しました。この高速大容量共有ファイルシステム上で1.8TBの大規模データを解析する実証実験を行い、安定した高い性能を確認しました。この分散環境における高い信頼性と性能を実現している点を評価され、同国際会議のバンド幅チャレンジコンテストにおいて「分散インフラストラクチャ(基盤技術)賞」を受賞しました。本成果は、日米の6機関(産総研、高エネルギー加速器研究機構、東京工業大学、筑波大学、APAN東京XP、米国インディアナ大学)が協力し、つくばWAN、APAN、SuperSINET、MAFFINからのネットワークサポートを得て構築したグリッド環境上で実現したものです。
日米の6機関は共同してグリッド環境上にGfarmの実証環境を構築しました。実証実験では、SC2003会場のPCクラスタ上に新しい超大規模データ(天文観測データおよび量子色力学のシミュレーション結果)が生成されたと仮定し、それを複数のPCクラスタ上で解析する処理を行いました。各拠点のPCクラスタが、生成された超大規模データの複製を生成し、その複製を用いて並列にデータ解析を行いました。本実験では、最終的に各拠点のPCクラスタに約300GB(ギガバイト)の複製を作成し、複数PCクラスタによる合計1.8TBの超大規模データ処理の実証実験を行いました。
今回のデータグリッド実験では、日本国内の高速広域ネットワークに、つくばWANとSuperSINET、日米間はAPAN / TransPACとSuperSINET、米国内は主にAbilene等の高速広域ネットワークおよび会場内のSCinetを利用しました。【図1】に利用したネットワークおよび計算機の接続を示すとともに、本実験で安定して利用できた各ネットワークのデータ転送性能および計算機性能を示します。
実際のアプリケーションで高い転送性能を実現するためには、単に高性能なネットワークを利用するだけでは不十分で、必要なデータを供給するために高速なファイルアクセス性能を実現することが必要です。Gfarmでは、ネットワーク上に分散したデータに対する処理を、そのデータを保持するリモートシステムに分散し、データアクセスの局所性を最大限に活用します。本実験環境では、合計で13GB/s(DVD 1枚を0.36秒で読み書きする速度)の高速ファイルアクセスを実現しており、これにより高いネットワーク転送性能を可能にしております。
本実験にあたり、産総研はグリッドデータファームのソフトウェア開発および実証実験環境の調整を、筑波大学は高エネルギー物理学のシミュレーションデータの作成を行いました。また、各参加機関は実証実験に関する議論を重ねるとともに、計算資源、ネットワーク資源、ディスク資源の提供および環境構築を行いました。
|
図1 本実験で構築したグリッド環境
|
産総研のグリッドデータファームの研究開発は国際標準を先導しております。産総研は他関連研究機関、企業と協力して、グリッド技術の標準化フォーラムGlobal Grid Forum(GGF)にグリッド・ファイルシステムWGの提案をしました。国際標準化により、世界規模のストレージ共有、統合が促進され、Gfarmで実現している大規模データ共有、大規模データ解析が容易に実現されるようになります。
グリッドデータファームは、(1)年間数PB(ペタバイト)の実験データの解析が必要な素粒子物理学や、(2)天文学における全天多波長の観測データの解析、(3)生命情報学の遺伝子解析などの大規模データ解析だけではなく、(4)電子政府・電子商取引などビジネス分野における高信頼なデータ処理や、(5)データセンターとして地理的に離れた拠点間の高速データ複製による冗長性の確保と負荷分散を行うことができます。大規模データを安全に高い信頼性を持って共有し、高速処理を実現するための基礎技術として非常に有効であり、幅広い産業応用が考えられます。