オープンプラットフォーム「AI橋渡しクラウド」が本格稼働
オープンプラットフォーム「AI橋渡しクラウド」が本格稼働
2018/09/30
オープンプラットフォーム「AI橋渡しクラウド」が本格稼働国内最強の計算力を持つ“ABCI”で、社会問題の解決を!
本格稼働が始まった産総研の大規模クラウド型計算機ABCI(AI Bridging Cloud Infrastructure)。世界のスーパーコンピュータの速度性能ランキングTOP500 Listの5位を獲得、国内最高性能の計算システムで、産学官連携による人工知能の社会実装を推進していく。
多様なユーザーが利用し、研究開発が進めやすい
──小川チーム長はABCIの開発・設計において中心的な役割を担われてきましたが、ABCI開発の目的をお聞かせください。
小川ディープラーニングをベースとする人工知能技術の発展により、AIで実現できることが同時多発的に増加しつつあります。しかし、わが国では、産業界の関心の高さの割に導入が進んでいないというのが現状です。ABCIの目的は、ステークホルダーの強みを伸ばし、AIのすみやかな導入を試す「場」を提供することで、人工知能技術の社会実装を進めることです。
特に、ディープラーニングは膨大な計算を前提としますから、アルゴリズムだけあっても、あるいはビッグデータだけを持っていても活かすことはできません。十分な計算能力がなければ、この両者を結び付けて、実際のアプリケーション開発や応用技術に発展させることは困難です。ABCIは、そのための「橋」を提供すること、そして国や企業等のビッグデータの保有者と、産総研や大学、国や企業の研究所といったアルゴリズムに関する技術シーズを蓄積する機関が、連携して研究開発を進められる環境を提供することを目的としています。
──ABCIは、これまでの産総研のAI用計算システムと、どのように役割が異なるのでしょうか。
小川産総研は1980年代からスーパーコンピュータの開発を続けています。一昨年度末にはABCIのプロトタイプとして、10分の1程度の規模の産総研AIクラウド(AAIC)を導入しました。AAICは性能上の限界により、産総研と、共同研究などによって直接連携をしている企業・機関のユーザーにしか開放してきませんでした。これに対してABCIは、独自のデータやシーズ、独自の目的を持った企業・機関のユーザーの方々にも幅広く使っていただけます。つまりABCIは、より高い計算能力を追求することによって、より多様なユーザーに柔軟に対応できるシステムになったのです。
世界5位、国内最高の計算能力が使える
──ABCIのシステムの特徴をお聞かせください。
小川ABCIは主に1088台の計算サーバーからなる高性能計算システムと、22 PB(ペタバイト)の大容量ストレージシステムという2つのシステムで構成されています。
このうち計算サーバーは、1台につきIntel社の高性能CPU2基とNVIDIA社の最新GPU4基に加え、384 GBのメモリー、1.6 TBのSSDを搭載しています。ABCI全体での理論的な最高性能は、特に人工知能やビッグデータ処理の分野で有効な半精度浮動小数点演算では550ペタフロップスに達します。また、倍精度演算で37.2ペタフロップス、単精度演算でも75ペタフロップスと、総合的に非常に高い計算性能を持っています。100の研究グループに対して同時に数ペタフロップスの計算資源を提供できるシステムは、日本には現在ABCIしかありません。
──世界のコンピュータ速度性能ランキングTOP500 Listでは、ABCIは5位となりました。
小川結果を聞いてホッとしたというのが正直なところですが、私たちはこの順位をあまり重視していません。TOP500は科学技術計算ベンチマークでの順位に過ぎず、AIアプリケーションによる大規模計算の結果がより重要だと考えています。また、ABCIはいわゆるスパコンのような大規模利用よりは、ニーズがはるかに多い中規模の利用を促進することに主眼を置いて開発されています。もちろん、それを実現するためには、計算機システムそのものが安定していないとできないので、TOP500のようなベンチマークを通じてシステムの安定性を示すことができたと考えています。
──ABCIの計算能力がどの程度なのか、わかりやすく教えてください。
小川一般的なPCを数万台つなぐスケールの計算をABCI1台でできるパワーがあります。
──省エネ性能ランキング(Green500)でも世界8位を獲得していますね。
小川Green500は冷却に要する電力を考慮しない省エネ性能ランキングであり、有用ではありますが、システム全体としての省電力性能を考えると部分的な指標でしかないと考えています。実のところ、ABCIの研究開発は人工知能研究センターの人工知能クラウド研究チームとRWBC-OIL*1の共同で進めましたが、どのようにすれば高密度・省電力・大規模なAI向けインフラを作れるのかという課題からスタートしました。
国内データセンターのサーバーラックあたりの電力供給能力・冷却能力は、2016年末時点で平均2.87 kVA(キロボルトアンペア)、2010年以降に竣工したデータセンターに限ってみても平均6.02 kVAと言われています*2。1台あたり最大2 kVA消費するABCIの計算サーバー 1088台を収容しようとすれば、360台以上のサーバーラックとそれらを設置するスペースが必要となり、現実的ではありません。これに対し、私たちはABCIシステムの導入を想定して、1平米あたり2トンの耐荷重性能と、サーバーラックあたり70 kVAの電力供給能力・冷却能力を持つ、高密度・省電力データセンター(AIデータセンター棟)を設計・構築しました。
AIデータセンター棟は、平屋建てでコンクリートスラブの床と非常に簡素な造りをしており、これは耐荷重性能を安価に達成するためです。また、AIデータセンター棟では32 ℃の高温冷却水を用いた直接液体冷却と、同冷却水を用いた空冷のハイブリッドシステムを構築し、サーバーラックあたり最大70 kVAの冷却を可能としています。冷却水の冷却は、年間を通じて建物の外にある冷却塔によるフリークーリングで行うため、消費電力が大幅に削減できます。省電力性に関しては、データセンターで使用しているすべての電力を計算機システムが使っている電力で割った「PUE(Power Usage Effectiveness)」という指標があります。この指標は通常のデータセンターでは優れたシステムでもせいぜい1.4~1.5ですが、ABCIでは最も条件の悪い夏場においても1.1程度と、設計通りの優れた省エネルギー性能が発揮できています。
これらの工夫により、ABCIでは計算サーバーをサーバーラックあたり34台、全1088台を32ラックに収容することが可能になりました。ちなみにサーバーラックあたりIT機器だけで1トン弱という規模です。従来のデータセンターに収容する場合にはこの10~20倍のサーバーラック数とスペースが必要になり、冷却に要する電力は最低でも3~4倍となります。
企業から学生まで、裾野の広いユーザーと連携
──連携を進めていく方法としては、どのようなものがありますか。
小川まず、「ABCIグランドチャレンジ」(6ページ参照)というプログラムを進めています。これはABCIの全システム1088台、GPU4352基を、24時間、1つの研究グループが利用する権利を無償で提供するものです。短い期間ですが、1088台すべてを一度に使うことで非常に大規模で複雑な問題を解くことができるので、例えば創薬のように大規模な計算を必要とし、産業に大きなインパクトがある重要課題に、産学官が連携して挑戦していただくことを想定しています。
ほかに、共同研究による利用はもちろん、HPCI連携など、複数の連携方法を提供していく予定です。HPCIというのは、理化学研究所の「京」を中心に、国内9大学および海洋研究開発機構の計算機センターを結んで相互利用する枠組みのことです。産総研はHPCIの運用開始時よりシステム構成機関として参画し、プライマリーセンター業務を担当していますが、2019年度よりABCIもHPCIのユーザーが利用できるシステムとする予定です。
さらに、連携とは少し異なりますが、AIST to B to Cモデルの実証も考えています。ここでいうBとはABCIを使ってクラウドサービスを提供する事業者のことで、産総研は事業者に計算機リソースを提供しつつ、その事業者が提供するサービスの利用者、例えば学生などにも個別にABCIを利用してもらうことを想定しています。それが実現すれば、研究者や学生などのユーザーが、ディープラーニングの実験やアプリケーション開発などに必要な開発環境をより簡便に利用できるようになり、国内発のイノベーションがさらに加速することが期待できます。また、B to C事業者の競争力強化にもつながります。
計算の高速化は、新たな応用を生み出す
──創薬のほかに応用が想定される領域は?
小川現在では、画像、動画、音声、テキスト、それにさまざまなセンサーからの情報といった多様なデータから、ディープラーニングを用いて、認識、異常検知、将来予測など、価値のある情報処理を実現する試行錯誤が各所で盛んに行われており、応用先はあらゆるところにあるといえます。ABCIは、多数の研究者が同時に使うのに十分な規模を備えているため、このような試行錯誤をアイデアが浮かんだときにすぐに試すことができます。
ABCIによる処理の高速化が応用上の意義を変える場合も多々あります。例えば、車で走りながら収集したセンサーデータを処理するのに通常のコンピュータで1週間かかるところ、ABCIならわずか10分でできるとなれば、10分後にはその道を走る人に対してここで事故が起きているとか、このイベントはどういうものかという情報を通知できるようになるなど、さまざまな応用が考えられるようになります。
また、ディープラーニングという技術は、まだ発展途上であり、膨大なデータ量と強力な計算能力によってブレークスルーがおこり、応用分野の飛躍的な拡大をもたらすことも期待されています。例えば、現在のディープラーニングが大きく成功している例は、あらかじめ正解と判定するラベルを付けたデータを用いる「教師あり学習」によるものです。一方で実社会のデータの大部分にはラベルが付いていません。このようなデータを活用する「教師なし学習」は「教師あり学習」に比べて桁違いに多いデータを集め、桁違いに多い学習処理をすることが必要です。ABCIは、このような新しい技術、新しい応用のためのテクノロジードライバーになるかもしれません。
──人工知能研究センターでは、工場やサービス業の現場に蓄積された知をAIで解析し、日本の産業力の強化につなげる試みをしているとお聞きしています。
小川はい、現在、産総研の臨海副都心センターにコンビニや工場の実空間を模した実験棟を建設中です。 この臨海副都心センターとABCIがある施設を100 Gbpsの高速ネットワークで接続し、実験棟で生成したデータをそのネットワークを使ってABCIに送り、大容量ストレージに安全に格納し、アプリケーションの開発に活用、社会実装を目指す予定になっています。
──「AI橋渡しクラウド」という名前はABCIの役割を象徴していますね。
小川AIの技術を産業界へ橋渡しし、社会実装することが最終的な目標なので、そのものずばりの名前をつけました。
ABCIの開発においては、データセンターの整備と高性能計算システムの構築・導入をそれぞれ独立で進め、データセンターを作る技術と、そこに導入する高性能計算システムの構築・運用技術を、それぞれ技術移転可能な基礎技術として確立することを目指しました。これも、AIを支える計算インフラ技術を市場の多様なニーズに応じて技術移転できるようにしたかったからです。AIを支える計算インフラが民間データセンター等に普及し、ABCIで開発したアプリケーションや学習モデルがどこでも使えるようになることも、私たちは社会実装の1つの形だと考えています。
──運用していく上で目指していることはどのようなことでしょうか。
小川先の回答とも関連しますが、技術移転がしやすい形でアプリケーションや新しい計算手法、学習モデルなどを開発できるようにすることです。特にABCIでは、ABCI上で作ったソフトウェアを他のユーザーが再利用したり、他の計算機システムでも利用したりといったポータビリティや相互運用性を実現するため、コンテナと呼ばれる使いやすいパッケージングシステムを導入しています。また、データや学習モデルの安全な利活用を促進するためのデータ基盤も整備して提供していく予定です。
ABCIでは、世界トップクラスの計算処理能力とデータ処理能力を手軽に利用できる環境を整えています。ぜひABCIの利用をご検討いただき、先進的な研究開発はもちろん、AIのいち早い導入を試す場としてお役立ていただきたいと思います。
*1: 産総研と東京工業大学が連携して進める実社会ビッグデータ活用オープン・イノベーションラボラトリ[参照元に戻る]
*2: IDC Japan「国内データセンター電力キャパシティ調査結果」(2016年12月8日)[参照元に戻る]
人工知能研究センター
人工知能クラウド研究チーム
研究チーム長
産総研・東工大実社会ビッグデータ活用オープン・イノベーションラボラトリ(RWBC-OIL)
副ラボ長
小川 宏高
Ogawa Hirotaka