富士通が理研の AI スーパーコンピューターをアップグレード

管理人 in ニュース

富士通は、最新の V100 Tesla GPU を搭載した NVIDIA DGX-1 サーバで理研の RAIDEN スーパーコンピュータを大幅にアップグレードしました。

TOP500 の NEWS 欄には、毎週スーパーコンピューターに関する最新情報が報告されています。残念ながら、日本のメディアではほとんど報道されません。
本ウェブサイトでは、それらのニュースを定期的に日本語で紹介していきます。

今回紹介する記事は、
Fujitsu Boosts RIKEN AI Supercomputer to 54 Petaflops
April 18, 2018

概要

Riken AIp Deep Learning Environment の略称である RAIDEN は、AI を専門とする理研の研究チームの主力スーパーコンピュータです。富士通の発表によれば、ニューラルネットワークのより複雑なモデリングと深層学習の訓練データ量の増加を処理するために研究者が必要とする計算量の増加に対応するためにアップグレードが行われました。

RAIDEN は当初、2017 年に NVIDIA の第1世代 DGX-1 サーバー 24 台を使用して導入されました。各サーバーは 8 台の P100 GPU で動作していました。これは深層学習用アプリケーションの仕様時に半精度 4 PFLOPS の性能を示していました。アップグレードでは、これらの元のサーバは最新の V100 GPU を使用した 54 個の DGX-1 に置き換えられました。 V100 には、ニューラルネットワーク処理用に特別に設計された特別な Tensor Core 回路（1 デバイスあたり 125 TFLOPS の混合精度浮動小数点演算）が搭載されているため、アップグレードされたシステムでは 54 PFLOPS の学習効果が得られます。

また富士通は、富士通サーバ PRIMERGY CX2550 M4 サーバ 64 台と PRIMERGY RX4770 M4 ユニット 1 台を、元のマシンの 32 台の PRIMERGY RX2530 サーバに追加しました。これらはすべて x86 専用のボックスであり、汎用コンピューティングを実行するためのものです。

拡張された RAIDEN マシンは、V100 のが搭載された最初のスーパーコンピューターの 1 つです。NVIDIA V100 GPUを採用する日本の AI Bridging Cloud Infrastructure (ABCI) スーパーコンピュータは、今年後半に運用開始になると、深層学習において 550 PFLOPS の性能を示す予定です。 ABCI マシンは、独立行政法人産業技術総合研究所（AIST）が運用します。

しかし、ABCIシステムでさえ、今年後半にオンラインになる予定の Summit and Sierra (DOE) スーパーコンピュータの登場によって小さなものとなるだろう。Summit は約 3 ExaFLOPSの、Sierra は 1.8 ExaFLOPS のパフォーマンスを深層学習において発揮する予定です。 DOE マシンの V100 GPU は、RAIDEN システムとは異なり、深層学習アプリケーションと主流の HPC ワークロードの両方を加速することが期待されています。

。。。スパコンの名前ってなんで厨二っぽいのが多いんでしょうか？

記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると幸いです。

参考文献

AI研究用計算機システム「RAIDEN」が優れた省エネ性能を示す
―1Wあたりの性能値で10 GFLOPSを突破―