V100 GPU のメモリ容量が 32 GB へと増量

昨年末に NVIDIA が発表した Volta 世代の GPU “V100“。なんと、16 GB だったメモリ容量が 32 GB へと倍増されたようです。

今年の GPU 技術会議で NVIDIA が発表した 3 つの製品について、簡単に紹介したいと思います。

TOP500 の NEWS 欄には、毎週スーパーコンピューターに関する最新情報が報告されています。残念ながら、日本のメディアではほとんど報道されません。
本ウェブサイトでは、それらのニュースを定期的に日本語で紹介していきます。

今回紹介する記事は、
“NVIDIA Refreshes V100 GPUs, Upgrades DGX Lineup”
March 27, 2018

概要

NVIDIA は、新たな Tesla 製品であるアップグレードされた V100NVLink switch と新しい DGX-2 機械学習プラットフォームをの 3 つを今年の GPU 技術会議(GPU Technology conference, GTC 2018)で発表しました。

V100 の機能で強化された部分は、ローカルメモリの容量を 2 倍に増やした点で、最大 32 GB になりました。 これは GPU チップと同じシリコン基板上に配置されたスタック型 HBM2 メモリで、グラフィックプロセッサ用の高帯域幅、低遅延データストアを提供します。今回の追加された機能は、データサイエンティストが深層学習モデルを訓練するために、より大きい複雑なニューラルネットワークを構築することを可能にし、数百の層と数十億のパラメータを容易に包含することができます。 NVIDIAによれば、メモリが制約されている HPC ワークロードの場合、追加された 16 GB のメモリがパフォーマンスも向上させ、一部のアプリケーションでは最大 50 % まで向上させます。

いずれの場合でも、より大きなメモリ容量があれば、CPU ボード上のメインメモリとの間でシャントデータを送受信する必要がなく、GPU 上でより多くの処理を実行できます。 一般的に、これは CPU-GPU メモリ転送によってボトルネックになるアプリケーションのパフォーマンスを向上させるはずです。 また、Intel の今後の Neural Network Processor (NNP) にも 32 GBの HBM2 が搭載されている事実も、NVIDIA が V100 のメモリ使用量を増やすためのインセンティブを与えたのかもしれません。

SAP はすでに、Brand Impact アプリケーション(ブランド露出のリアルタイムビデオ分析を実行する機械学習コード)への 32 GB メモリによる影響について評価しています。 イスラエルの SAP イノベーションセンターの Michael Kemelmakher 氏によると、アップグレードされた V100 GPU の追加メモリは、「より大きな ResNet-152モデルでより高精細な画像を処理する能力を向上させ、平均 40%のエラー率を削減しました」

NVIDIA は言及していませんでしたが、V100NVLink バージョンは、double precision TFLOPS で 7.5 から 7.8、machine learning/Tensor Cores TFLOPS で 120 から 125 に向上しました。 同様に単精度性能も向上しました。 それは 8 GPU のサーバーが PFLOPS の性能を機械学習で誇っていることを除けば、それほど大きな違いはありません。

32 GB V100 は現在利用可能で、今後のすべての NVIDIA DGX システムの基礎となります。 そして、下半期からは、IBMCrayHPELenovoSupermicroTyan の GPU アクセラレーション・ギアで新しい V100 を利用できるようになります。 オラクルはまた、クラウド顧客向けにアップグレードされた V100 を、今年下半期にも提供すると発表しました。

しかし、おそらく、より重要な製品ニュースは、NVIDIA が NVSwitch と呼んだ NVLink switch 製品です。18 ポートの NVLink 2.0 通信を提供するチップで、16個の V100 GPU を all-to-all topology で接続することができます。この 20 億個以上のトランジスタを搭載した TSMC 製デバイスは、総帯域幅 960 GB /秒です。 NVLink のメモリ一貫性機能を使用することにより、スイッチファブリックは複数の GPU 上で実行されるアプリケーションを統合し、HBM2 を統合されたメモリ空間として、処理を実行します。 このスイッチには、InfiniBand または 100 Gigabit Ethernet (GbE) を介して NVLink を実行することで、GPU サーバを互いにクラスタ化する機能もあります。

NVLink switch は、より大規模で複雑なニューラルネットワークを訓練するために、よりスケーラブルな GPU 搭載プラットフォームを設計することを可能とします。デザイン上の優れた点は NVIDIA 独自の DGX-2 プラットフォームです。 DGX-2 には、元の DGX-1 の 2 倍のメモリ拡張型 V100 GPU が搭載されています。 これは 12 チップの NVSwitch ファブリックなので、各 GPU は 300 GB /秒で他の GPU とそれぞれ通信することができます。

ご想像のとおり、8 個の GPU が接続された DGX-2 は、DGX-1 の性能の 2 倍の性能を発揮します。ホスト側も 2 枚の Xeon Platinum CPU1.5 TB のメインメモリを搭載してアップグレードされている。システムには 30 TBの NVMe SSDも装備されています。

ちなみに、アップグレードされた DGX には、8 つのInfiniBand EDR または 100 GbE ポートもあり、複数の DGX-2 ボックスを連動させることができます。 これは、密に統合されたマルチペタフロップのクラスタを構築することを可能にし、すべての GPU が NVLink 通信できます。 このようなシステムが 6 月の TOP500/GREEN500 に登場しても驚くことではないでしょう。

NVIDIA は新型 DGX-2 を $399,000(日本円約 4,235 万円)で販売しています。これは $129,00 だった 8 GPU DGX-1 からの大幅な値上げです。そして、電力消費量も 10 KWで、全モデルの 3.5 KWよりも大幅に増加しています。 しかし、そのコストに見合うくらいのより高いパフォーマンス可能です!

NVIDIA によると、DGX-2 システムは、Facebook によって開発された高度な言語翻訳モデルである FAIRSeq を約1日半で訓練することができます。 これは、8GPU DGX-1 が昨年、古い 16GB V100を使用した場合の 10 倍の速さです。 そのスピードアップのすべてが余分な GPU と大きなメモリ容量に起因するわけではありません。 NVIDIAはまた、いくつかの追加の最適化を含むソフトウェアスタックを更新しました。

実際に、新しく発表されたハードウェアを使用するために、NVIDIA は CUDA、TensorRT、cuBLAS、cuDDN、NCCL、およびその他の GPU 関連ミドルウェアの最新バージョンを提供しています。 同社はまた、32 GB V100NVSwitch、および新しい DGX 構成を利用するために、主要な深層学習フレームワーク(TensorFlow、Caffe2、MXNETなど)の実装を強化しました。

NVIDIA は今年の GTC で将来の GPU アーキテクチャを発表しませんでしたが、同社はハードウェアとソフトウェアの改良を組み合わせることで激しいペースで性能を向上させようとしています。 2013 年に NVIDIA は Fermi クラスの M2090 GPU を発表しましたが、2018 年の Volta クラスの V100 を使用すると深層学習の速度は 500 倍のパフォーマンス向上を示しており、従来の HPC アプリケーションも 25 倍の高速化を達成しました。どちらの場合でも、ムーアの法則を上回っています。

そして、それはおそらく最後の GTC 以来、NVIDIA が何をしてきたかに注目すべきでしょう。 トランジスターの縮小に頼る代わりに、同社はハードウェアとソフトウェアの共同設計、より特殊化したデバイスアーキテクチャ調整などを行い、GPUビジネスを強化しています。そのため、NVIDIA が Volta の次の GPU アーキテクチャーを念頭に置いているのかはまだ謎です。 おそらく来年…

感想

昨年末に発表された V100 のメモリ容量は 16 GBだったと思うので、約 2 倍に増えたことになります。機械学習などでは メモリ容量がネックになることがあるので、素晴らしい進歩だと思います。

また、NVswitch DGX-2 もとても高いパフォーマンスを示しています。しかし、価格が、、、。

やはり次に気になるのは、コンシューマーモデルの GTX シリーズですね。こちらもメモリが増加されると助かります。


記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると幸いです。

関連する記事

管理人: