IBM が V100 GPU をクラウドに導入

NVIDIA が昨年末に発表した最新 GPU である V100 を IBM がクラウドに導入したようです。

TOP500 の NEWS 欄には、毎週スーパーコンピューターに関する最新情報が報告されています。残念ながら、日本のメディアではほとんど報道されません。
本ウェブサイトでは、それらのニュースを定期的に日本語で紹介していきます。

今回紹介する記事は、
“IBM Brings V100 GPUs to its Cloud”
February 1, 2018

概要

IBM のジョン・コンシダイン (John Considine) GM のブログ記事によると NVIDIA の新しい GPU が、同社のベアメタルサーバーで利用できるようになったようです。従来の GPU クラウド製品（P100、K80、M60）と同様に、IBM は HPC や AI や機械学習のワークロードを加速しようとしているユーザーを主に狙っています。

コンシダイン氏は、古い P100 ハードウェアを採用したクラウドベースの利用例をいくつか挙げています。「最初の例は、レーダーデータに基づいて小惑星の 3D モデリングをスピードアップするために GPU を使用した NASA Frontier Development Lab の例や。平均して 35 個の新しい小惑星と近地球物体が毎週発見され、現在は専門家が利用できるデータが増えていまんねんわ。既存の 3D モデリングプロセスには数カ月かかることがあるんやが、P100 クラウドサーバを使用すると、5 倍から 6 倍のスピードアップが実現したんや。2 番目の使用例は、SpectralMD と呼ばれる医療機器会社のもので、GPU アクセラレーションを使用して Deep Learning モデルをテストし、傷の治療オプションを選択するのに役立ったんや」。コンシダイン氏によると、SpectralMD は、P100 装置を使用してモデルの相互検証を数週間から数時間に短縮することができたようです。

V100 GPU は、これらの P100 よりもかなり強力です。倍精度浮動小数点演算では約 50 ％、Deep Learning の計算では数倍高速です。少なくとも最初は IBM は、倍精度で 7 TFLOPS、単精度で 14 TFLOPS、Deep Learning/混合精度で 112 TFLOPS の PCIe ベースの V100 デバイスを採用するようです。 NVLink ベースの V100 はわずかに高速で高価ですが、IBM は現在多くの GPU を搭載したPower8/ 9-V100コンボまたはサーバー構成をまだ提供していないため、NVLink によって高速化されたデータ転送では、それらの実装はまだ完了していません。

1 つの V100 と 2 つの 16 コア Xeon CPU（E5-2640 v4）を搭載したベアメタルの IBM クラウド・サーバーは、月額 1,819 ドルでレンタルできます。そのうち 900 ドルは GPU 自体のためのものです。 2 番目の GPU のオプションにはさらに 900 ドルかかります。 IBM の P100 ベアメタル・サーバーの開始価格が月額 1,569 ドルであることを考慮すると、アプリケーションで余分なフロップを利用できる場合、V100 サーバーはお買い得なものになる可能性があります。 V100 の理論的性能のほんの一部を絞り込めない、または絞り出すことができない場合、P100 は価格パフォーマンス面でより良い選択肢になります。

しかし、IBM のみがクラウドに NVIDIA の最新 GPU を実装している訳ではありません。Amazon、Microsoft、Baidu もパブリッククラウドサービスのために V100 を採用しています（Googleはまだホールドアウトしています）。NVIDIA が CUDA とそのマシンラーニングスタックを基盤にして GPU をユーザーが利用できるようにしたことにより、これらのクラウドプロバイダーにとって、これらのアップグレードの選択はずっと簡単になりました。 HPC と AI の両方のアプリケーションを加速させるための選択肢として NVIDIA GPU が使われ続ける限り、NVIDIA をサーバーに実装することは簡単であり、今後もそうなって行くでしょう。

感想

NVIDIA Tesla V100 GPU は NVIDIA の最新の GPU です。昨年 12 月に発表されましたが、日本国内ではまだ未発売です。Server モデルのみ発表で、GTX シリーズはまだ発表されていないですが、3 月に発表されるのではという予測もあります。

管理人は TensorFlow 使って Deep Learning していますが、GPU は必須だと実感しています。体感的には CPU の 10 倍以上早くなる感じです。CUDA を入れておくと、難しい設定なしで TensorFlow-gpu で簡単に GPU を利用することができるので、あえて AMD の GPU を使おうとは思いません(TensorFlow-gpu は pip で簡単にインストールできます)。AMD の GPU を積極的に使った方が良い例は、、、ethereum のマイニングとかでしょうか？

個人的には、月額 1,819 ドルって高すぎないか？と思ってしまいます。V100 じゃなくて P100 で十分な気がしますし。。。

目次

概要

感想

参考文献

関連する記事

コメントを残す（投稿者名のみ必須）コメントをキャンセル

目次

概要

感想

参考文献

関連する記事

コメントを残す（投稿者名のみ必須） コメントをキャンセル

コメントを残す（投稿者名のみ必須）コメントをキャンセル