OpenPower 注目を集める!

Google のデータセンターに Power9 サーバが導入されることが決定したそうです。このことにより、OpenPower が注目を集めています。

参考【TOP500】スパコンランキングの見方!【Graph500_Green500】

TOP500 の NEWS 欄には、毎週スーパーコンピューターに関する最新情報が報告されています。残念ながら、日本のメディアではほとんど報道されません。
本ウェブサイトでは、それらのニュースを定期的に日本語で紹介していきます。

今回紹介する記事は、
“OpenPower Gathers Momentum with Major Deployments”
March 21, 2018

概要

OpenPower の見通しが非常に明るくなりました、というのも Google がデータセンターに Power9 サーバを導入したことを発表したからです。また、Tencent、PayPal、Uber、Alibaba、およびLimeLight Networksが、それぞれ、さまざまなビジネスをサポートするために Power ベースの技術を採用しているというニュースということも重なりました。 この発表は、ネバダ州ラスベガスで開催された OpenPower Summit で行われました。

Google による Power の導入はしばしば行われてきました。 2016年には、Rackspace と IBM と協力してOpen Compute Project プラットフォームとして設計されたデュアルソケット Power9 サーバー “Zaius” を開発しました。 このサーバーは、新しいPower9 CPUと豊富なメモリとI / O機能により、かなりのパフォーマンスを発揮しました。 各ソケットは 8 個の DDR4 メモリチャネル、60 個の PCIe Gen4 レーン、16 個の OpenCAPI レーンをサポートしています。


(Zaius servers in Google datacenter. Source: Google)

Google のシステムハードウェアエンジニアの Maiire Mahony による OpenPower Summit のプレゼンテーションでは、Zaius の導入はまだ初期段階にあるとのことでした。 Mahony 氏は次のように述べています。「アプリケーションの数を増やし、マシン数を増やす準備が整いました」と。

同社はインストールされている Power9 サーバーの数を明らかにしていません。しかし、Mahonyは、Google がターゲットとするワークロード、つまり Gmail、YouTube、Google Map、Android、Chrome、Google Play、Search などの顧客から最も需要の高いワークロードに触れました。 後者は Google のパン・アンド・バター・アプリケーションであり、画像や動画の検索、音声仲介検索の使用には、単純なテキスト検索よりもはるかに多くの計算量を必要とするため、コンピュータによる要求がますます厳しくなっています。

Mahony によると、「タイプにかかわらず、検索作業負荷はスレッド数が増えるほどうまくスケールされます。 Googleでかなりの量のコンピューティングリソースを消費するウェブ検索では、コア数やスレッド数が増えることは良いことです。」

この分野では、Power9 の利点が目立っています。 インテルが Xeon CPU に実装している双方向同時マルチスレッドとは異なり、Power9 はコア当たり最大 8 つのスレッドをサポートします。 つまり、24 コアの Power9 プロセッサで同時に96スレッドを使用できます。 28 コア Skylake Xeon 8180 は 56 スレッドが最大になります。Google のパフォーマンステストでは、各 Power9 スレッドが Xeon のそれよりも優れたパフォーマンスを発揮しました。

Mahoney 氏はまた、Power9 のもう 1 つの可能なユースケースである Tensor Processing Unit (TPU) コプロセッサのCPUホストの使用方法を暗示しました。 Google は自社製の TPU を使用して、トレーニングと推論の両方の機械学習ワークロードを加速しています。 彼女は、現時点で Zaius サーバーに TPU を装備していると明示的には言っていませんでしたが、Mahony はそうしたケースを説明しました。 彼女は、特定のリカレントニューラルネットワーク作業では、ホスト CPU に実行する他のタスクが与えられたときにアプリケーションの待ち時間が大幅に低下すると説明しました。 彼らが見つけたのは、DRAM の帯域幅でした。これは Power9 が提供しているものです。

Google はまた、Intel Optane SSDSamsung Z-SSD のようなストレージクラスのメモリを搭載したサーバに魅力を感じているようです。 残念ながら、これらのデバイスは Gen4 に比べると遅い PCIe Gen3 インターフェイスを使用しています。Mahoney氏は、OpenCAPI のように、はるかに優れた latency を持つインターフェースを介してサーバーに接続することができれば、Google がそのような技術にもっと興味を持つだろうと言っています。 今のところ、そのような製品は存在しませんが、そのようなハードウェアへの Google の関心は、そのようなデバイスを構築するためにいくつかの進出企業に拍車をかける可能性があります。

Google は OpenPower を導入している唯一のハイパースケール企業ではありません。Tencent とAlibaba Cloud (Ali Cloud) は、これらのサーバーの一部をデータセンターにインストールしています(Power9 プロセッサではなく、Power8 をベースにしています)。Tencent はこの技術の採用により、サーバとラックのリソースが 30% 節約され、全体的な効率が同量向上したと述べています。 Alibaba の場合、同社は Ali X-Dragon Cloud プラットフォームにこの技術を導入し、このハードウェアを使うよう顧客に呼びかけました。

ビッグハイパースケールからの一歩は、PayPal や LimeLight Networks のような企業で、どちらもOpenPower エコシステムに足を踏み入れています。 Paypal は、LimeLight が Power9 ハードウェアの PCIe Gen4 機能を使用して音楽やビデオストリーミングサービスを加速している間に、これらのシステムを使用して詐欺防止作業をスピードアップしています。

奇妙なのは Uber です。Uber は Oak Ridge National Lab と共同で、来るべき Summit スーパーコンピュータでいくつかのサイクルを借りています。 200 PFLOPS のマシンは、4,600 台以上の IBM サーバーで構成され、それぞれに 2 台の Power9 CPU と 6 台の NVIDIA V100 GPU が搭載されます。今夏にオンラインになる予定です。

Uber は、TensorFlow に基づく同社の分散トレーニングフレームワークである Horovod を実行するために Summit を使用したいと考えています。 同社の深層学習は、自己運転のナビゲーション、旅行の予測、不正防止などの多くの Uber アプリケーションをカバーしています。 特に、UberはHorovod とのスケーラビリティ、特に GPU の使用に関してエンベロープを拡張することに興味があります。

Uber のマシンラーニングチームのソフトウェアエンジニア、Alex Sergeev 氏によると、Summit の 27,000 GPU のうち、ソフトウェアで効果的に使用できるものがどれだけあるか心配しています。 スーパーコンピュータが深層学習パフォーマンスの 3 つのピークを誇ることを考えると、Sergeev はマシン上で最初のエクサスケール アプリケーションを実証できると考えています。

これらの発表の完全な文脈を知るには、OpenPower Summit の基調講演ビデオをご覧ください。ポップコーンをご用意してください。セッション全体は 2 時間以上あります。

感想

OpenPower foundation は power アーキテクチャー製品に関連する開発コミュニティです。2013 年に IBM により開発されたそうです。

Power だと 1 物理コアに対して 4 スレッド立てられるんですね!驚きです。

でも、gaussian だと実際の浮動小数点計算ユニットの数が重要なのでハイパースレッディングは関係ありません。Bios で ハイパースレッディングを OFF にした方が計算速度が上がりますし。

記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると幸いです。

関連する記事

管理人: