Ice Lake内蔵GPUは1TFLOPS以上の性能 インテルCPU/GPUロードマップ

Ice Lake内蔵GPUは1TFLOPS以上の性能 インテル CPU/GPUロードマップ

 ひさびさにインテルのロードマップをお届けしよう。4月2日にData-Centric Innovation Dayがサンフランシスコで開催され、ここで第2世代のXeon ScalableプロセッサーやOptane MemoryベースのPersistent MemoryというSSDが正式発表されたほか、10nmプロセスのFalcon MesaことAgilex FPGAなどが発表された。

 これらは基本的にはクライアント側にはあまり関係ない話題であるが(おそらくクライアント側の発表は例年通りCOMPUTEXとなるはずだ)、このイベントの前にいくつか興味深い発表があったので、まずはそれを順次説明していきたい。

10nmプロセスは先に進みすぎた

 インテルのSenior Fellowとして長年プロセス部門を統括していたMark Bohr氏が65歳になり、今年3月に引退された(すでにBiographyのページは削除されている)。その引退一ヵ月前の2019年2月に、OregonLiveがインタビューを行なった記事が掲載されているが、興味深い発言があった。引用すると

“We kind of overshot, I think, on our 10nm technology,”

“We bit off a little too much at that step,”

“Maybe we should have relaxed a bit in our goals and it would have been a much easier transition.”

 としている。ラフに訳せば以下のようになる。

「10nmプロセスで、我々は少しやりすぎた。」

「ちょっとだけ、先に進みすぎた。」

「目標をやや緩める必要があるだろうし、そうすれば容易に実現できるだろう。」

 筆者は連載483回でハイパースケーリング路線の放棄を予想したが、これを追認するような談話が出てきてちょっとほっとしている。単に予想が当たった、というだけでなく10nmプロセスをが正常化されそうな見込みが見えてきそうだからだ。

XeはやはりHPC向けか?

 やや古い話であるが、昨年6月の連載464回の最後で、インテルのGPUはひょっとしてAurora改のためではないか、と書いた。

 そのAurora改であるが、今年3月18日に米エネルギー省はインテルおよびCrayと正式に契約したことを明らかにした。

 現時点ではこのAuroraの詳細な構成は明らかにされていないのだが、プレスリリースの中で「(Auroraは)将来世代のIntel Xeon Scalable ProcessorとXe compute architecture、将来世代のIntel Optane DC Persisitent Memory、それとOne APIソフトウェアで構成される」と説明している。

 ちなみにAurora自体は200キャビネットを超える巨大なシステムであるが、このキャビネット間の接続はCrayのスリングショットと呼ばれるインターコネクトで接続されることになる。

 ということで、やはり予想通りXeはゲーミング向けも考慮されているが、Xeon Phiの置き換えのための用途が大きいことが明らかになった形だ。

 ちなみに契約金額は5億ドルを超えており、納入時期は2021年となっている。金額はともかくとして納入時期を考えると、おそらくXeonはIce Lakeの次、第4世代のXeon Scalableになるものと思われる。

 これはタイミング的な問題もさることながら、One APIを利用するためにはおそらくCXL(インテルが3月11日に突如発表した、QPI/UPIに代わる新しいCache Coherency Interconnect)の利用が前提と思われるためだ。

 CXLはPCI Express Gen5のI/Fを利用して構築されるため、Ice Lake世代(PCI Express Gen4対応)ではおそらく利用できない。プロセスとしては10nmのままか、もしくは7nmに移行するか不明(技術的にはどちらでもPCI Express Gen5対応は可能と思われる)だが、どちらにしても2020年末~2021年にかけて投入されるXeonでのサポートと考えられる。

第11世代GPUはメモリークロックを

猛烈に引き上げる力技で性能向上を図る

 3月20日~22日に開催されたGDC 2019において、インテルは9つほどTech Sessionを実施しているが、この中に“The Architecture of Intel Processor Graphics:Gen11”というものがあった。Gen11はIce Lakeに搭載されるGPUである。

 CES2019レポートでも触れているが、第11世代ではEUが64基で、1TFLOPS以上の性能という話になっている。

 もっとも、1TFLOPSの性能そのものは実は珍しくない。というのは、「Core i7-6970HQ」に搭載されているIris Pro Graphics 580(GT4e)は、最大動作周波数(1050MHz)の状態で1209.6GFlops(FP32)/2419.2GFLOPS(FP16)と1TFLOPS超えを果たしているからだ。

 ただメインストリーム向けのGT2では、1150MHz駆動でも441.6GFlops(FP32)/883.2GFlops(FP16)でしかなく、これを1TFLOPSまで引き上げたという話と考えられる。

 第9世代(つまりCoffee Lake)のGT2と、第11世代(Ice Lake)のGT2の仕様を比較したのが下の画像だ。

 基本的にはEUの数が24→64に増えており、これにともないほとんどの性能が3分の8倍に増加しているのが特徴である。ただFP32やFP16については順当に3分の8倍なのに対し、Int 8の演算については3分の4倍(1サイクルあたり1024演算:本来なら2048演算になるはず)に留まっている理由はここでは説明がなかった。

 またGPU自身の3次キャッシュも3MBまで増強され、さらにDRAMコントローラーの帯域を見ると、“Up to 2ch 3733”とおそろしいことがすらっと書いてあるのが気になる。

 要するに第11世代のDRAMコントローラーはDDR4-3733まで対応するものになっており、これをフルに使うとメモリー帯域は60GB/秒に達するため、EUの数を増やしても描画性能がスケールしやすいとされているようだ。

 実はインテルの第11世代で一番問題だったのがここである。先にCore i7-6970HQを引き合いに出したが、これは128MBのeDRAMをパッケージ上に搭載し、これがGPU用のフレームバッファとしても使えるため性能がフルに発揮できたのだが、GT2のグレードではeDRAMの搭載はまずありえない。こうなるとEUの数を増やしてもメモリーがボトルネックになって性能が上がりにくい。

 これはインテルだけの話ではない。メモリークロックの違いでどう変化する?の記事にもあるが、AMDのRyzen Gもやはり同じで、メモリークロックを引き上げると、自動的に描画性能も上がるという、要するにボトルネックがメモリーになっているという状況なわけだ。

 これはGPU統合型製品の宿命であって、これがいやだとそれこそKaby Lake-Gのように、GPU専用のメモリーをHBMなどで搭載するしかない。

 このあたりを第11世代でどうするのか不思議だったのだが、メモリークロックを猛烈に引き上げるという技で対応してきたのはなんかもうやけくそな感じすらする。

 今回はGPU周りで話が終わってしまったので、次週はCPU周りの話をしたい。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏