Summit Ridgeは冷却性能でクロックが変動 AMD CPUロードマップ  

アスキー 2016年12月19日(月)11時00分配信

 既報の通り、AMDは12月13日に“New Horizon”と題したイベントを開催し、この中でSummit RidgeことRYZENのプレビューを行なった。

AMD CPUロードマップ  
New Horizonのウェブキャスト映像より。説明するのはCEOのLisa Siu氏

 そこで発表の内容と、もう少し細かい話を解説しよう。まずはスペックの話である。Zenコアを搭載したSummit Ridgeベースのプロセッサーのブランド名はRYZENとなり、ハイエンド製品は以下の内容が明らかにされた。

 もっともこの話はそれほど新しいわけではない。1次/2次/3次キャッシュ構成については連載372回のスライドでも明らかにされているが、4つのコアについて、おのおの512KBの2次キャッシュが用意され、これとは別に1MBの3次キャッシュのスライスが8枚(つまり8MB)実装される。

AMD CPUロードマップ  
連載372回のスライド。3次キャッシュの構造を示したものだ

 2次+3次、という表現になるのは2次と3次キャッシュが排他の関係にあるからだ。つまり2次キャッシュに保持した内容は3次キャッシュから落とされ、逆に3次キャッシュに書き戻した内容は2次キャッシュから落とされる。

 このため、2次と3次で重複した内容は持たないので、理論上は4コアで合計10MB、8コアなら合計20MB分のキャッシュ容量がある、という計算になるわけだ。

 もっともこれは嘘ではないが正しいわけでもない。この計算が成り立つのは、「4つのコアのおのおのの2次キャッシュに格納されるデータ/コードが全部異なっている」場合のみで、例えば4つのコアの2次キャッシュにすべて同じデータ/コードが入っていたりすると、合計で8.5MB分、8コアでも17MB分という計算になるからだ。実際の効率は、当然動く環境によって異なってくるのでなんともいえないのだが。

 AM4プラットフォームに関しても、すでにロードマップで出ている話なので、これも別に新しい話ではない。AM4に関しては連載370回で触れた通り、USB 3.1のコントローラー回りに問題があったらしいが、来年リリースということは一応なにかしらの目処はついたものと思われる。

RYZENのベースクロックは3.4GHz以上
TDPは95W

 新しいのは、ベースクロックが3.4GHz以上であるとアナウンスされたことと、TDPが95Wと示されたことだ。以前の発表会におけるデモでは、3GHz駆動でのデモだったが、今回は3.4GHz駆動となり、「Core i7-6900K」との性能比較が行なわれた。

 ちなみにデモ内容はBlenderでのレンダリング性能比較、それとHandBreakを利用したトランスコードの性能比較が披露され、RYZENのおそらくハイエンドモデルは、「Core i7-6900K」と同等以上の性能を出せることが示された。

AMD CPUロードマップ  
レンダリング性能比較。左がRYZEN、右がCore i7-6900X。ほとんど同じ程度だが、よく見ると四隅に残っている未レンダリングのタイルはRYZENの方がやや少ない
AMD CPUロードマップ  
トランスコードの性能比較。RYZENの方ではタスクマネージャーの表示を隠しているのが少しおかしい

 またデモの中で「Core i7-6900KはTDPが140Wだが、RYZENは同等以上の性能を95WのTDPで実現している」と説明しており、動作周波数はともかくTDPに関しては定格は95Wで確定らしい。

 もっともこれはハイエンドの8コア/16スレッドの数字で、メインストリーム向けの4コア製品などではまた違った数字になると思われる。

分岐予測、事前読込などを盛り込んだ
AMD SenseMI Technology

 さて、こうした性能とは別に内部についても若干の追加説明があった。今回、“AMD SenseMI Technology”として紹介されたものは5つの特徴が含まれている。こちらについては補足資料があるので、もう少し細かく紹介したい。

AMD CPUロードマップ  
5つの特徴。微妙に関係のないものを無理矢理1つにまとめたという気もしなくはない

 まずNeural Net Predictionだ。「人工知能による分岐予測」というのは少し大げさで、実際はパーセプトロンを利用した分岐予測であることがすでに明らかにされている。

AMD CPUロードマップ  
ここからは、AMDが先日アメリカで開催したAMD Tech Summitの資料を元にお届けする。ところでこのスライドは、Neural Net Predictionについてなにも説明していないに等しい

 原理は最近流行しているディープラーニングと同じで、3層以上のネットワークを構築することで効果的に動作する。これは、特に履歴を増やす場合に有効で、通常の分岐予測テーブルに比べて少ないリソースで実現できる利点がある。

 欠点は予測に要するレイテンシーが増えることだ。精度を上げるにはネットワークの層数を増やすのが効果的だが、層数を増やすと処理が重くなり、レイテンシーや消費電力が増える。

 そこで、通常は解くべき問題、今回の場合で言えば分岐予測の精度とのバランスを取ることで層数を決めるのだが、このあたり、どの程度の規模のネットワークなのかは興味がある。

 次がSmart Prefetch。これに関してはあまり詳細な話はないのだが、HotChipsにおけるスライドでも多少言及がある。

AMD CPUロードマップ  
Smart Prefetch。プリフェッチの目的はデータアクセスの場所を予測し、事前に読み込むことである

 ここで"Better L1 and L2 data prefetcher"とあるあたりが若干のヒントになる程度か。もともとプリフェッチ自身は、K6以降のAMDのプロセッサーではごく当たり前のように搭載されている。特に初代APUであるLlanoでは、確か全部で10個ほどのプリフェッチユニットが搭載されていたと記憶する。

 この世代は、CPU+GPUで猛烈なメモリー帯域を必要とし、その一方でメモリー自身が遅くてボトルネックになっていたため、プリフェッチを多用して限界までメモリーアクセスの効率を上げようとしていた。

 しかしこの当時も、この後のKaveriの世代でもプリフェッチそのもののアーキテクチャーはパターン予測、つまりメモリーアクセスが行なわれる順を見て、次にアクセスされるであろうアドレスを予測する方式で実装されていた。

 もう少し賢いコンテキスト予測(*)については「研究中だがまだ実装していない」という返事をもらった覚えがある。

したがって、断言はできないのだが“Better”というあたりは、複雑なパターンでも解釈できるようにしたか、もしくは部分的にコンテキスト予測を実装したということはありえそうだ。

(*) データの性質や分岐予測の結果などから、次にアクセスされるであろうアドレスを予測する方式。

クロックや電圧をリアルタイム制御

 3つ目がPure Powerである。これは4つ目のPrecision Boostと同一のメカニズムを利用して実装されている。

AMD CPUロードマップ  
Pure Powerの概念図。ここまで劇的に下がるとは思えないのだが……
AMD CPUロードマップ  
Precision Boost。制御回路(クローズドループ)がどの程度の頻度で回っているのか、興味ある部分だ

 Pure PowerもPrecision Boostも制御サイクルは同じで、以下を延々と繰り返すだけの仕組みである。

 ではPurePowerとPrecision Boostはなにが違うかというと、センサーから取得したデータを基に「動作周波数を変えずに消費電力を下げる(=電圧を少しずつ落としていく)」のがPure Power、「消費電力を変えずに動作周波数を上げていく(周波数倍率を少しずつ増やしていく)」のがPrecision Boostとなる。

 シナリオとしては、例えばある重い処理が急に始まると、どんどん周波数倍率を上げて性能を引き上げることになる。この際には電圧も上げていくことになり、結果消費電力も急増する。

 さて、定格を超えてターボの最大値まで動作周波数が引きあがったとする。ここまでは、プロセッサー内部に置かれたテーブルをベースに、動作周波数と電圧を制御している。

 ただそのままターボ状態が続くようなケースでは、Pure Powerを使って動作周波数を変えずに、少しずつ消費電力を落とす方向での動的なチューニングが始まる。最終的にはその周波数が維持できるぎりぎりまで電圧を落とすことで、性能を落とさずに省電力化が可能になるというわけだ。

 逆に、先にTDPの枠がいっぱいになってしまった、つまり95Wに達したようなケースを考える。基本はその時点でこれ以上動作周波数が上がらない、いわゆるサーマルスロットリングが発生しはじめる状態のはずだが、これはあくまでもあらかじめプロセッサーの内部に置かれたテーブルをベースとした限界なので、実際はもう少しマージンがあることが考えられる。

 そこでここからは電圧を上げずに(ひょっとすると微妙に電圧を下げる可能性もありえる)、少しずつ動作周波数を引き上げるという仕組みだ。これがPrecision Boostで、ここで少しでも性能を稼ぐために、従来は100MHz刻みだった周波数倍率を25MHz刻みに変更している。

 プロセッサーがある状態に置かれたときに、そこからPure PowerとPrecision Boostのどちらが動くのか、あるいは動かないのかという基準が明示されていないので、どこからどう動くのかというシナリオは現状よくわからない。このあたりは今後開示されるのではないかと思われる。

 これらが絡んで5つ目として挙げられているのがExtended Frequency Range(XFR)である。

AMD CPUロードマップ  
冷却によって変わるExtended Frequency Range。特に液体窒素冷却の場合、TDPで判断すると全然効果がない。そこで、Tj(ジャンクション温度)をベースに判断しているものと考えられる

 これは一時的にせよPrecision Boostの最大を超える動作周波数を許すというものだが、冷却方法によって上がり方が変わり、しかも完全自働という話になっている。

 温度センサーからの情報を元に、冷却の度合いを測定して、空冷なのか水冷なのか、もっと強力なもの(液体窒素など)なのかを内部で判断し、それに応じて動作周波数や電圧の上げ下げの傾きを変えているものと思われる。またブーストの最大値を超える動作周波数をどの程度許すかの判断も行なっている模様だ。

AM4プラットフォームはRYZENと一緒に登場
Bristol Ridgeは2017年後半に延期?

 さてRYZENの話はこのあたりだが、New Horizonではもう1つ、VEGA<3542>のプレビューも行なわれた。

AMD CPUロードマップ  
再び発表会のWebcastより。“RIZEN+VEGA<3542>”の字が躍る

 今回はあくまでも動作デモであるが、RIZEN+VEGA<3542>の構成で、Star Wars BattleFrontを4K解像度、画質設定ウルトラで実施し、60fpsで動作することが紹介された。

AMD CPUロードマップ  
説明によればGeForce GTX 1080では48fpsとのこと

 ついでにもう少し補足情報をしておこう。冒頭で出てきたAM4プラットフォームの話であるが、下のスライドを見る限り、AM4は従来の保守的なプラットフォームに近い。

AMD CPUロードマップ  
AMD Tech SummitでのAM4プラットフォームに関するスライド

 つまりメモリーは2ch/4DIMM構成で、PCI Expressはx16+αという感じで、X99のようにメモリーが4ch/8DIMMやPCI Expressがx44という猛烈な構成ではなさそうだ。

 したがって、RIZENのハイエンドは、CPU性能はともかくとしてメモリー帯域ではX99と比べてやや見劣りするであろうことは避けられない。ただ、インテルもBasin Fallsのような構成を今後投入するわけで、KabyLake-XベースのBasin FallsではDDR4が2chになるようなので、実質的に大きな違いはないかもしれない。

 実際デスクトップ向けのワークロードで、DDR4が2chで帯域が不足するというのは、一部のエンコード処理くらいだろう。

 ところでそのSocket AM4プラットフォームの普及に貢献する予定だったデスクトップ向けのBristol Ridgeであるが、OEM向けにはすでに出荷されているものの、リテール市場向けは猛烈に遅れるようで、一説には2017年後半という話まで出ている。

 なんでこんなことになってしまったのかはさっぱりわからないのだが、とりあえずリテール向けのAM4はRYZENと一緒に登場という形になったようだ。

New Horizonのストリーミング映像

アスキー
もっと見る もっと見る

【あわせて読む】

    最終更新: 2016年12月19日(月)11時00分

    【関連ニュース】

    【コメント】

    • ※コメントは個人の見解であり、記事提供社と関係はありません。

    【あなたにおススメ】