ニュース
[IDF]テクニカルセッションで公開されたSandy Bridgeアーキテクチャ。大幅強化されたGPUコアの秘密とは
Sandy Bridgeのパッケージ。Clarkdaleコアを採用した現行のグラフィックス機能統合型CPUとは異なり,単一のダイとなっている |
今回は,開幕基調講演のレポートに続き,より詳細な情報についてお伝えしたい。
固定機能ユニット追加やEU強化など
GPUコアを大幅に強化
筆者がSandy Bridgeのアーキテクチャで驚かされたのは,統合型グラフィックス機能が大幅に強化されたことだ。IDF 2010の開幕基調講演で,Intelの社長兼CEOであるPaul Otellini(ポール・オッテリーニ)氏は,Sandy Bridgeは2006年のプラットフォームに比べて25倍の3Dパフォーマンスを実現すると発表したが,テクニカルセッションでは,その性能向上の裏には大幅なGPUコアの改良があったことが明らかにされた。
Sandy Bridgeのグラフィックスアーキテクチャを担当したThomas Piazza氏(Intel Fellow, Intel Architecture Group, Director, Graphics Architecture, Intel) |
同社でSandy BridgeのGPUコア開発を担当したThomas Piazza氏は,従来のIntel製GPUコアでは,EU(Execution Unit,他社製GPUでのシェーダユニットに相当する)が,本来は固定機能ユニットが得意とする類の処理も担当していたため,処理能力が阻害されていた点に着目。Sandy BridgeのGPUコアでは,固定機能ユニットの追加とEUの強化を施すことで,大幅なパフォーマンスアップを実現したことを明らかにした。
固定機能ユニットの強化により,3Dグラフィックス処理の効率化と省電力化を実現。より複雑な処理などにEUを活用できるようにした |
EU自体もレジスタファイルを拡張するなどの機能強化が図られており,Piazza氏は「EUそのものの性能は従来の倍に向上している」と説明する。また,CPUコアと大容量の「Last Level Cache」(※CPUコアからはL3キャッシュ,GPUコア側からはL2キャッシュとなるため,このような表現になっている)を共有することで,メインメモリへのアクセスを低減。さらにGPUコアのデータがキャッシュにヒットした場合,メインメモリに直接アクセスするのに比べて4倍のメモリ帯域幅を実現できるため,パフォーマンス向上に大きく役立っていると解説した。
テクニカルセッション中では,「Sandy BridgeのGPUコアが,EUを何基搭載したか」が明確に示されることはなかった。しかしPiazza氏は「EUの性能が2倍に向上しているため,仮にEUが6基でも現行のIntel HD Graphicsコアと同等以上の性能を発揮できる」と,そのパフォーマンスに自信をのぞかせる。
Sandy BridgeでのEUの強化ポイント。より大きなレジスタファイルを備えることで,並列処理や複雑なシェーダ処理の効率化を図り,現行GPUコア比2倍のスループットを実現 |
またセッション中では,参加者の質問に答えて,Sandy BridgeのGPUコアがOpenCLに対応することも公開した。OpenCL対応により,いわゆる「GPGPU」(General Purpose GPU,汎用GPU)的な処理や物理演算など,グラフィックスに関するもの以外の演算処理にも利用できるようになったわけだ。
Sandy BridgeのGPUコアでは,パラレル(=並列)コンピューティング処理への対応もテーマの一つとされている |
GPU性能向上を支える
第2世代Turbo Boost
また,性能向上という面では,GPUコアにも適用される第2世代のIntel Turbo Boost Technology(以下,Turbo Boost)の存在も大きい。Sandy Bridgeでは,CPUとGPUコア,アンコア部(=メモリコントローラやPCI Expressインタフェースなど)のそれぞれに独立した電源供給と,電力・熱管理がなされた設計となっている。
Sandy Bridgeでは,CPUコア部とGPUコア部,アンコア部それぞれに,消費電力を管理する「Power Control Unit」を搭載。Turbo Boost動作がよりアグレッシブになると同時に,省電力性能を向上させている |
第2世代のTurbo Boostではこの設計を活かし,CPUの負荷が低い(=消費電力が低い)ときにGPU側をクロックアップ動作させたり,その逆にGPU側の消費電力の余裕分をCPUに割り当てたりできるようになる。合わせてSandy Bridgeでは,ハードウェア制御による厳密な電力や熱の管理が可能になったことで,ごく短時間であれば,規定の最大消費電力やTDP(Thermal Design Power,熱設計消費電力)を超えてプロセッサを動作させることもできるという。
Piazza氏は「グラフィックスに負荷がかかるアプリケーションでは,CPU側にあまり負荷がかかっていないことが多いため,このTurbo Boostによるグラフィックス性能アップは,かなり有効度が高い」と説明する。
Turbo Boost機能の強化点に関する解説。Sandy BridgeにおけるTurbo Boost時のヘッドルーム拡大が特徴とされている |
ただし,既報のとおり,Sandy BridgeのGPUコアにおけるDirectXへの対応は,DirectX 10.0に留まっており,「DirectX 11やDX 10.1には対応しない」(Piazza氏)。Sandy BridgeのGPUコアは「あくまでもメインストリームグラフィックス向け」と位置づけられており,Piazza氏は最新3Dゲームタイトルなどをプレイする場合は「別のソリューション(要は外付けグラフィックス)を考えるべきだ」と述べている。
報道関係者向けのセッション終了後,Piazza氏に「世の中には50ドルでDirectX 11が動作するグラフィックスカードも存在するが,Sandy Bridgeのグラフィックスを使うメリットはあるのか?」といった意地悪な質問も投げかけられたが,同氏は「人それぞれ,価値観が違う。Intelはより多くのユーザーが求める機能を優先する」と答えるに留まった。
CPUコア部のフロントエンドや
メモリクラスタにも多数の改良点が
Sandy BridgeのCPUアーキテクチャを担当したBob Valentine氏(Senior Principal Engineer, Global Micro-architect,Intel:写真右)と、リングバスの設計を担当したOpher Kahn氏(写真左) |
Sandy BridgeのCPUアーキテクチャは,Intelが現行CPUブランドのCore i7・i5・i3を踏襲する点などから,現行のNehalemアーキテクチャの延長線上にあると言われている。しかし,実際にはアーキテクチャの見直しが図られており,改良点は数多い。
Sandy BridgeのCPUコアにおける最大の強化点は,新たな拡張命令であるIntel Advanced Vector Extensions(以下,AVX)への対応であるが,CPU命令を発行するフロントエンドやメモリクラスタも,AVXへの対応を機に改良が加えられた。
フロントエンドでの改良点としては,命令キャッシュに付随する分岐予測ユニットに,μOp(Micro Operation,マイクロオペレーション)キャッシュが加えられた点が特徴だ。μOPがキャッシュにヒットした場合,演算処置のレイテンシ低減により並列処理パフォーマンスが向上。さらに使われないフロントエンド部を休止でき,電力消費を抑えられる。
Sandy Bridgeフロントエンドの改良点。μOpキャッシュ(資料中では「Uop Cache」と記載)が重要ポイントとされている |
一方,メモリクラスタに関しては,Nehalemアーキテクチャではロードとストア(アドレス/データ)ユニットがそれぞれ1基ずつ設けられていたのに対し,Sandy Bridgeではロード/ストアの両方に対応したユニットを2基にし,同時にデータ用のストアユニットを設けることで,1クロックあたり最大48バイトのロード/ストア(2ロード/ストア,1ストア)を可能にしている。
Nehalemアーキテクチャでのメモリクラスタ。ロードユニットが1基,ストアユニットがアドレス/データで1基ずつの構成だ |
Sandy Bridgeのメモリクラスタでは,ロード/ストアユニット2基+ストアユニット1基に拡張される。見たところデータロードユニットがなくなっているのだが,図を見る限りは左端のロード/ストアユニットはアドレス専用ではなく,アドレス/データ兼用のものと思われる |
また,Sandy Bridgeアーキテクチャ全体を見た場合の大きな特徴としては,CPUコアやGPUコアのモジュール化が進められており,CPUコア数やGPUコアなどの増減が容易に変更できる設計になっている点も挙げられる。
今回解説されたデスクトップPC向けの4コアSandy Bridgeでは,各CPUコアが2MBのL3キャッシュを持ち,それら4つのCPUコアとGPUコア,メモリインタフェースなどを収めるアンコア部(Intelでは,これを「System Agent」と呼ぶ)をリングバスで接続している。
このリングバスの設計を担当したOpher Kahn氏(Senior Principal Engineer, Sandy Bridge Interconnect and Integration Team, Intel)は,「モジュラー構造の採用によって,CPUのデュアルコア化やマルチコア化,GPUコアやアンコア部の強化も容易になった」とアピールしている。
- 関連タイトル:
Core i7・i5・i3-2000番台(Sandy Bridge)
- この記事のURL:
(C)Intel Corporation