テストレポート
Fusion APUセカンドインプレッション。CPUコア性能徹底検証でその立ち位置があらためて見えてきた
4Gamerでは1月にファーストインプレッションとして3D性能を検証し,「Atomよりは間違いなくゲーム向けだが,CPU性能には若干の懸念が残る」と指摘しているが,今回はそのCPU性能,とくにCPUコアである「Bobcat」(ボブキャット)に焦点を当てて,その特性をねちねちと調べてみたので,その結果をお届けしたい。
AMDの戦略を担うBobcatコア
その特性を探ってみよう
それは,4Gamerのベンチマークレギュレーション10.2に準拠する,GPU性能に比重を置いたものだったが,「Radeon HD 6310」というブランドネームのGPUコアを統合するE-350が,多くのテストで「Athlon II X2 250e/3.0GHz」に「AMD 890GX」を組み合わせたシステムと同等の3D性能を発揮していたのは,憶えている読者も多いのではなかろうか。
ただ,ファーストインプレッションで「“フレームレートに現れないもっさり感”があった」と指摘したCPUコア周りも,実際には軽視できない部分だ。
BobcatコアをベースとするFusion APUは今後しばらくの間,ローエンド〜エントリー市場でAMDの主力製品となるわけで,そのCPU性能が実際のところ,どの程度のものなのかは,押さえておく必要があるだろう。
AMDが公開しているブロック図によれば,Bobcatコアには整数演算パイプ2基,浮動小数点演算パイプ2基(※ただし,後者の2基はそれぞれ実行可能な命令が異なる),ロードストアユニット1基が用意され,「同時に発行される2命令を,同じパイプを使わないよう組み替える」ことで,並列度を上げられ(いきおい性能を上げられ)るというのが,Atomに対するアドバンテージとなる。
ただ,2011年2月下旬時点で,AMDから正式に公開されているBrazos関連のドキュメントは,固有のレジスタなど,システムプログラミングに必要な情報をまとめた「BIOS and Kernel Developer’s Guide」(※リンクをクリックするとpdfファイルのダウンロードが始まります)くらいしかない。少なくとも筆者はそれしか発見できていないが,いずれにせよ,性能面に関する情報は,レビュワー向けの概要説明ドキュメントを除くと皆無に近いため,「CPU性能が,Atomや,AMDが競合と位置づけるPentium 6000シリーズと比べてどの程度なのか」は,実際に調べてみるほかないのだ。
テスト環境は基本的にファーストインプレッション記事のときから変わっていないが,今回は新たに「Pentium E6500/2.93GHz」(以下,E6500)を追加してみている。AMDがE-350の競合としてPentium 6000シリーズの名を挙げているためだ。
もっとも,一口に「Pentium 6000シリーズ」と言っても,デスクトップPC向けのPentium E6000シリーズは,最低でも2.80GHz以上と高クロックに振られており,E-350の競合とは言いがたい。AMDの言う「Pentium 6000シリーズ」というのは,エントリークラスのノートPC向けに出荷され,動作クロックが1.86〜2.26GHzの範囲に収まるPentium P6000シリーズと見るのが妥当だろう。
だからといって,「ならPentium P6000シリーズと比べましょう」とはいかない。というのも,
- Pentium P6000シリーズはArrandaleコアで,2コア2スレッド対応,L3キャッシュ容量2MBというスペック
- Pentium P6000シリーズに対応したデスクトップPC用マザーボードは用意できていない(BGAパッケージの個体を実装した組み込み向け製品はいくつかあるようだが,PGA988パッケージに対応した自作PC市場向けマザーボードを,少なくとも筆者は見たことがない)
- Clarkdaleコアのプロセッサで代用しようとしたが,ClarkdaleベースでL3キャッシュ容量2MBという仕様の製品は存在しない
という,高いハードルがあるからだ。
そこでやむなく,WolfdaleコアのE6000番台で,AMD側の主張する条件を満たした,というわけである。
もっとも,先ほど述べたように,Pentium E6000番台の動作クロックは,E-350と釣り合わない。そこで,「そんな製品はない」のを覚悟のうえで,E6500の倍率変更を行い,1.60GHz(ベースクロック133MHz×12)で,E-350と揃えた状態でもスコアを取ることにした。なるべくテスト環境を揃えようと用意したグラフィックス機能統合型チップセット「Intel G41 Express」搭載のIntel製マザーボードでは倍率変更ができなかったため,1.60GHz動作にあたっては,別途「Intel P45 Express」搭載のGIGABYTE TECHNOLOGY製マザーボードを用意し,単体グラフィックスカードと組み合わせることにしているので,この点はご注意を。相当にイレギュラーだが,そもそも1.60GHz動作のE6500(以下,E6500@1.60GHz)が十分すぎるほどイレギュラーなので,参考データとしては十分に機能すると考えている。
また,同じくCPUコアの特性を見る立場から,「Athlon II X2 250e/3.0GHz」は,E-350と同じ1.6GHzにまで動作倍率設定を落とし,さらにAthlon II X2で標準設定となるデュアルチャネル構成(以下,X2@1.6GHz(DC)だけでなく,シングルチャネル構成(以下,X2@1.6GHz(SC))でもテストを行うことにした。
「Atom D525/1.80GHz」(以下,D525)は,テストによって「Intel Hyper-Threading Technology」(以下,Hyper-Threading)のオン・オフを切り替えており,それは「(HT ON)」「(HT OFF)」で区別することも,あらかじめお断りしておきたい。
総合ベンチマークで見る
E-350&Bobcatコアのポテンシャル
まずは,CPUパワーがかなりの比重を占める総合ベンチマーク「3DMark Vantage」(Version 1.0.2)で,Brazosプラットフォームの特徴を見ていこう。
PCMark VantageではGPU性能もスコアを左右するため,単体グラフィックスカードを組み合わせたE6500@1.60GHzのテストは省略していることをお断りしつつ,総合スコアをグラフ1にまとめてみた。
今回テストしているプロセッサの中ではダントツに動作クロックの高いE6500のスコアが高いが,E-350のスコアはE6500比で約64%。PCMark Vantageの総合スコアにはGPUテストも含まれるので,これがそのままE-350とE6500の性能差というわけではないが,かなり健闘していると述べていいのではなかろうか。
ほかのテスト条件と比較してみると,E-350のスコアはX2@1.6GHz(SC)と比べると約74%。一方,2コア4スレッド動作となるD525(HT ON)に対しては約32%高いスコアを示した。
E-350が総合スコアでまずまずの成績を残せている理由を探るべく,スコアの詳細を見てみよう(グラフ2)。そのまま掲載するとグラフ画像が大きくなるため,記事内には縮小版を示しているが,ここでは「Music」「TV and Movies」「Communications」「Productivity」といった,CPUやディスク周りの性能がスコアを左右する項目で,E-350とE6500の差が大きい。
もちろんこれは動作クロックが大きく異なるためだが,参考までにE6500@1.60GHzでテストしてみると,Communicationsは3119,Productivityは2729。E-350より順に29%,61%高い。メモリ周りを含めたE-350のCPUコア性能は,WolfdaleコアのPentiumに対して十分とはいえないようだ。
一方,グラフ2では「Gaming」のスコアでE-350がE6500にかなり近いところまで迫っており,これが全体のスコアを押し上げていると推測できるが,実際,Gamingテストスコアのうち,GPU性能を測る「Gaming 1」(GPU Gaming)だと,E-350はIntelプラットフォームに対して圧倒的な大差を付けている(グラフ3)。E6500――正確には「Intel G41 Express」の統合グラフィックス機能「GMA X4500」だが――に対しては2.8倍,D525に対しては10倍以上というスコアだ。
これは,ファーストインプレッションの結果を踏襲するものだが,ともあれ,GPU性能に関しては,競合を圧倒できると結論づけて問題ないだろう。
ただ,ゲームにおけるCPUの使われ方をシミュレートしたとされる「Gaming 3」だと,E-350はD525(HT OFF)を上回るのがやっと(グラフ4)。X2@1.6GHz(SC)比で7割強に留まり,E6500にはダブルスコアを付けられてしまっている。
もう1つ,E-350として不本意なのはTV and Moviesの結果だろう。
TV and Moviesは動画のトランスコードと再生を含むテストだが,グラフ5に示した高解像度MPEG-2の再生テスト結果「Video playback - MPEG-2 Blu-ray」を見る限り,GPUアクセラレーションは効いていないようだ。これではBrazosのパフォーマンスも伸びようがない。
もっとも,ファーストインプレッションでお伝えしているとおり,E-350はUVD 3による動画再生支援機能を持っている。今回の結果はあくまでも「PCMark Vantageではアクセラレーションが効かなかった」ということに過ぎないので,その点はご了承のほどを(※念のため付記しておくと,テスト開始後に公開された「Catalyst 11.2」をセットアップしても,状況に変化はなかった)
Brazosのメモリ性能は
芳しくない模様
PCMark Vantageは総合テストなので,これだけだとCPUやCPUコアの特性は見えてこない。そこで,比較的シンプルなベンチマーク項目で構成されているテストスイート「AIDA64」(Version 1.60.1300)を使って,E-350の演算性能そのをチェックしてみよう。
ちなみにAIDA64は,Version 1.60で,Fusion APUに正式対応している。
まずは,PCMark Vantageだとはっきり分からなかったメモリ周り。グラフ6はリードとライト,コピー時それぞれのメモリバス帯域幅を見たものだが,一見して分かるように,E-350のスコアは低い。同じシングルチャネルという条件のX2 250e(SC)に対して,どのテストでも半分以下のスコアしか記録できていないのが見て取れるだろう。「Memory Write」に至っては,D525の6割弱だ。
ただし,E-350とX2@1.6GHz(DC)およびX2@1.6GHz(SC)は同じメモリモジュールを用いているのに対し,D525はSO-DIMMで,E6500ではそもそもDDR2メモリが組み合わされていたりするので,100%横並びの条件にはならない。このことは,以後,メモリモジュールに関するテストではすべて当てはまるので,ご承知おきを。
前出の「BIOS and Kernel Developer’s Guide」に目を通す限り,E-350のメモリコントローラはチップセレクトインタリーブに対応しているなど,シングルチャネルのメモリコントローラとしては妥当な機能を持っていて,パフォーマンスを削ぐような仕様は見受けられない。
それだけに,X2@1.6GHz(SC)に大差をつけられ,D525のスコアにも届いていない理由を推測するのは難しそうだ。X2@1.6GHz(SC)のスコアはやや高すぎる印象もあり,Athlon II X2で容量1MBのL2キャッシュを搭載する効果が出ている可能性も否定できないため,スコアを額面どおり受け取るのは危険なようにも思われる。
ただ,回路規模や消費電力を抑える必要から,E-350でメモリコントローラが簡略化されている可能性はあるだろう。また,メモリコントローラの低電圧化,低クロック駆動の影響も,Athlon II X2ほどの性能は出せていない一因になっている可能性はありそうだ。
仮にそうだとすると,同じくPC3-10600メモリモジュールを組み合わせたD525のスコアが同様に低いことも説明できる。
いずれにせよ,メモリ周りの性能がBrazosプラットフォームの足を引っ張っていることは確かだろう。
続いて,AIDA64に含まれる主な整数演算系のテストを見てみたい。
グラフ7に示した「CPU Queen」は,「N-Queen問題」という古典的な問題を解くベンチマークで,分岐予測能力や分岐予測ミス時のペナルティがスコアに大きな影響を与えるとされる。ここで目を引くのは,Atom D525(HT ON)が,E-350どころか,X2@1.6GHz(DC)すら上回ることだが,CPU QueenはHyper-Threadingの効果が非常に高いスコアなので,E-350と比較するのに適切なのはD525(HT OFF)のほうだろう。
というわけで比較してみると,E-350のスコアはD525(HT OFF)比で約9%低いが,動作クロックもD525(HT OFF)比で約11%低い。このことを考えると,動作クロックあたりのCPU Queenにおける性能はE-350とD525(HT OFF)でほぼ同等といえそうだ。
分岐予測ミスがあると消費電力の増大につながるため,BobcatコアやAtomでは,分岐予測能力が重点的に強化されているというが,このあたり,両者に違いはあまりなさそうである。
整数演算を用いた画像加工をテストするCPU PhotoWorxxのスコア,これまでのPCMark Vantageの傾向を踏襲するもので,それほど面白い結果にはなっていない(グラフ8)。
ただ,Hyper-Threadingを有効化したD525(HT ON)がE-350と同等のスコアに落ち着いたあたりから,「In-Orderを採用する代わりにHyper-Threadingで並列度を上げる」というIntelの設計が間違っていないということは言えそうだ。
AES暗号のエンコード,デコード性能を見るCPU AESの結果も,PCMark Vantageの結果に沿った,順当なものといったところだろう(グラフ9)。
続いてグラフ10〜13は,浮動小数点演算系テストの結果だ。
まず,動画フォーマット「VP8」のエンコードを行うグラフ10の「FPU VP8」を見てみると,PCMark Vantageや整数演算テストのおおまかな傾向がそのまま出ているようだ。VP8のエンコードには,整数演算命令もかなりの割合で含まれていると思われるため,浮動小数点だけの傾向は出づらいかもしれない。
ここでE-350のテスト結果は芳しくなく,D525(HT OFF)にも届かないスコアしか得られていない。Bobcatコアは浮動小数点演算のパフォーマンスの高さがウリの1つになっているのだが,この結果を見る限り,少なくともSSE部分についてはそうとも言えないように思える。
64bit倍精度を用いてマンデルブロ集合を実行する「FPU Mandel」だと,少なくともE-350のスコアは「D525より若干高い」と言える程度のスコアを出している(グラフ12)。動作クロックが13%ほど低いことを思えば,Atomよりは高速な浮動小数点演算ユニットなのかもしれない。しかしここではむしろ,X2@1.6GHz(SC)比で約44%に留まることのほうが気になる。
そんななか,面白い結果になったのが,グラフ13の「FPU SinJulia」だ。FPU SinJuliaは,古典的なFPU命令セットを使い,80bit拡張倍精度でジュリア集合を実行するというテストだが,ここでE-350のスコアはD525(HT OFF)に対して100%,D525(HT ON)に対しても9%高いスコアを示し,X2@1.6GHz(DC)&X2@1.6GHz(SC)に肩を並べているのである。
古典的なFPU命令セットは使用頻度がかなり減ってきているので,そのパフォーマンスがよくても,あまり褒められるようなものではない。ただ,BobcatのFPUは64bit幅とされ,80bit拡張倍精度の演算にはかなりのオーバーヘッドが出るはずなのに,同クロックのAthlon II X2と同等のスコアというのは少々奇妙だ。
SSE命令セットを前にすると
得意不得意が分かれるFusion APU
Bobcatコアを採用するE-350には,メモリ周りの性能に難ががあることと,浮動小数点演算周りに謎があることがここまでのテストで見えてきた。それを踏まえて,ここからは,「Sandra 2011」(Version 17.25)と,筆者自作のテストコードを使ってもう少し詳しく見てみよう。
なお,Sandra 2011はシングルスレッド系のテストがメインになることから,D525のテストはHyper-Threadingを無効化した状態でのみ行う。
というわけでグラフ14は,演算性能を見る「Processor Arithmetic」の結果だ。
整数演算性能を測る「Dhrystone」だと,今回用意したCPUではすべてALU(Arithmetic and Logic Unit)が用いられるが,ここでE-350のスコアはX2@1.6GHz(DC)比で約71%,D525(HT OFF)比で約115%ということになった。あまりサプライズはないものの,ダイ全体に占めるBobcatコアのサイズを考えると,まあまあといっていいだろう。
一方,浮動小数点演算性能を測る「Whetstone」では,SSE3命令セットが用いられた。使用されるのは64bit倍精度浮動小数だが,ここでE-350はX2@1.6GHz(DC)比で85%のスコアを示し,D525(HT OFF)に対してはほぼ2倍の約193%というスコアを示している。同じく64bit倍精度浮動小数点数を使うAIDA64のFPU Mandelとはずいぶんと異なる結果といえ,どちらかといえばAIDA64のFPU SinJuliaに近い。
SSE命令セットのみを使う「Processor Multi-Media」の結果がグラフ15だ。
面白いのは,Integer x8(整数×8のSIMD演算)で,E-350のスコアが,同一クロックで動作するX2@1.6GHz(DC)を上回るところ。「整数のSIMD演算は,Bobcatが備える2基のSIMDパイプ中,片方でしか実行できない」という情報も聞いているのだが,性能が悪いわけではないようだ。
同時に,Float x4(32bit単精度×4のSIMD演算)やDouble x2(64bit倍精度×4のSIMD演算)の結果は,対D525という観点で興味深い。というのも,前者でE-350のスコアはD525(HT OFF)のそれに対して35%高いだけだが,後者では3倍にまで大きくスコア差が開くからである。
となると,E-350は単精度より倍精度のほうが得意なのだろうか? いろいろコードを書いて調べてみたのだが,どうやらそう単純な話ではないらしい。
グラフ16は,「32bit単精度×4の加減算を含む20命令のブロック」を100回実行し,20命令のブロックを実行するのにかかるクロック数の平均値を列挙したものだ。
クロック数なので,値が小さいほど良好という点に注意してほしい。また,コードがキャッシュに収まる関係で,メモリコントローラのた影響は受けないため,Athlon II x2 250eのスコアはシングルチャネルのものだけを代表して採用する。
さて,結果は2つの傾向に分かれており,E6500やX2@1.6GHz(SC)だと,加減算なら1命令/1クロックで実行可能。これに対してE-350とD525(HT OFF)だと,1命令の実行に約2倍のクロックがかかっていることが分かる。加減算において,E-350とD525の間に差はほとんどないといえそうだ。
続いて,「360個の32bit単精度頂点データを読み出し,積算や除算を含む,やや複雑な演算を行ってメモリに戻す」という処理のブロックを実行するのにかかった平均クロックをまとめたものがグラフ17だ。
こういった処理だと,D525のパフォーマンスは急激に悪化。一方のE-350はD525比半分以下のクロックで処理を終えてしまう。
AMDのK10系コアやIntelのCore Microarchitecture(以下,Core MA)系コアは128bit幅のFPUを持っており,浮動小数点演算命令の多くを1クロックサイクルで実行可能だ。一方のE-350は64bit幅の演算ユニットを持ち,演算パイプは整数,浮動小数点ともに2本。単純な加算と減算のみで構成されたブロックの実行に,K10やCore MAコア比で2倍のクロック数を消費する。
ただ,Bobcatコアには2本の浮動小数点演算パイプも用意され,片方に加算ユニット,片方に積算ユニットを持つ構成にもなっている。そのため,2つのパイプにうまく命令を流せる場合は,(ほとんどのケースで1本のパイプによる処理になる)Atomと比べて2倍の性能を出せる,というわけである。
こうした特性から,積算と除算を加え,やや複雑になった処理ではAtomに対して有意に高いスコアが出たのだろう。
AIDA64のテストでE-350は,トラディショナルなFPU命令の性能に優れる一方,それ以外のテストではあまり芳しくないスコアを残すなど,テストによってバラついた結果が出ていた。ただ,「Bobcatコアは2本の演算パイプを持つ以上,Atom系より高速だろう」とは言える。
もっとも,グラフ13のFPU SinJuliaで,E-350がX2@1.6GHz(DC)&X2@1.6GHz(SC)に迫るスコアを出した点――先ほど「奇妙だ」と指摘した部分だ――は,それだけでは説明できない気がする。80bit拡張倍精度の演算を,64bitのユニットしか持たないE-350で実行すれば,Ahtlon II X2に比べて2倍以上の時間がかかっても不思議はないからだ。
FPU SinJuliaのスコアはやや不自然すぎであり,Bobcatの80bit FPU命令の実行には,何か裏が隠されているかもしれない。
●ほかにもSandra 2011のテストを見てみる
さて,Sandra 2011ではほかにもいくつかテストを行ってみたので,以下,ざっくりと見ていこう。グラフ18はコア間のデータ転送性能(≒帯域幅)を測る「Multi-Core Efficiency」の結果だ。
2コアで共有される容量2MBのL2キャッシュを搭載したE6500が,キャッシュに収まる範囲で高いスコアを示すが,それ以外はどんぐりの背比べといったところ。E-350だけ特別にどう,という傾向もないようだ。
グラフ19に示した「Memory Bandwidth」のスコアは,AIDA64のそれとほぼ同じ傾向で,E-350のスコアはぱっとしない。Sandra 2011のメモリバス帯域幅テストは整数演算と浮動小数点演算の2項目でテストされるが,両者間の目立った違いもとくにない印象である。
続いて,キャッシュとメインメモリの帯域幅を総合的に見る「Cache and Memory」のテスト結果がグラフ20。ここでも,性能に定評ある共有L2キャッシュを搭載したE6500のスコアが目を引く一方,E-350のスコアはぱっとしない。
ただ,キャッシュに収まる64kB以内で,E-350がD525より有意に高いスコアを示しているのは目を引くところだ。キャッシュの性能はAtom系より高いと見てよさそうである。
なお,E6500のスコアが1GBのところで0.00になっているのは,なぜかスコアが記録されなかったためだ。グラフの仕様上0.00表記だが,実際には「N/A」なので,この点は注意してほしい。
最後,グラフ21は「Memory Latency」のテスト結果だ。
いずれのプロセッサもキャッシュに収まる範囲のレイテンシは非常に低い。D525(HT OFF)だけ,キャッシュから外れる範囲で急激に大きくなるが,E-350はそんなこともなく,X2@1.6GHz(DC)やX2@1.6GHz(SC)とほぼ同じだった。
「Atom対抗」が鮮明となるE-Series
次世代品ではメモリ周りの性能向上に期待
ファーストインプレッション記事では,位置づけを考えると相当に高いGPU性能,そしてCPUの“もっさり感”について言及したわけだが,ここまでのテストを終えてみると,K10やCore MAと比べ,同クロック比で1段落ちるCPU性能,そして目立って低いスコアを示すメモリ周りの性能が原因ではないかという思いが強くなってくる。
もう少し細かく言うと,グラフィックスなどで重い負荷がかかっているときに、反応が鈍くなる傾向が強いようなのだが,今回の結果も踏まえて推測するなら,メモリバスなどがビジーになっている可能性を指摘できそうだ。メモリ周りが改善されれば,もっさり感もかなり緩和されるように思う。
ただ,統合型GPUコアも含めた総合的な性能では,相当にいいバランスにある。カジュアルな3D&2Dゲームタイトルのうち,CPU性能よりもGPU性能が快適さを左右するもの(や,4Gamer的には無関係だが,UVD 3を使った高解像度ビデオ再生など)に絞るなら,競合製品や,AMDのエントリーCPU搭載モデルと互角以上に戦っていけるのではなかろうか。
同時に,次世代品では,明らかな弱点といえるメモリ周りの改善に期待したい。素性は悪くないので,今後の成長が楽しみなプロセッサだとまとめられそうだ。
- 関連タイトル:
AMD E-Series,AMD C-Series
- この記事のURL:
(C)2011 Advanced Micro Devices, Inc.