連載
西川善司の3DGE:RTX 2080 SUPER超えのミドルクラスGPU「GeForce RTX 3060」とノートPC向けGeForce RTX 30のポイントはどこに?
NVIDIA,Ampere世代のミドルクラスGPU「GeForce RTX 3060」や,ノートPC向け「GeForce RTX 30」シリーズを発表
北米時間2021年1月12日,NVIDIAは,CES 2021に合わせて開催した独自イベント「GeForce
GA106コアを採用するGeForce RTX 3060の仕様を予測する
もちろん,2019年にはメーカー想定売価349ドル(当時)の「GeForce RTX 2060」が登場している。だが,ことリアルタイムレイトレーシングについては「なんとか対応しました」という程度で,本格的にゲームで活用するには性能的に少々物足りないものだった。
今回発表となったGeForce RTX 3060の場合,GPUコア自体は開発コードネーム「GA106」というもので,「GeForce RTX 3080」に使われたハイエンドモデルである「GA102」や,「GeForce RTX 3070」および「GeForce RTX 3060 Ti」のGPUコアである「GA104」と同様に,Samsung Electronicsの8nmプロセスで製造されるものだ。本稿執筆時点でトランジスタ数は明らかになっていないが,ひとつ上のGA104が174億個なので,それよりは少ないと予想できる。GA102とGA104のシェーダコア(CUDA Core)数比から想定すると,GA106は110億個に近い値になりそうだ。
GeForce RTX 3060について本稿執筆時点で明らかになっている項目を挙げると,CUDA Core総数が3584基で,GPU定格動作クロックが1.32GHz,GPU最大動作クロックは1.78GHzとなっている。CUDA Core理論性能値は13 TFLOPSで,レイトレーシング性能値は25 RT-TFLOPS,推論アクセラレータ「Tensor Core」の理論性能値は101 TensorFLOPSであるという。そのほかに,メモリインタフェースは192bitで,GDDR6メモリを最大12GB搭載するといった情報が明らかになっている程度だ。
そのため,今のところはこれだけの情報から,それ以外の推測するしかない。まずはSM数だが,NVIDIAのAmpereアーキテクチャは,Streaming Multiprocessor(以下,SM)1基あたり,128基のCUDA Coreを統合する構成なので,GeForce RTX 3060のCUDA Core総数が3584基ということは,SM数は28基ということで間違いない。
- 128 CUDA Core×28 SM=3584 CUDA Core
続いて,NVIDIAのGPU内にあるミニGPUクラスタ「Graphics Processor Cluster」(以下,GPC)がいくつなのかだが,これは数字からの推測が難しい。先代のGeForce RTX 2060(TU106)系のGPC数は3だったので,今回も同じくらいである可能性は高い。しかし,仮に3だったとしても,SM数の28基は3で割り切れない値だ。
ただ,先代TU106がそうだったように,GPC 1基あたりのSM数を10だと仮定すると,
- 128 CUDA Core×10 SM×3 GPC=3840 CUDA Core
といった具合に,フルスペック版GA106の姿を想像できるようになる。つまりGeForce RTX 3060は,GPC 1基からSMを2基分だけ無効化したGPUというわけだ。メモリインタフェースが192bit(=64bit×3)という公開情報や,先代TU106の進化系という整合性もあるし,後述するノートPC版GeForce RTX 3060が,まさにCUDA Core数3840であり,リアリティのある予測と言えそうだが,絶対正しいという確証はない。
仮に,GPCが4基構成だとすれば,
- 128 CUDA Core×8 SM×4 GPC=4096 CUDA Core
という計算が成り立つ。この場合,GeForce RTX 3060は各GPCでSMを1基ずつ無効化したGPUとであると推測できるわけだ。ただ,この場合,フルスペック版GA106のメモリインタフェースは256bit(=64bit×4)でないと不自然な気もする。とはいえ,先代TU106は,GPC 3基構成でメモリインタフェースが256bitだったので,GPC数とメモリインタフェースの仕様は,最近では相関関係に欠けていたりもするのだが。
いずれにせよ,GeForce RTX 3060はGA106のフルスペック版ではない可能性が高い。そうなると,いずれは「GeForce RTX 3060 SUPER」のような上位モデルが出る可能性はありそうだ。
さて,GeForce RTX 3060の理論性能値である13 TFLOPSは,1CUDA Coreが1クロックで積和算(Fused Multiply-Add,FMA,2 FLOPS)を演算できるので,以下の計算で導き出せる。
- 3584 CUDA Core×1.78GHz×2 FLOPS≒12.76 TFLOPS
公称値は,やや繰り上げた値というわけだ。ただ,これでも,Turing世代の「GeForce RTX 2080 SUPER」(11.15 TFLOPS)を超えて,「GeForce RTX 2080 Ti」(13.45 TFLOPS)に迫るほどだからすごいことだ。
リアルタイムレイトレーシング性能の「25 RT-TFLOPS」についても,少しだけ説明しておこう。
RT-TFLOPSとは,NVIDIA独自のレイトレーシング性能指標値で,以前は「RTX-OPS」と呼ばれていたものだ。これは「GeForce GTX 1080 Ti(理論性能値11.3 TFLOPS)のプログラマブルシェーダでRT Coreの処理を再現した場合,1.1G Rays/sのレイ投射性能が得られる」というかなり強引な解釈のもとに,GeForce RTXシリーズのレイトレーシング性能を数値化したものである。なお,RT-TFLOPSの計算方法については,こちらの記事にある「解明!? RTX-OPSの謎」を参照してほしい。
Tensor Coreの理論性能値である「101 TensorFLOPS」とはどういう意味があるのか。
AmpereアーキテクチャのGPUでは,推論アクセラレータであるTensor Coreは,SM 1基あたり4基あるので,総数はSM数×4となる。つまり,GeForce RTX 3060ではTensor Core総数が112基になる。
そのうえで,AmpereアーキテクチャのTensor Coreでは,1基あたり16bit半精度浮動小数点(FP16)数の積和算を1クロックあたり128並列で計算可能だ。ということで計算式はこうなる。
- 112基×1.78GHz×128並列×2 FLOPS≒51.11T TensorFLOPS
「NVIDIAの公称値は,2倍の101T TensorFLOPSじゃないか?」というツッコミはごもっとも。ここで計算した値は,行列要素のすべてに実数値がある行列での演算性能を表したものだ。一方,NVIDIAの公称値である101T TensorFLOPSは,実効性能が2倍になる疎行列(※行列要素の半分がゼロ値)の理論性能値を示しているためだ。
メモリバス帯域幅やROP性能はGeForce RTX 2060並みか
演算性能でGeForce RTX 2080 SUPERを超えたGeForce RTX 3060は,搭載カードの想定売価が329ドルで,2月下旬に発売時期となるそうだ。発表時の価格が699ドルだったGeForce RTX 2080 SUPERの半分以下という価格は,とてもお買い得なのは間違いない。とはいえ,上位モデルとなるGeForce RTX 3060 Ti以上とは,メモリバス帯域幅に格差があるのだ。
GeForce RTX 3060は,グラフィックスメモリとして容量12GBのGDDR6を採用する。これは,上位機であるGeForce RTX 3060 Tiの8GBはおろか,GeForce RTX 3080の10GBよりも多い。しかし,GeForce RTX 3060のメモリインタフェースは192bit止まりで,GeForce RTX 3080の320bitはもちろんのこと,GeForce RTX 3060 Tiの256bitと比べても見劣りする。
GeForce RTX 3060のメモリ帯域幅はメモリクロック14GHz相当のGDDR6を採用した場合は336GB/s,15GHz相当で360GB/sとなるため,このスペックは,先代のGeForce RTX 2060と変わらない。GeForce RTX 3060の演算性能は先代比で2倍以上に高まったが,メモリバス帯域幅はほとんど変わらないのだ。
また,レンダリングしたグラフィックスをメモリに書き込む処理を担当するROP(Rendering Output Pipeline)についても,総数は明らかになっていない。GeForce RTX 3060 Tiと同等の80基となっていればよいが,GeForce RTX 3060はメモリインタフェース幅が192bitなので,192bit幅のGeForce RTX 2060と同じ48基のままとなる可能性も高い。
グラフィックスメモリのメモリバス帯域幅が向上していないことや,ROP数が多くないことが何に響くかというと,4K解像度(3840×2160ドット)への対応が難しくなることだ。実際,NVIDIAも「GeForce RTX 3060は,リアルタイムレイトレーシングを活用したフルHDゲーミングに最適である」とアピールしている。
ただ,「GeForce RTX 3060で4K解像度でのゲームプレイは非現実的なのか」というと,そうでもない。NVIDIAのアンチエイリアシング&超解像技術「DLSS」(Deep Learning Super Sampling)を活用する手がある。
DLSSは,GeForce RTXシリーズのTensor Coreを使って,アンチエイリアシング処理を行ったり,レンダリング映像の解像度にアップスケールする処理系のことだ。詳しい説明は過去記事を参照してほしいが,GPUとして描画する解像度は1920×1080ドットや2560×1440ドットであっても,表示時にDLSSで超解像処理を行うことで,4K解像度表示を行うことができる。ゲーム側の対応が必須であるし,リアルな4K描画でもないが,その点を妥協すればGeForce RTX 3060でも4Kゲーミングは楽しめるだろう。
NVIDIA版「Smart Access Memory」が始動
GeForce RTX 3060がらみで,もうひとつホットトピックなのは「Resizable BAR」だ。
結論から言ってしまうと,これは,AMDがRadeon RX 6000シリーズ固有の機能として発表した「Smart Access Memory」と完全に同じ機能になる。詳細はRadeon RX 6000の詳報を参照してほしいが,本稿でも軽く解説しておこう。
CPUから,GPUの制御下にあるグラフィックスメモリへのデータ転送は,PCI Express(以下,PCIe)の機能を使って行うのだが,これまでCPUは,グラフィックスメモリの全域に対して直接的なアドレス指定によるメモリアクセスはできなかった。複数のインデックスを組み合わせて,最長4096byte単位でのアクセスしかできなかったのだ。インデックスの組み合わせは16bit長(0〜65535)となっているため,CPUからは256MB(=4096byte×65536)サイズの範囲しかアクセスできないことになる。
つまり,従来はCPU〜GPU間のデータ伝送は,最大256MBサイズの窓を通して,GPUが管理するグラフィックスメモリ空間上の必要なアドレスにリレー転送を行っていたのだ。
つまり,Smart Access MemoryやResizable BARを使うことで,256MBの枠を取り払うことが可能となり,CPU側からGPU管理下のグラフィックスメモリ空間にデータを直送できるようになる。256MB単位でのリレー配送も不要になるのだ。
そこで気になるのは,どんなときにResizable BARのメリットが得られるかだが,基本的に,CPUからGPUへ何かしらのデータを伝送するときにはすべて効く。ゲームやアプリケーション側がResizable BARに対応する必要もなし。DirectX 11だろうがDirectX 12だろうが,APIの違いも関係ない。これは,CPUからGPUに何かしらのデータを伝送するときにGPUのドライバソフトが関わる処理系であれば,すべてにおいてResizable BARが利用されるためだ。このあたりの特性もSmart Access Memoryとまったく同じである。
さて,どのNVIDIA製GPUがResizable BARに対応するのかだが,NVIDIAは「Resizable BARの仕組みは,GeForce RTX 30シリーズからの対応となる」と説明している。最初はGeForce RTX 3060からスタートして,続いて後述するノートPC版GeForce RTX 30シリーズ,最後に既存のGeForce RTX 30シリーズも対応するという。既存のGeForce RTX 30搭載グラフィックスカードをResizable BARに対応させるには,GPUのBIOS(VBIOS)の更新とマザーボードのBIOS更新の両方が必須とのことなので,詳細は続報を待つ必要がある。
対応版VBIOSやBIOSの具体的な提供時期は明らかになっていないが,「Coming Soon」だそうなので,それほど待たされずに登場するようだ。
ちなみに,AMDのSmart Access Memoryは,CPUとGPUがともにAMD製である必要があったが,NVIDIAはResizable BARが,「AMDのCPUとIntelのCPUの両方に対応する」と強調していた。AMDは自社製品で囲い込む戦略を取ったが,NVIDIAは逆にオープンなスタンスを取るわけだ。
ノートPC版GeForce RTX 30シリーズ登場
Max-Qは第3世代へと進化
続いては,ノートPC向けGeForce RTX 30シリーズの発表を振り返ってみよう。まず,同シリーズ搭載ノートPCは,早いものだと1月下旬から発売となるそうだ。
今回発表となったのは,「GeForce RTX 3080」「GeForce RTX 3070」「GeForce RTX 3060」の3製品。製品名はデスクトップPC向けGPUと同じ名前だが,仕様はだいぶ異なっている。
ノートPC向けのGeForce RTX 3080は,CUDA Core数が6144基で,動作クロックは1245MHz〜1710MHz,グラフィックスメモリはGDDR6の容量8GB,もしくは容量16GBとなっている。デスクトップPC版(CUDA Core数8704基,1440〜1710MHz)に比べると,CUDA Core数はかなり少なく,動作クロックもやや控えめだ。
ただ,グラフィックスメモリ容量は話が別で,8GBモデルはデスクトップPC版の容量10GBよりも少ないが,16GBモデルの場合は逆に多い。理論性能値は21.01TFLOPSで,デスクトップPC版よりも当然ながら控えめだ。
デスクトップPC版のGeForce RTX 3080は,GPUコアに「GA102」を採用していたが,ノートPC版のGeForce RTX 3080は,デスクトップPC版GeForce RTX 3070と同じ「GA104」を採用していると思われる。というのも,CUDA Core数6144基は,フルスペック版GA104の仕様と合致するからだ。
- 128 CUDA Core×12 SM×4 GPC=6144 CUDA Core
おそらくだが,フルスペック版として動作できるGA104を選別してノートPC版GeForce RTX 3080として採用しているのだろう。
次に,ノートPC向けのGeForce RTX 3070は,CUDA Core数が5120基で,動作クロックは1290MHz〜1620MHz,グラフィックスメモリはGDDR6の8GBとなっている。こちらもデスクトップPC版(5888基,1.5〜1.73GHz)と比べると,CUDA Core数は少なく動作クロックも控えめだ。ただ,グラフィックスメモリ容量は同等である。
理論性能値は16.59TFLOPSで,こちらもデスクトップPC版より低い。おそらくGPU自体は,デスクトップPC版のGA104そのものを採用しているものと見られるので,GA104が持つ12基のSMから2基分を無効化して,
- 128 CUDA Core×10 SM×4 GPC=5120 CUDA Core
になっているものと見られる。
最後のノートPC向けGeForce RTX 3060は,CUDA Core数が3840基で,動作クロックは1283MHz〜1703MHz,グラフィックスメモリはGDDR6の容量6GBとなっている。デスクトップPC版(3584基,1.32〜1.78GHz)と比べて,CUDA Core数は逆に多いのだが,動作クロックは控えめで,グラフィックスメモリ容量も半分になっている。
理論性能値は13.01TFLOPSなので,わずかにノートPC版のほうが高いことになるが,ノートPCの場合は,放熱設計によって最大性能が変わるので,実効性能ではどうなるかはPCの設計次第だ。それにしても,CUDA Core数が3840基ということは,デスクトップPC版の説明で推測したGPC 3基構成のフルスペック版GA106そのものなのだろうか。
簡単に説明すると,Max-Qとは,薄型軽量ノートPCにおけるTDP(Thermal Design Power,熱設計消費電力)の範囲内に収まるように,GPUの消費電力と発熱を抑えながら可能な限り高い性能を発揮できる電圧と動作クロックで動かす技術である。有り体に言えば,GPUが持つ最大性能を引き出すのは最初から諦めて,薄型軽量ノートPCで可能な消費電力に収まる枠内で消費電力対処理性能比を高めることを狙った技術,とも言える。
第3世代Max-Qの要素技術として,NVIDIAは,「Dynamic Boost 2.0」と「Whisper Mode 2.0」を紹介している。
まず「Dynamic Boost2.0」は,進化系Dynamic Boostに相当する。先代のDynamic Boostは,PCで動作しているアプリケーションがCPUとGPUのどちらに負荷をかけるかを監視して,より高い負荷がかかるプロセッサのほうに電力予算(≒発熱予算)を割り当てる制御を行う技術だった。Dynamic Boost2.0では,その制御対象にグラフィックスメモリを組み入れたものである。なお,メインメモリは制御対象ではない。
2つめのWhisper Mode 2.0も,進化系Whisper Modeで,ノートPCでゲームを動作させたときの性能を,冷却ファンの騒音量(dB値)を基準として制御するものだ。なお,ノートPC側に専用の騒音センサーを取り付けているというわけではなく,NVIDIAとノートPCベンダーが,事前にノートPCの全体冷却性能に見合った各ゲームごとの動作設定をプロファイルとして定義している。
NVIDIAの説明によると,プロファイルは,eスポーツ系の競技性の高いゲームはフレームレート重視でグラフィックス品質は控えめ,シングルプレイ向けのシネマティックなゲームではフレームレートよりもグラフィック品質を高めにするという設計方針で作り込んであるそうだ。
なお,2.0で追加,あるいは変更となった部分についてNVIDIAは,「CPUやGPUの性能,システム温度,ファン速度といったパラメータをAIベースの技術で制御するように進化した」と説明している。AIベースとはいえ,Whisper Mode 2.0の実行にTensor Coreが必要ということはなさそうで,事前のプロファイル設計にAI技術を活用したということのようだ。
このほかにもイベントでNVIDIAは,操作遅延計測機能「NVIDIA Reflex Latency Analyzer」(以下,RLA)を搭載する新しいゲーマー向け液晶ディスプレイ製品が,2021年にも各メーカーから登場することも告知した。
RLAとは,遅延計測ツール「LDAT」に相当する機能のことだ。
RLA自体は2020年9月に発表されたばかりだが,2021年内に8社から計9機種のRLA搭載ゲーマー向け液晶ディスプレイ製品が発売される見込みだという。非常にマニアックな製品だが,競技性の高いゲームのプレイに真剣に取り組んでいるゲーマーやプロチームが増えている昨今では,こうした製品へのニーズが高まっているのかもしれない。
今回,NVIDIAはGPUのロードマップに関する話題に言及しなかったが,筆者としては,GeForce RTX 3080やGeForce RTX 3090で使われたGA102のフルスペック版(CUDA Core数10752基)が製品として登場するのかが気になっている。GA104は,ノートPC版GeForce RTX 3080としてフルスペック版が登場したので,同じGPUをデスクトップPC向けとしてリリースすることにも期待がかかる。ノートPC版のGeForce RTX 3060として登場したフルスペック版GA106が,デスクトップPC向けに提供されるかどうかも気になるところだ。
GeForce GTXシリーズに存在した「50」型番が,「GA107」としてGeForce RTX 30シリーズに登場するという噂が流れているものの,実現するだろうか。こちらはTU106系(※GeForce RTX 2070など)のリネーム製品となる可能性も否定できないが,いずれにせよNVIDIAは,AMDに先駆けて,リアルタイムレイトレーシング対応GPUの上から下までを第2世代GeForce RTXで揃えてくるだろう。
対するAMDも,リアルタイムレイトレーシング対応のRadeon RX 6000シリーズで下位モデルの展開を予定していると聞くので,ミドルクラスでのNVIDIA対AMDの対決も面白くなりそうである。
NVIDIAのデスクトップPC向けGeForce RTX 3060シリーズ製品情報ページ
NVIDIAのノートPC向けGeForce製品情報ページ
- 関連タイトル:
GeForce RTX 30
- この記事のURL: