イベント
[GTC 2017]安全が保証される理想郷,それとも総監視社会? NVIDIAのAI技術「Metropolis」はSF映画的な人物認識技術を現実世界にもたらす
GTC 2017におけるNVIDIAブースは,ディープラーニング(Deep Learning,深層学習)などの機械学習型AI関連の展示ブースと,従来からのGPUの仕事であるグラフィックス関連のブースとに分かれた展示を行っていた。本稿ではAI関連の展示内容をレポートしたい。
あらかじめお伝えしておくと,本稿でお伝えする内容は,ゲームとは基本的に無関係なものである。ただ,機械学習型AIの活用や効能が,SF映画で描かれてきた表現そのものになりつつあることに驚けるので,ぜひ楽しんでもらえればと思う。
ビデオ分析プラットフォーム「Metropolis」がデビュー
2007年,NVIDIAは,Fermi世代のGPUである「GeForce 8800 GTX」の発表からほどなく,独自のGPGPUプラットフォーム「CUDA」をリリース。これが科学技術計算分野で広く採用されることとなったことを知る人は多いだろう。それまで「CGを描画するためのプロセッサ」だったGPUに,「汎用のベクトル浮動小数点演算も行える高性能プロセッサ」という新たな価値が付加され,2010年頃には,世界中のスーパーコンピュータでGPUの採用が始まることとなった。
その後,GPGPU分野におけるCUDAの勢いはさらに加速し,2012年に,GPGPUをベースとした機械学習型AIの自然画像認識精度が人間の判断品質を凌駕して世界を震撼させる。それを契機として,機械学習型AI分野におけるGPGPUとCUDAの採用事例が相次いでいく。そしてそれが自動運転技術開発に波及して現在に至るというわけだ。
自動運転技術開発プラットフォーム「Drive PX2」の上位モデル「Autochauffeur」。Parker |
こちらはDrive PX2の下位モデルとなる「Autocruise」。Parker |
近年のNVIDIAが,超高性能な最新GPUを,グラフィックス用途ではなく,むしろGPGPU向けとしてまずリリースするようになった経緯というものが,この流れからも納得がいくのではないだろうか。
実際,Pascal世代の幕開けを告げた最上位GPU「GP100」は,GPGPU専用プロセッサ「Tesla P100」として当初は登場した――最終的には「Quadro GP100」というグラフィックスカードも出たが――ほどだ。
GPGPU用プロセッサの成功を受け,最近のNVIDIAは,その開発プラットフォームであるCUDAを,より具体的に活用できるライブラリや開発キットという形で提供するようになっている。たとえば,機械学習型AIの開発キットは「NVIDIA DIGITS」となり,汎用科学技術計算ライブラリは「ComputeWorks」としてリリース済みだ。
今回,NVIDIAのブースで明らかになったのは,そんなライブラリの新しいブランド「NVIDIA Metropolis」(以下,Metropolis)である。
「コンピュータビジョン」とは,コンピュータに視覚処理をさせる技術のことで,それと機械学習型AI技術を組み合わせたプラットフォームとなる。
Metropolisの概念は,NVIDIAが公開している下の図を見るとイメージしやすい。「現場」に最も近い場所(Edge)や,少なくともクラウドよりは現場に近い場所(On-premise)では,リアルタイム性の高い推論(inference)や基礎的な学習に留め,確度の高い知覚や学習データの統合はクラウド側にあるGPGPUサーバーで行うというのが,その利用イメージとなる。
なので,上の「機械学習型AIをコンピュータビジョンに応用させたプラットフォーム」をもう少し噛み砕くと,「現場からクラウドまで,各所のGPUを使ったビデオ分析プラットフォーム」といった感じか。
Metropolis応用事例〜AI監視カメラからAIパトカーまで
GTC 2017におけるNVIDIAのAI関連ブースは,かなりの面積を使って,「知性を持った視覚技術」とも言えるMetropolisの具体的な応用事例を展示していたが,なかでも最も分かりやすいのは,実用化目前の製品として訴求されていた「Hikvision」だろう。
Hikvisionは監視カメラとそのメーカー名だが,同社の最新製品はNVIDIAの「Jetson TX1」と組み合わせたものになる。
空港や駅,ビル,あるいはイベント会場などにある監視カメラは,毎日膨大な数の群集を撮影するが,撮影されている映像から犯罪者などの検索対象を見つけようとするとき,これらをクラウド側にあるAIで認識させるようとすると,あまりにもネットワークトラフィックが大きくなってしまう。撮影した生映像をネットワークを介してクラウド側のAIサーバーに伝送するのは非現実的というわけである。
そこで監視カメラ側にCUDA,というかMetropolisの動くJetson TX1を組み合わせたのが,Hikvisionの製品である。検索対象となる人物の顔面データのみを,Jetson TX1を搭載した監視カメラ側にあらかじめアップロードしておいて,そのカメラ側で顔面認識処理を行うのだ。そして,認識した顔データだけをクラウド側のAIサーバーへ伝送し,より高精度な認識を行うという流れになる。
顔面認識(=抽出)をエッジ(=末端)の監視カメラに行わせることで,クラウド側のAIサーバーを効率よく活用して検索対象の人物を見つけようということで,「相当にお高くなりそう」という意見はごもっとも。ただ,国境警備や入出国審査関連の機関からすれば,国防にも関わってくる案件なので,コストをかけることに躊躇はないのだ。
もう1つは,すでに製品化済みという「BriefCam」だ。
名前に「Cam」とあるものの,BriefCamの実体はソフトウェアである。監視カメラが撮影した長尺の録画映像から,特定の検索対象を探すというのがメイン機能になるが,これをAIと組み合わせることで驚きの機能を提供する。具体的には,映像の内容を視覚するだけでなく知覚して,その映像の内容を文章で表現することができる。たとえば,処理対象の映像から「時刻15:12に,白色の服を着た女性が自転車に乗って時速15kmで走行している」といった情報を得られるのである。
これはメタデータとして生成できるので,それこそ検索対象の車両が「黒いセダン」や「赤い服を着た男」だった場合は,このメタ情報でまずは検索して,その検索結果に対応する時刻の映像を人間が再び注意深く見直すといったことが可能になる。
このような「映像を知覚してのメタ情報生成」はリアルタイムに行うことも可能だそうで,「フラフラと蛇行して車線をはみ出す車両」「包丁を持って徘徊する男」といった不審行動パターンを認識し,自動で警察に通報するような仕組みも技術的には可能だそうである。
現在の日本でしばしば問題になっている,老齢ドライバーによる高速道路の(出入り口間違いによる)逆走事件などは,BriefCamのような技術を応用すればかなりの高確率で防げるような気がするのだが,どうだろうか。
パトカーに複数の監視カメラを取り付ければ,それらカメラが捉えた映像から,車両の車種やナンバーを認識し,データベースに登録されている盗難車などの検索対象車両を自動検出できるというのが,NVIDIAによる説明である。
駐車場や路上など,駐停車してある車両などは,位置情報と合わせて知覚させることにより,「停車が長時間に及んでいる」ことを把握させることも可能だ。常識を逸脱した長さでひとところに留まっている車両の場合,死体遺棄に使われている疑いもあり,そうした不審車両の検出にも役立つというわけである。
GeForceがあなたの生活を見守ります!?
このほか,NVIDIAの機械学習型AI関連展示ブースで注目を集めていたものに,大型の農業機械の展示コーナーがある。
この大型農業機械は農薬散布マシンだそうで,これとAI技術を組み合わせることで,安全な食品の生産に寄与するのだそうだ。
農薬散布マシンがどうして安全な食品生産に結びつくのかというと,Jetson TX1上で動作させた機械学習型AI技術を用いて,地面に対して的確に除草剤を散布するというのだ。カメラが捉えた地面の状況を知覚し,農作物を避けて,雑草にのみ的確に農薬を散布するというわけである。この技術を開発したBlue Riverという会社によれば,すでに技術を導入済みのあるレタス農家では農薬の消費量を90%削減できたというのだからすごい。逆に言えば,これまではそれだけ大量の農薬が散布されていたということでもあるが。
以上が,NVIDIAブースにあった機械学習型AI関連展示の,おおよその内容である。
ゲームグラフィックスのフレームレートにしか関心がなかった読者も,今後,GeForceに対する見方が変わってくるのではないだろうか。
なにしろこれからの我々は,NVIDIAのGPUによって監視され,安全が提供され,そして健康にやさしい食物を提供してもらうことになるのだから。
GTC公式Webサイト(英語)
- 関連タイトル:
CUDA
- この記事のURL: