▼その他 PSV 3DS

Kinect

日本マイクロソフト
Microsoft
発表日：2010/11/20

Kinect

ニュース（109）
特集（6）
レビュー（2）
ムービー（15）

お気に入りタイトル/ワード

タイトル/ワード名（記事数）

最近記事を読んだタイトル/ワード

タイトル/ワード名（記事数）

週刊連載

Features

発売スケジュール

LINEで4Gamerアカウントを登録

［SIGGRAPH］次世代のディスプレイ技術が垣間見えた，先端技術展示会場「Emerging Technologies」レポート（前編）

特集記事一覧

注目のレビュー

注目のムービー

問い合わせ

メディアパートナー

トップ>HARDWARE>Kinect

2013/08/06 00:00

ニュース

［SIGGRAPH］次世代のディスプレイ技術が垣間見えた，先端技術展示会場「Emerging Technologies」レポート（前編）

ライター：西川善司

フランスの研究機関「CEA LIST」が開発した，四肢に麻痺を持つ患者の歩行リハビリ用外骨格ロボット「EMY」。Emerging Technologiesではグラフィックス関連だけでなく，こうした研究の展示も見られるのが魅力だ

　毎年SIGGRAPHでは，商用化や製品化前の先端技術を発表する展示会「Emerging Technologies」が開かれている。ここには毎年，世界中から集まった大学の研究室や企業の研究部門がブースを構えているが，とくに日本の大学は積極的に出展しており，そこかしこで日本語の会話が聞こえてくるほど日本人来場者が多いというコーナーだ。

　今年のEmerging Technologiesで一番人気を集めた展示は，すでにレポートしたNVIDIA製HMD「Near-Eye Light Field Displays」だったが，それ以外にもユニークな展示が多く見られたので，前後編に分けてレポートしたい。

［SIGGRAPH］「Oculus Rift」に対抗!? NVIDIAがサングラススタイルの立体視対応HMDを披露

Incendiary reflection

東京大学　廣瀬・谷川研究室，日本

　人間の顔の多彩な表情は，人の感情を反映したものだ。だが，感情の変化と表情の変化が逆の順序で起こることも，珍しくないことをご存じだろうか。たとえば，他人が笑っている姿を見てつられて自分も笑ってしまい，そのあとなんとなく楽しい，嬉しい気分になる，といった現象がそれだ。
　19世紀の心理学者であるジェームズ・ランゲ（James Lange）は，こうした現象について，「人間は生理現象や行動が先にありで，感情はあとから付いてくるのではないか」と説明した。いわゆる「ジェームズ・ランゲ説」（James-Lange theory）だ。この説によれば，上の例は「笑う」という行動が起きたことで，「嬉しい」という感情を誘発した，と説明されるわけだ。

　東京大学の廣瀬・谷川研究室が発表した「扇情的な鏡 / Incendiary reflection」は，この学説を素に，コンピュータと画像処理技術を使って「人の体験を変える」サービスを実現することを試みたという，実にユニークなシステムである。
　来場者が壁に掛けられた鏡のようなデバイスの前に立つと，その人の顔が映る。それはたしかに自分の顔なのだが，じっ～と見ていると徐々に微笑んだ表情になったり，あるいは微妙に悲しげな表情になったりといった具合に変化するというものだ。白額縁の鏡は笑顔に，黒額縁の鏡は悲しい顔に変化するようになっている。下に，廣瀬・谷川研究室が公開したムービーを掲載しておこう。このシステムがどのように動くのか，イメージがつかめると思う。

Incendiary reflectionの展示。壁には普通の鏡と「扇情的な鏡」が混在しているので，予備知識がないと，表情が変わる鏡には一瞬驚かされる

Incendiary reflection / 扇情的な鏡

　このシステムは「扇情的な鏡」と呼ばれているように，鏡に映った表情が微妙に変わっていくことで，自分の感情が揺さぶられる現象を体験するものだ。嫌なことがあった日でも，この鏡を覗いて自分の笑顔を見れば，気分も晴れやかになる……ということを実現できれば，たしかに面白いサービスになるかもしれない。

　システム構成は意外にシンプルだ。鏡のように見えるのはごく普通の液晶ディスプレイで，額縁の上側に埋め込まれた小型カメラで正面を撮影する。顔の認識や顔画像の変形処理は，PC側で処理して，写っているのが人の顔であると認識されたら，画像変形処理で目や口の形状を，別の表情になるように変形させるという仕組みである。


写真の体験者は，筆頭研究者の吉田成朗氏。黒額縁で悲しい顔になってもらった（左）。顔を認識したあと映像を変形させるのだが，右はその制御点を可視化させたものだ

**※お詫びと訂正**　初出時，研究室名を吉田成朗研究室と記載していましたが，正しくは廣瀬・谷川研究室でした。また，筆頭研究者名を櫻井翔氏と記載していましたが，正しくは吉田成朗氏でした。訂正するとともに，お詫びいたします。（2013年8月6日）

　会場で披露されたデモでは，壁の背後に置いたPCで動作させていたが，スマートフォン向けのアプリケーションで処理することも，十分可能だろう。最近ではスマートフォンや携帯電話を，手鏡変わりに活用する人も少なくないと聞くので，将来は「悲しくなったらスマートフォンの『扇情的な鏡』アプリを見て，自分を元気づける」なんてことが，現代人の習慣になったりする……のかもしれない。

An Autostereoscopic Projector Array Optimized for 3D Facial Display

南カリフォルニア大学，長野光希氏ほか，アメリカ

　次に紹介するのは，南カリフォルニア大学の研究グループ「Creative Technologies」が開発した，顔の表示に最適化した立体視ディスプレイ「An Autostereoscopic Projector Array Optimized for 3D Facial Display」（以下，3D Facial Display）である。
　ちなみに，このCreative Technologiesグループは，NVIDIAのデモですっかりお馴染みとなった「Ira」（アイラ）の顔面レンダリング技術を研究しているところだ。ゆえに，今回のデモも，サングラスをかけたIraの顔を使っている。

　出展されたシステムは，Texas Instruments製のDLPプロジェクタ「PICOプロジェクタ」72基を，半径60cmの円弧状に配置して，中央にある30×30cmサイズのスクリーンに映像を投影するというものだ。スクリーンは見る側と投影する側で構造が異なる。投影側の面には，1インチ（約2.54cm）あたり縦40ライン分のレンチキュラーレンズが配置され，見る側には横方向に若干拡散するスクリーンを設置しているという具合だ。周囲の環境光がレンチキュラーレンズに反射してぎらつかないように，レンチキュラーレンズの背面は黒く塗装されているという。


投影側から見た，円弧状に並べられた72基のPICOプロジェクタ（左）。PICOプロジェクタの前に白い布を置いてみると（右），ご覧のように無数の顔が投影されていることが分かる

　体験者がこのスクリーンを見るときには，言うなれば縦方向のレンチキュラーレンズ越しに，プロジェクタの映像を見るような状態となる。1ライン分のレンチキュラーレンズ越しに見えるのは，1基のプロジェクタが投影する縦1ライン程度の映像だけだが，これを1インチあたり40ラインも並べているので，体験者には1つのまとまった映像として見えるという理屈だ。

　縦長のレンズを並べて使いながら，映像が縦棒状に見えてしまわない理由は，約1度ごとに異なるプロジェクタからの映像が見えるようにレンチキュラーレンズとプロジェクタを配置することで，約1度単位の視差を実現しているためだ。それに加えて，見る側のスクリーンが若干，横方向に光を拡散させているので，結果的に体験者には，レンチキュラーレンズの存在を感じさせない映像が見えるようになっている。
　スクリーンは平面なのに，1度単位の視差で映像が表示されているので，スクリーンの前を左右に移動しながら見ると，顔の見え方がスムーズに変わり，立体物としての顔がスクリーンに浮かんでいるように見える。左右に移動しながらスクリーンの映像を撮影したムービーを下に掲載した。移動しながらスクリーンを見ても，視差の切り替わりで映像に違和感を感じない様子がよく分かるだろう。

中央のスクリーンに投影された映像は，縦長のレンチキュラーレンズを通して見ているようには見えない。1度単位の視差が再現されているので，どこから見ても“その角度”からの顔が見られる

3D Facial Displayの表示を撮影したデモ

　ユニークなのは，スクリーンの上に設置された「Kinect for Windows」のセンサー（以下，Kinectセンサー）を使うことで，体験者が2人までなら顔の向きを識別して，縦方向の視差も作り出すという点である。たとえば，1人が下方向から覗けば，顔の下がちゃんと見える一方で，もう1人が正面から見ていれば，そちらには顔の正面が見えるといったことが可能なのだという。
　筆頭研究者の長野光希氏によれば，「別の場所から見ている人が，たとえジャンプしながら見ていたとしても，自分が見ている映像には，何の影響もありません」とのこと。

画像集#007のサムネイル/［SIGGRAPH］次世代のディスプレイ技術が垣間見えた，先端技術展示会場「Emerging Technologies」レポート（前編）

3D Facial Displayの筆頭研究者，長野光希氏（南カリフォルニア大学）

画像集#014のサムネイル/［SIGGRAPH］次世代のディスプレイ技術が垣間見えた，先端技術展示会場「Emerging Technologies」レポート（前編）

Kinectを使って体験者の位置をトラッキングし，2人までなら上下の視線移動にも追従した表示が行える

　なぜそんなことができるのかといえば，2人がまったく同じ場所にいない限り，縦に並んだレンチキュラーレンズを通して見ている映像は，常に別々のプロジェクタが投影している映像になるからだ。
　だから，それぞれが見ているプロジェクタがどれかをKinectセンサーで識別することで，適切なプロジェクタから縦方向の視差に合わせた映像を，投影することが可能になる。
　なお，縦方向の視差を生成できるのが2人までなのは，Kinectセンサー側の仕様による制限だという。つまり，より多くの人数を同時識別できるセンサーがあれば，もっと多くの人数に映像を見せることも可能とのことだ。

　ちなみに，展示に使われていた3D Facial Displayのシステムは，6画面表示に対応する「Radeon HD 7870」を4枚使い，各GPUで専属のレンダラーを走らせることで，合計24画面を出力しているという。顔1つあたりの解像度は640×480ドット^※1で，それを3つ横に並べた1920×480ドット分のレンダリング結果を，個々の映像出力から出力しているという。
※1 PICOプロジェクタの解像度は480×360ドットなので，最終的には640×480ドットを縮小表示している。

　顔3つ分を描いた1920×480ドットの映像は，3分割出力できるスプリッターで分割することで，各プロジェクタに出力しているとのこと。つまり，3顔のレンダーターゲット×6画面×4 GPU＝72，という計算で，最終的なプロジェクタの数が決まっているわけだ。

Foveated 3D Display

Mark Finch氏ほか，Microsoft Research，アメリカ

　映像とそれを映すディスプレイの解像度は，現在主流のフルHD（1920×1080ドット）から，4K(3840×2160ドット)や8K(7680×4320ドット)へと，高解像度を続けている。そうした高解像度化の論拠の1つには，「映像は人間の視覚を再現するためのものだから」という理由が挙げられている。
　だが人間の視覚システムのうち，最高解像度で見えているのは，視界全体のうち，角度にしてわずか2～5度分程度しかないそうだ。逆に言えば，それ以外の視界は低解像度で，うっすらボケた状態で見えていることになる。ピントが合っていないからボケる，とも言えるのだが，そもそもピント合わせていない部分の視界は，人間の視覚解像度そのものが粗いということだ。

Foveated 3D Displayの体験デモ

　その前提に立つならば，人間が見るCGもフレーム全体をフル解像度でレンダリングする必要はないのではないか……。Microsoftの研究部門である「Microsoft Research」では，そうした人間の視覚メカニズムに適応したディスプレイ「Foveated 3D Display」と，そのレンダリングシステム「Foveated 3D Graphics」を研究しており，今回のEmerging Technologiesでは，成果の一端が披露された。

　Foveated 3D Displayを実現する仕組み自体はシンプルだ。体験者が映像のどこを見ているのかを，センサーを使ってリアルタイムに検出し，これをグラフィックスエンジン側にフィードバックする。するとグラフィックスエンジンは，視線の先(人間が意識してみているところ)はフル解像度でレンダリングする一方で，視線から離れるほど解像度を下げてレンダリングする。
　言葉だけではイメージしにくいかもしれないので，下に説明スライドとムービー（SIGGRAPH ASIA 2012で公開されたもの）を掲載しておこう。


Foveated 3D Displayの原理（左）。注視している部分（赤枠内）はフル解像度でレンダリングするが，それ以外の部分(緑枠と青枠)は低解像度でレンダリングして，最終的に拡大・合成する（右）

Foveated 3D Displayの原理を説明したスライド

　ゲームグラフィックスでも，制作者側が意識的に“ピンぼけ”効果を適用する「被写界深度」表現が流行しているが，あれはカメラの向きからぼかす範囲を決めているのであり，ユーザーが本当はどこを見ているかを考慮してはいない。それに対して，ユーザーの視線を検出して，見ている場所に応じた解像度の変更をリアルタイムに行うのが，Foveated 3D Displayなのだ。

Foveated 3D Displayのデモ

　デモ展示に使っていたシステムは，20インチ前後のサイズで1920×1080ドットの液晶ディスプレイ9枚を，3×3枚の配置でレイアウトして，5760×3240ドット解像度の表示システムを構築していた。メーカー名は不明だが，ディスプレイは120Hz表示に対応したものだという。GPUには，GeForce GTX 580を使っているそうだ。

　「なぜ60インチのディスプレイ1枚ではなく，20インチの3×3なのか」と思う人がいるかもしれない。Foveated 3D Displayは適応型の高解像度レンダリングがテーマなので，1920×1080ドットどころか，4Kの解像度でも不足するからである。そのため1920×1080ドットを9枚並べて，4Kを超える解像度を実現したというわけだ。
　8K表示のディスプレイがあればそれでもいいのだろうが，現在はまだ市販品が存在しないので，PC用ディスプレイの組み合わせで対応するしかなかった，とも言える。

体験者の視点があるところに，分かりやすいようにマーカーを表示した状態。デモ環境はディスプレイとして，20インチ前後で1920×1080ドットの液晶ディスプレイを9枚組み合わせて使っている

　実際に筆者もFoveated 3D Displayを体験してみたが，「5760×3240ドット解像度のリアルフレーム」と，そうではない「視線の先のみフル解像度」のフレームとでは，意識しないとなかなかその違いに気がつかない。もちろん，まったく区別が付かないわけではないが，あらかじめ「そういう実験だ」と理解したうえで見なければ，気がつかない人も多いのではないかと思えたほどだ。

キャリブレーションの様子。ディスプレイの下にKinectのオバケみたいなものが，アイトラッキングシステムのTX300だ。左は筆頭研究者のMark Finch氏(Senior Research SDE in the Graphics Group，Microsoft)

　ちなみに視線の検出には，スウェーデンのTobiiが開発したアイトラッキングシステム「TX300」を導入して，とくに改造することもなく，そのまま使っているそうだ。視線検出の仕組みは，まず顔を認識して目の位置を識別し，その後は目の動きだけを検出して，視線方向を計算している。そのため使用前には，目の位置を識別するためのキャリブレーションが必要だ。

　こうしたアイトラッキングによるシステムでは，いかに低遅延のシステムを作るかが最重要となる。今回のシステムでは，視線の検出と計算で約10ms，CGのレンダリングで約16ms，液晶ディスプレイ出力と表示で計14msと，トータルでの遅延時間は約40msに抑えているという。レンダリングエンジンの設計は30fps基準(1フレームあたり33ms)の可変フレームレートなので，約40msの遅延時間は，ワーストケース時に近い値であるとのこと。とはいえ，体験した限りでは，30fps弱のフレームレートだったので，それほど違和感を感じるほどの遅延はなかった。

　さて，Foveated 3D Displayの原理を聞いて，「こんなことのために，普通の液晶ディスプレイにわざわざアイトラッキングデバイスを付けるのは，敷居が高すぎるのでは？」と思った人もいるだろう。確かにそうだ。
　だが，ヘッドマウンドディスプレイ（HMD）ならば，アイトラッキングの仕組みは理に適ったものと言えそうだ。両眼の直前にHMDを装着するわけだから，いちいち顔認識をしなくても視線検出は可能である。だから筆者はむしろ，「HMDと組み合わせたときのほうが，しっくりくる研究だな」と思った。

　Foveated 3D Displayは応用範囲が広そうな技術であり，今後の研究に期待したい。