お気に入りタイトル/ワード

タイトル/ワード名(記事数)

最近記事を読んだタイトル/ワード

タイトル/ワード名(記事数)

LINEで4Gamerアカウントを登録
[CEDEC 2018]超高精度で高速軽量の音声入力ミドルウェア「ボイストリガー」を試してみた
特集記事一覧
注目のレビュー
注目のムービー

メディアパートナー

印刷2018/08/24 00:00

イベント

[CEDEC 2018]超高精度で高速軽量の音声入力ミドルウェア「ボイストリガー」を試してみた

説明を担当した東芝デバイス&ストレージ 半導体研究開発センター ソフトウェアソリューション技術開発部 担当部長の佐藤 修氏(左)とロジックLSI営業推進部 ロジックLSI営業推進担当 課長 木村伊知郎氏(右)
画像集 No.002のサムネイル画像 / [CEDEC 2018]超高精度で高速軽量の音声入力ミドルウェア「ボイストリガー」を試してみた
 CEDECというイベントは,コンピューターゲームの技術カンファレンスであり,その中心となるのは講演だ。しかし例年,各種ハードウェアメーカーや開発ツール系の会社などが,自社のソリューションを出展する「スポンサー展示」というコーナーも設けられている。
 今年はここで,東芝デバイス&ストレージがゲーマーにとって実に興味深いアプリを展示していたので,簡単にレポートしたい。


鋭く,軽く,限定された音声入力


 「東芝ボイストリガー技術」(ボイストリガー ミドルウェア,以下 ボイストリガー)と呼ばれる技術デモは,ざっくりと言ってしまえば音声認識ミドルウェアだ。
 ボイストリガーを利用したデモには,「よろしくおねがいします」「ありがとうございます」から「みんなでせめよう」「まもりをかためよう」まで,いかにもMMORPGのプレイ中に使いそうな言葉が登録されている。そして,体験者がマイクに向かって「よろしくおねがいします」と発声すると,「よろしくおねがいします」という言葉の入力を検知した旨が画面に表示された。

 これだけであれば「今どき,そんなのスマートフォンだってできる,いやスマートフォンのほうが優秀」であるとか,「それなりに複雑な言葉で話しかけても応答してくれるスマートスピーカーが買える時代に,事前登録した特定の言葉にしか反応しないだなんて……」といった意見も出そうだが,この技術はゲーマーにとって(ゲーマー以外にも)けして軽んじられない,いくつもの特性を有している。順に見ていこう。

画像集 No.003のサムネイル画像 / [CEDEC 2018]超高精度で高速軽量の音声入力ミドルウェア「ボイストリガー」を試してみた


ボイストリガーの特徴1:応答速度が速い


 まず最初に,この技術は応答速度が速い。
 カタログには「応答速度は体感で約0.1秒」(※約100ms,60fpsのゲームであれば約6フレーム分)とあるので,「6フレームも応答にかかるのに『速い』ですか?」という気がするかもしれないが,これはあくまで「あまり性能の良くないPCで,大きな負荷がかかったときに必要となる時間」であり,実際にはもっと素早く応答してくれる。

 また,入力中の音声と登録文字列を照合し,一致した度合いがしきい値を越えた段階で「入力がなされた」と判断する仕組みになっているため,センテンスのすべてを発声する前の段階で入力が発生することもありえるという。登録センテンスの種類にもよるが,認識するセンテンスの種類をある程度まで絞り込んでいることによる強みといったところか。
 このような仕組みのため,ボイストリガーの応答に6フレーム近い遅延を感じることはほとんどなく,体感としては「発声したらほぼ同時に認識される」か,「ごく一瞬だけ認識に時間がかかることがある」程度のイメージといえる。格闘ゲームのような1フレームを争うゲームに導入するのは悩みどころだが,オンラインゲームであれば回線のほうがより遅延の原因となり得るだろう。


ボイストリガーの特徴2:検出率が高い


 もう1つのポイントは,検出率が極めて良好なことだ。
 これまたカタログを(素人が)ぱっと見ると,「検出率97.5%」とあるので,「2.5%も誤検出するの?」という気持ちになってしまうが,これは「入力する音声と同じ音量で,ノイズが同時に入力されている環境下での検出率」である。
 実際,CEDECの会場もそれなりに騒々しいが,筆者が試した範囲では,誤検出は発生しなかった。ヘッドセットに付属したマイクで入力するぶんには,誤検出はほぼ起こらないと考えていいだろう(※開発した技術者が「絶対に起こりません」と断言しないあたり,とても好感が持てる)。発声の仕方によっては誤検出が多くなるパターンもあるそうで,「すべての日本語話者が話す日本語を,正確に検出する」とは断言できないそうだ。とはいえ普通の人が普通に発声するぶんには,「一般論で言えばほぼ落とさない」精度であるという。

 なお「日本語」にこだわっているが,英語版と中国語版も開発中とのこと。英語版の場合,カタカナ英語で発音すると認識してくれない(※中国語も同様)ため,正確な発音の練習にも使えるかもしれない。


ボイストリガーの特徴3:処理負荷がとても小さい


 3つめのポイントは,PCにかかる負荷が小さいこと。
 カタログによると,要求スペックはCPU演算能力が75MIPS,ROM(※編注 ストレージ容量と思われる)が200KB,メインメモリ容量が230KB(東芝デバイス&ストレージによる計測)となっている。これは,今どきのスマートフォンでも負荷とは呼べない程度の軽さで,組み込み機器でも容易に動作するだろう。
 現状の動作環境はWindowsとAndroidになっているので,スマートフォンでボイストリガーを利用することも可能だ。

※MIPS:Million Instructions Per Secondの略で,1秒間にプロセッサが命令を実行できる回数を示す単位。75MIPSは750万回となる。ちなみに,2013年登場のCPU「Core i7-4770K」を3.9GHzで駆動した場合,13万3740MIPSにもなるそうだ。75MIPSがどれくらい“軽い”処理かが分かるだろう。

画像集 No.004のサムネイル画像 / [CEDEC 2018]超高精度で高速軽量の音声入力ミドルウェア「ボイストリガー」を試してみた

 カタログに書かれていない範囲の話で,ゲーマー的に最も気になるのは「単語の登録」だろう。
 話が若干複雑になるが,結論から言えば「エンドユーザーが自分の好きなように単語を設定する」という実装は可能だそうだ。もちろん,本技術はミドルウェアとして提供されているので,たとえば「『ズームイン』と発声するとマウスホイールが上向きに回されたような入力が発声する」といった動作を設定することも可能だという。
 なお,大きな制限として「短すぎる言葉は誤検知が多いので,最低でも5文字以上の単語にしたほうがいい」ということが挙げられるだろうか。また,数字の「いち」「に」などは誤検知しやすいそうで,このあたりは単語登録時に悩むことになるかもしれない。

 技術的な話をすると,残念ながらボイストリガーは「テキストデータを用意すれば,それで認識してくれる」わけではなく,音声を認識するために専用の辞書データが必要となる。辞書データを生成するサービスは,クラウドに置いておき,エンドユーザーがそれを利用することで,ユーザーごとにカスタマイズした辞書データを持つことは可能,という仕組みだ。
 もちろん「ゲーム側で固定した辞書ファイルを持ち,プレイヤーの特定の音声に反応する」のであれば,最初からゲーム側で固有の辞書ファイルを持つこともできる。このあたりは利用契約次第になるが,応相談とのことだった。


ボイストリガーの特徴4:オフラインで動作する


 最後に,最も大きな特徴として,ボイストリガーはオフラインで機能するという点が挙げられる。10種類ちょっとという少ないセンテンスの検出に特化していることもあり,インターネット接続なしに音声での入力が可能なのだ。これは,もともとボイストリガーが組み込み機器に向けて作られていたということも影響しているようだ。
 オフラインで動くという点は,とくにスマートフォンでボイストリガーを使う場合,大きなメリットとなるだろう。通信量を一切増大させることなく,音声入力が可能になるからだ。あるいは,ボイストリガーを玩具に組み込んで,「特定の言葉を叫ぶと,叫んだ言葉の種類に応じて違うパターンで光るベルトや杖」といったものも作れるし(単純な音に反応するものや,認識精度の低いものなら今でもあるが),それらの動作がネット接続環境に左右されることもない。


音声認識は格安の「左手用デバイス」となるか?


画像集 No.005のサムネイル画像 / [CEDEC 2018]超高精度で高速軽量の音声入力ミドルウェア「ボイストリガー」を試してみた
 ボイストリガーを開発した東芝デバイス&ストレージでは,VRコンテンツでの利用や,スマートフォンでの自撮りトリガーといった利用法を提案している。
 また,ボイストリガーの開発者である佐藤氏は,「魔法の呪文を唱えると魔法が放たれる」「変身ワードを唱えると変身する」といった,ある種のロールプレイ的要素に活用してほしい,という思いもあるという。

 だがゲーマーにとって,ボイストリガーの持つ可能性はかなり大きいように思える。
 すぐに思いつくのは,多数のボタンを駆使するシミュレーターだ。連打が要求されないがそれなりに利用するボタンをボイストリガーに回してしまえば,操作の負荷はだいぶ下がる。

Euro Truck Simulator 2の運転席には,実車と同じ大量のボタンが並んでいる。これらの操作を音声で代替できれば,プレイに集中できるかもしれない
画像集 No.006のサムネイル画像 / [CEDEC 2018]超高精度で高速軽量の音声入力ミドルウェア「ボイストリガー」を試してみた
 たとえば「Euro Truck Simulator 2」では,「ワイパーを動かすボタン」や「ライトをつけるボタン」といったボタン類が個別に存在しており,ゲーム的に重要な役割を果たす。だがこれらのキーアサインは,1か月ほど遊ばないと失念してしまうことが多い。
 そこで,「ライト」や「ワイパー」といった言葉でこれらの機能がオンになってくれれば,文字数が少ないことによって多少の誤検出が起こったとしても,久々に起動したゲームで最初にやることがキーアサインの確認といった事態を回避できる(「ライト」でライトが点灯することまで忘れていたらそこまでだが……)。

 同様のことは,MMORPGで特定のマクロを起動させるにあたってボイストリガーを使う,という方向でも活用できるだろう。この場合,キーボードをより自由に使えるようになるため,メリットが大きい。
 もっともMMORPGはボイスチャットが前提になってきているところもあり,ボイストリガーと併用すると,ボイスチャット側がちょっと愉快なことになるというのは,問題点として挙げられるだろう。

 また,ゲーム以外でも,ボイストリガーはイラストや3Dモデリングといった仕事において活躍する可能性がある。
 こうした用途に左手用キーパッドや特殊コントローラを使っている人もいるだろうが,たとえば,使用するツールを音声で切り替えられるとしたらどうだろう。特殊な入力デバイスと十分な競争力を持ち得るのではないか。最近のノートPCは,マイクを内蔵しているものが多い。ボイストリガーだけで左手ツールを代替し得るというのは,少なからぬ人にとって魅力的ではなかろうか。

 ブースで説明してくれた木村氏いわく,「東芝デバイス&ストレージ」という社名が示すとおり,ボイストリガーは当初,デバイスに組み込まれた状態での販売を意図していたという。だが同社は,法人向けにソフトウェアの販売を行ってきた実績もあったため,ボイストリガーをミドルウェアとして販売するという計画を立てたそうだ。

 ちなみにボイストリガーの展示は,CEDEC 2018が初だという。一般的な音声入力システムに比べると,ピンポイントに絞り込まれているぶん,圧倒的に高精度かつ軽量に作られた「ボイストリガー」を,ゲーム業界がどう活用するのか。
 ともあれ,興味を持ったゲーム開発者は,CEDEC 2018会場でボイストリガーの精度を実体験してみてはいかがだろうか。ボイストリガーのような企業展示はエキスポパス(当日1620円)での入場でも体験できるので,今からでも検討してみてほしい。

CEDEC 2018公式Webサイト

  • この記事のURL:
4Gamer.net最新情報
プラットフォーム別新着記事
総合新着記事
企画記事
スペシャルコンテンツ
注目記事ランキング
集計:11月08日〜11月09日