イベント
人間よりAIのほうがレッスン上手? 「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは[CEDEC 2024]
学マスではこれまで,深層強化学習によるカードゲームAIと,デッキ探索を用いたバランス調整支援システムを開発し,新規実装カードのバランス調整に活用してきたという。これらについて講演では,カードゲームのバランス調整支援にAIを活用する考え方や,最新のマスターデータにも適応するゲームAIの開発手法などが伝えられた。
まずは那須氏より「バランス調整の課題」について説明された。学マスではカードデッキを組み,育成パート「レッスン」では山札から手札を引いてプレイするが,カードがもたらす効果は状況により変動する。
そのため組み合わせ次第では,いわゆるバランスブレイカー的なカードが存在していても,人力で確実に見つけることは難しい。
そこでグレーボックス最適化により,膨大な組み合わせのなかから有力なデッキを探す「デッキ探索AI」と,深層強化学習であらゆるプレイングを試す「レッスンAI」を作成・連携させて対処することにした。
学マスは運営型タイトルであり,短いスパンで新カードが追加されていくことも課題とされた。ひと月に何度も新カードが実装されるワークフローにおいて,AIの学習時間に10日以上もかかってしまうようでは,バランス調整後の検証時間も取れなくなってしまうためだ。
そこで,スクラッチした学習モデルに,追加データ分を転移学習させるアプローチを試みた。これによりスクラッチ学習を繰り返すよりも効率的に対応でき,従来は10日以上かかっていた学習時間を“10時間程度まで短縮”したという。同時に「プランナー側でシミュレートを完結させられるバランス調整支援システム」が誕生することとなった。
システムの開発体制は,以下のスライドのとおり。
QualiArts側はインゲームロジック開発とバランス調整支援システムのWebアプリケーション/インフラ構築を担当し,サイバーエージェント側はデッキ探索AIとレッスンAIの開発を受け持っている。
バランス調整支援システムとは?
各論に移る前に,那須氏よりバランス調整支援システムの概要が説明された。前述のとおり,レッスンAIは初回だけスクラッチ学習でモデルを作り,以降はマスターデータの追加に合わせて移転学習を行う。
そのあと,ゲームに新規追加されたカードを中心にデッキ探索を行い,シミュレーションを繰り返して結果を確認したあと,問題がなければ正式リリースされる流れになっているという。
スクラッチ学習と移転学習については,プレイイングを大別し,キャラクター属性「センス」と「ロジック」に分けて進められる。
これらのコンソールはメタデータを管理する形で,モデルの実体はW&B(開発者向けコラボレーションプラットフォーム)に保持。機械学習につきもののパラメータ入力は不要で,知識がなくても扱いやすい。
学習実行のコアロジックはUnityリポジトリに実装され,.NETランタイムでも動かせるように設計と実装を対応させている。これをPythonで実装したレッスンAIがソケット通信によりプレイ(学習)するわけだ。
この形でAIモデル管理と学習実行をするうえでの課題は,モデルがなにを学習したのか分かりづらいこと,モデル自体の強さ(信頼性)が分かりにくいことだとする。前者はモデル一覧や学習実行前に,新規学習対象のスキルカードやアイテムの効果差分を表示。後者は精度が比較的高いスコアを出せる手法(MCTS)と比較することで解決したそうだ。
ちなみに,学マスのカード効果の説明文はすべて関連マスターデータから自動生成しているため,動的に差分検出できるのだという。
ワークフローの「デッキ探索」には,Google CloudのCloud Run/Batchを中心としたサーバレスアーキテクチャが採用された。これにより並列実行が可能で,使いたいタイミングで柔軟にリスケールできるものになっている。また,デッキ情報やAIによるプレイログは蓄積され,スプレッドシートのデータコネクタを使って同期できるとしている。
これにより,プランナーが普段から使い慣れているスプレッドシート上で,データを任意に加工・分析することが可能になった。
これらの結果,以下のようなことが実現された。
同システムをゲームのサービス開始前から運用することで,配信前の時点で「1億パターン以上のデッキをシミュレーション」でき,レッスンの総プレイ回数も10億回以上に到達。これを人力が行おうとした場合,1回1分で対処しても“約1900年”を要することになる。
これだけのパターンを試したことで,設計時やテストプレイ時には気づけなかったことも検知でき,バランス調整に大きく貢献したという。
具体例としては「ランキング上位陣のデッキが似通ったものになることを防ぐ」「スキルカードの組み合わせで発生するループを防ぐ」といったものだ。また副次的な効果として,バグ検出にも役立ったらしい。
レッスンAIをレッスンする
続いて伊原氏が「レッスンAI」について解説していった。レッスンAIに求められた要件は,以下のようなものになる。
1.あらゆる状況で任意のカードをプレイ可能
2.1プレイの時間は0.1秒以下
3.新規カード追加から結果確認までのリードタイムは36時間以下
つまり,最高効率を目指して最高速度でプレイさせ,マスターデータの変更から36時間以内でのAI学習と,シミュレーション結果の分かりやすい確認方法が求められていたとする。
学マスにおけるレッスンは,マルコフ決定過程(MDP)としてモデル化することができる。これは現在の「状態」「行動」によって,次に移行する「状態」が確率的に決まるモデルである。
これをモンテカルロ木法(MCTS)を使ったゲーム木探索手法と組み合わせることで,より厳密な最適行動に近づけていく。一応補足しておくと,これらはコンピュータが将棋や囲碁の手を読むのと原理は同じだ。
ただし,上記の方法は計算時間がかかるのが難点であり,9ターン分のレッスンを行うのに平均実行時間が1416.2秒かかってしまう。
その解決策として,「深層強化学習」による最適なプレイへの近似を目指す手法が取られた。とどのつまり,レッスンAIにあらゆる状況を経験させ,試行錯誤により学習させるといったものである。
結果,MCTSと比べても遜色ないスコアを出すことができ,1回あたりのプレイも0.1秒で対処できるレッスンAIを実現した。
平均スコアは少し下回っているが,平均プレイ時間は要件で求められた0.1秒に到達。同時間なら1万4000倍以上のテストプレイが行える。
一方,新カードが続々と追加されていく運営状況では,レッスンAIの学習時間の課題を解決せねばならなかった。上記の性能を実現するためには3億回のプレイ,約300時間がかかる状況だったためだ。
そこで,学習時間を減らすために「転移学習」が導入された。
とはいえ,こちらもそのままだと新カードが増え続けるうちに限界が訪れる仕組みのため,大規模言語モデル(LLM。OpenAIのEmbeddings APIを使用したという)で文章埋め込みを活用し,状態表現を行った。
こちらはゲーム内の構造データではなく,カードの効果テキストを使用することで,仕様変更などにも強く,さらに新カードも追加学習なしで導入できるのがメリットだという。
結果として転移学習がより短時間で済むようになり,同じ時間でスクラッチ学習させた場合と比べても,より高精度なプレイを実現させた。
こうして学習を済ませたレッスンAIのプレイングは,人間と比較しても遜色がないというか,かなり近いものとなったという。
学マスに精通した社内ユーザーのプレイと比べた場合でも,レッスンAIがスコアで上回ることがあり,そのプレイング内容の差もわずか一手,されど大きな一手の違いだったそうだ。
デッキ構築AIにもLLMが使われていた
続いて,伊原氏が「デッキ構築AI」について解説した。
デッキ構築AIの目的は,バランスブレイカーとなりうる最大スコアのデッキを発見すること。極端なスコアが出た場合,そこには強すぎるカードや,カード同士の組み合わせが含まれているという考え方だ。
配信開始時のカードやアイテムの数だけでも,その組み合わせは膨大で(10の20乗以上),アップデートごとにすべてやり直すのは現実的ではなかった。そこで問題を総当たり的に解決する「ブラックボックス最適化」ではなく,問題に関する知識を一部活用する「グレーボックス最適化」を採用。また,ここでもLLMを用いた文章埋め込みが使われた。
デッキ探索アルゴリズムには,遺伝的アルゴリズムを用いた。これは2つのカードデッキを組み合わせて子世代のデッキを作り,評価の高い解が生き残ったり,優秀な解同士から次の世代を作ったり,そこに突然変異的な変化を起こしたりして最適解(の近似値)を探す仕組みだ。
これは一般にはブラックボックス最適化の枠組みになるアルゴリズムだが,今回はLLMによってベクトル化したカード情報を導入することで,グレイボックス最適化のアルゴリズムとして実装された。
具体的には,デッキの集合から関数分布を構成し,ガウス分布から点をサンプリング。埋め込み空間のある一点から最近傍のカードを探索し,そのカードをデッキに追加するという方法が取られた。分散が大きい場合はランダム選択に近く,小さい場合は親と子がよく似る結果となる。
そして実験結果が以下のスライドとなる。
転移学習させたAIに,総デッキ枚数が20〜30枚,初期デッキ枚数が6〜8枚,レッスン12ターンの設定でデッキ探索を行わせたところ,完全なランダムサンプリングに近いアルゴリズムと比較して,15%ほど効率のいい結果をたたき出したとしている。
伊原氏はこれらのバランス調整支援システムを用いたことで,サービス開始時点で1億デッキ,10億レッスン以上のシミュレーションを実施してきた。結果,人力では気付けなかったデッキやプレイパターンも調整できたメリットを再度伝えつつ,今回のセッションを締めくくった。
レッスンAIとデッキ探索AI。本セッションでは2つの開発事例が発表されたが,そのどちらも「従来の人口知能的なアプローチにLLMを組み合わせた」ことで,運営型ゲームのフローのなかでも実用的に使える支援システムを生み出せていることが興味深かった。
まさしく,AI活用においてLLMが注目を集めている理由や,LLMの力が理解しやすいセッションだったのではないだろうか。
神は細部に宿る――「学園アイドルマスター」3Dキャラ・背景・ライブ演出はいかにこだわり抜かれ,生まれたのか?[CEDEC 2024]
CEDEC 2024の初日,講演「神は細部に宿る!『学園アイドルマスター』のこだわり抜いた3Dキャラクター・背景制作」が行われた。本講演では同作の3Dオブジェクト制作事例が挙げられ,ライブシーンなどでの工夫について解説された。
4Gamer「CEDEC 2024」記事一覧
「学園アイドルマスター」公式サイト
「学園アイドルマスター」ダウンロードページ
「学園アイドルマスター」ダウンロードページ
- 関連タイトル:
学園アイドルマスター
- 関連タイトル:
学園アイドルマスター
- この記事のURL:
キーワード
THE IDOLM@STER& (C)Bandai Namco Entertainment Inc.
THE IDOLM@STER& (C)Bandai Namco Entertainment Inc.