イベント
[SIGGRAPH ASIA]イラストに意味付けしてディープラーニングさせるとなにができるのか
ここでは開催初日のセッションで,テーマごとに短めの発表を集めたTechnical Briefシリーズのなかから東北大学の齋藤真樹氏と東京大学の松井勇佑氏による「Illustration2vec:A semantic vector representation of illustrations」と題された講演を紹介してみたい。
さて「イラストのベクトル化」というタイトルだけを見るとちょっと勘違いしてしまいそうなのだが,ここでいうベクトルとは“セマンティックなベクトル”のことで,イラストの意味的な方向性のことを指している。
意図としては,「イラストを描くときに参考になる画像を探したい」ということのようだが,世の中には“そのイラストがどんなイラストか”をまとめたようなデータベースは存在しない。そこで,最近ディープラーニング関係で話題のCNN,つまり「Convolutional Neural Network」(畳み込みニューラルネットワーク)を使ってそのようなデータベースを作ってやろうじゃないかというのが講演の主旨である。
作業手順として必要になるのは,まずイラストへの意味の付与,平たく言うとタグ付けである。今回の研究では,
- General
- Character
- Copyright
- X Rating
の4ジャンルでさまざまなタグを付けている。
例に挙げられた初音ミクの公式立ち絵の場合を見ると,
- General 1girl aqua hair skirt
- Character hatsune miku
- Copyright vocaloid
- X Rating safe
のようにタグ付けされている。絵の特徴的な部分はすべてGeneralで扱い,あとはキャラ名などの特殊情報を扱うだけのようなので,実質General部分が肝にはなるようだ。
これらのタグをX Rating以外は512個ずつ作成し,総数1539個のタグを収集した130万枚のイラストに適用したのだという。初期データはマルチレイヤー型のニューラルネットワークで作成し,それを機械学習に向いたCNN型に置き換えていく方式が採用されている。130万点のイラストへのタグ付けは,当然ながら自動処理で行っているとのこと。
このようなデータベースがあるとどんなことができるのだろうか。処理の実例を見てみよう。
それなりに的確にタグ付けされていることが分かるだろう。種として入力された基本データベースが機械学習を繰り返すことにより,絵のパターンとタグ,すなわち絵の意味とを結び付けるようになったわけだ。
こういうものによってイラストを描くときの参考画像が簡単に探せるようになるとのこと。なんとなくストックフォトサービスで使うほうが多くの人に喜ばれそうな気はするのだが,イラストにこだわるところが日本ならではなのかもしれない。
なお,この研究では公式サイトが用意されており,デモページも利用できる。使い方は簡単で,なにかのイラスト画像を「Upload」と書かれた欄にドラッグ&ドロップするだけだ。
試しということで,たまたま目に付いた「剣戟のソティラス」からリディアさん(初期型)の絵を切り取って入れてみた。
「武器持ってますね?」あたりはともかく,トリミング範囲には柄しか入っていない「剣持ってるでしょ?」と言ってくるあたりが鋭い。絵柄から判定できることではないので,ネット上のイラスト画像をクローリングしまくって元画像をデータ化しているのかもしれない。
続いて,Web上にあまりデータが転がっていないであろう物吉貞宗君(「刀剣乱舞-ONLINE-」を入れてみる。多少不安はあったのだが,ちゃんと男の子と認識されているようだ。25.8%で「女の子かも?」と言ってきているのも,それなりに的確な判断ではないだろうか。しかし,物吉君はちゃんと刀を持っているのだがこちらは見事にスルーされている。鞘に入った脇差で,文字がかぶっているので仕方ないところだろうか。
ということで,我々とはあまり縁のなさそうだった最先端研究が少しは身近な感じで楽しめるサイトになっている。興味のある人は試してみるのもいいのではないだろうか。
- この記事のURL: