ポケモン風のキャラクターをAIが作成、デモページを公開 GANの高速化研究の一環として

ポケモン風のキャラクターをAIが作成、デモページを公開 GANの高速化研究の一環として

 ドイツのUniversity of TubingenとMax Planck Institute for Intelligent Systems、University Heidelbergの研究チームが開発した「Projected GANs Converge Faster」は、最先端のGAN(Generative Adversarial Network)より学習が最大で40倍高速化する手法だ。その有効性を評価するために、ポケモン風のキャラクターを生成できるデモページをHugging FaceとReplicate内にある「Projected GAN」のWebページ内で公開している。

 GANは、画像生成や音声認識、自然言語処理など、幅広い分野で活用され高い成果を出しているが、学習の不安定さやハイパーパラメータの調整、計算コストが高いなどのさまざまな課題を抱えている。

 従来のGANでは、生成器が出力した画像を識別器に入力し真偽判定するが、この手法では、生成器の出力画像をそのまま識別器に供給し識別するのではなく、事前学習済みモデル(一番有効だったのがEfficientNet)の特徴表現を利用する方法を採用し、GANのこれまでの課題に挑戦する。

 そのまま事前学習済みモデルを適用しても最先端の精度にならないため、以下の戦略を含める。実画像と生成器による出力画像から、4つの畳み込み層の重みをランダムに初期化する構造を持つCCM(Cross-Channel Mixing)でチャネルから特徴を抽出。その後、CCMを拡張したU-Net構造を持つCSM(Cross-Scale Mixing)で異なる解像度から特徴を抽出し、変換したより多くの特徴を識別器に供給する。

 この手法を最先端モデルであるStyleGAN2-ADAとastGANとで比較した結果、この手法の方が最先端モデルより、サンプル効率と収束速度において大きく上回る結果を示した。同じ計算リソースで5日かかっていたものを3時間未満に短縮し、 最先端モデルのFIDスコア(GANの評価指標の1つ)に最大40倍の速度で達成した。 

Source and Image Credits: Sauer, A., Chitta, K., Muller, J., & Geiger, A. (2021). Projected GANs Converge Faster. ArXiv, abs/2111.01007.

 ※テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏