グーグル、世界生成AI「Genie 3」 720p解像度のゲーム世界を歩き回れる

グーグル、世界生成AI「Genie 3」 720p解像度のゲーム世界を歩き回れる

Google DeepMindは8月5日(現地時間)、テキストによる指示(プロンプト)から、ユーザーが操作可能な多様性に富んだ仮想世界をリアルタイムで生成する、汎用ワールドモデル「Genie 3」を発表した。

Google DeepMindは8月5日(現地時間)、テキストによる指示(プロンプト)から、ユーザーが操作可能な多様性に富んだ仮想世界をリアルタイムで生成する、汎用ワールドモデル「Genie 3」を発表した。入力したテキストに応じて、720pの解像度で数分間にわたり一貫性を保った世界を、毎秒24フレームで動的に生成できるという。

テキストで指示するだけで、自分だけのインタラクティブな世界を創造

 Genie 3は、単に動画を生成するだけでなく、ユーザーがその世界の中をリアルタイムで動き回れる「インタラクティブ性」が最大の特徴だ。例えば「光の祭典の中をジェットスキーで走る」や「海岸の崖の上をヘリコプターで慎重に飛行する」といったテキストを入力すると、その情景が生成されるだけでなく、ユーザーは実際にその環境を自由に探索できる。

 同社が公開したデモでは、水面の揺らぎや光の反射といった自然現象、動物の生態系、さらには折り紙スタイルのトカゲといった架空のキャラクターやアニメーションまで、幅広い世界の生成能力が示されている。また、「栄光の時代のクレタ島クノッソス宮殿を探検する」といったプロンプトでは、歴史的な舞台を再現しその中を歩き回ることも可能だ。

 このリアルタイム性と高い操作性を実現するためには、技術的なブレークスルーが必要だったという。ユーザーが1分前にいた場所に戻ってきた場合でも、モデルは1分前の情報を参照して世界の整合性を保つ必要がある。Genie 3は、ユーザーの新しい入力に毎秒複数回応答しながら、このような時間的な一貫性を維持することに成功した。

 さらに、ナビゲーション操作に加えてテキストで世界に介入できる「プロンプト可能なワールドイベント」機能も搭載。これにより、天候を変化させたり、新しいオブジェクトやキャラクターを登場させたりと、よりダイナミックな世界の改変が可能になる。

 Google DeepMindは、この技術がAIエージェントの研究を加速させると期待している。実際に、同社の汎用AIエージェント「SIMA」をGenie 3が生成した世界で動作させ、特定の目標を達成させるテストも実施した。一貫性のある世界でより長い行動を実行できるようになったことで、AIエージェントはさらに複雑なタスクに取り組めるようになると見込む。

 一方で、現状ではアクション空間の制限、複数エージェント間の複雑な相互作用の未実装、現実世界の地理的な正確性の欠如、長時間のインタラクションができないといった制限事項も存在する。同社は、責任ある開発を重視しており、まずは一部の研究者やクリエイターを対象とした限定的なリサーチプレビューとして提供し、フィードバックを収集しながら開発を進める方針だ。将来的には、教育やトレーニング、ロボットや自律システムの訓練・評価など、幅広い分野での活用を目指すとしている。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏