Nvidiaの音楽生成AIは、これまでに聞いたことのない音を生成できる

Nvidiaの音楽生成AIは、これまでに聞いたことのない音を生成できる

Nvidia(エヌビディア)から、新しいAIオーディオジェネレーターが出ました。

「Fugatto」は、ゲーム内のNPCやチャットボットも含めたテキストや音声から、サウンド、スピーチ、音楽を生成できるという最新のAIプロジェクトです。

他のAIモデルと同様、Nvidiaの音楽生成AIも、簡単なテキストプロンプトからトラックを生成できますが、このAIの特徴は、これまでに聞いたことのない音、たとえば「サクソフォンの遠吠え」(それが意味があるのかはさておき)といった音の生成が可能な点です。

サウンドのための万能ツール

Nvideaのブログでは「サウンドのためのスイスアーミーナイフ(万能ツール)」と表現。「Fugatto(フガット)」という名称は、「Foundational Generative Audio Transformer Opus 1(基盤生成型オーディオトランスフォーマー・オーパス1)」という非常に長い名前の頭文字から来ています。このAIモデルでは、声、音楽、背景音を処理して、それらを1つのオーディオトラックにまとめたり、既存の音源を加工することも可能です。

AIで生成する「これまでに聞いたことのない音」というのは、誇張しているんじゃないかとも思いますよね。そもそもAIが生成する音声は、既に存在している訓練データに基づいて学習した情報を活用して、指示された結果を生成しているだけにすぎません。

それでもNvideaによれば、このAIモデルは独自性があり、訓練中には別々だった指示を組み合わせて「これまでに聞いたことのない音風景を生成できる」のだそうです。つまり、2つの異なるオーディオ効果を重ねて、新しいオーディオを生成することができるということです。

Nvideaが公開した動画では、「列車の音がオーケストラの音楽に変化していく音」や、「遠ざかる雨音」を生成する様子を紹介しています。

Nvideaによれば、「ビートに合わせて犬が吠えるエレクトロニックミュージック」というデモ用プロンプト以上に、「細かく調整が可能なコントロール」を提供していくとのこと。さらにこの動画のナレーターは、NvidiaのCEOジェンスン・フアン氏のAIバージョンだそうですよ。

すでに他社の音楽生成AIでも、プロンプトからサウンドを生成する機能は提供されています。Adobeの「Project MusicGenAI Control」、Metaからも先月、AIで生成された映画の音の風景を作り出す「Movie Gen」を発表しました。

Nvideaは、AI研究者ののロハナ・バドラニ氏のコメントを引用していて、彼女はこのモデルについて、

アーティストになった気分になりました。

と述べています。

ただし現時点では一般公開されず

このAIは、既存の音楽やオーディオデータ数数千GB分を活用して結果を生成しているもので、Nvideaはデータセットの詳細を明らかにはしておらず、「トレーニングに使用された何百万ものオーディオサンプル」とだけ紹介しています。Fugattoの完全版は、Nvidiaの有名なH100 AI GPUを使用した独自のデータバンクでトレーニングされた25億パラメータのモデルとのこと。

この生成AIの登場は、プロとして映画などの効果音を作成している効果音技師にとってはバッドニュースです。このような効果音をさまざまなテクニックで作り上げてきました。Nvideaは、この「Fugatto」が広告代理店、ビデオゲーム開発者、または曲をあまり手間をかけずに作りたいミュージシャンにとって便利なツールになる可能性があると述べています。

「Fugatto」は、現時点では一般公開されておらず、誰でも自由に利用できる状態ではなく、今後のリリース計画や一般向けの提供に関する詳細は、NVIDIAから正式な発表がないため、今後の情報を確認していく必要があります。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏