AIが「新しいインチキ」にならないために。AI研究者が見た2024年の生成AIとOpenAI総括

AIが「新しいインチキ」にならないために。AI研究者が見た2024年の生成AIとOpenAI総括

2024年がもうすぐ終わろうとしている。

OpenAIが鳴物入りで始めた平日12日間連続の発表会は、AGIテストで飛躍的な成果を出したという「o3」の発表で幕を閉じた。

2024年末、12日間の連続発表が終わった直後というこの象徴的な時期に、批判的な視点も含めて、プログラマーでAI研究者でもある筆者の視点で、OpenAIと生成AIの最新動向を総括してみたい。

OpenAIの「失敗」と中国勢の脅威

「o3」の発表は、多いに話題になったが、率直なところ個人的には冷ややかに見ていた。我々AI業界ではこういった、ベンチマーク結果の自慢だけをする発表を「自慢リリース」と呼んでいる。

OpenAIの発表だから嘘ということはないだろうが、触ることができない以上、社外の人間がそれが本当かどうか確かめることはできないからだ。

AI業界、特に生成AIに関わる業界には、誇大広告や実態のない詐欺まがいの論文が跳梁跋扈(ちょうりょうばっこ)している。もちろんその中には数少ない本物もあるのだが、玉石混交の世界で本物を見極めるのは本当に難しい。しかも、石が圧倒的に多いのだ。筆者がしばしばAIを「新しいインチキ(Artful Illusory)」と呼ぶのはそういう状況があるからだ。

最初に断っておくが、筆者はAIを愛している。プログラマーとして10年以上にわたってディープラーニングを研究してきたし、複数の東証プライム上場企業との共同研究やAIに関する事業展開をしてきた。

だからインチキくさいAIの話を聞くと気分が悪くなる。そういう時には、「ああ、あれはAIはAIでも、新しいインチキの話をしてるんだな」とでも思わないと身が持たないのだ。

OpenAIはしばしば「自慢だけしてもったいぶる」癖によって幾度も失敗してきた会社だ。

今回ようやく正式にリリースされた動画生成AIの「Sora」も、本来発表されたのは10カ月も前の2024年2月だった。

ところが、OpenAIがいつまで経ってもSoraをリリースしないので「LTX Studio」や「Kling」「Pika2.0」「Runway Gen-3 Alpha」と言った動画生成サービスが次々とリリースされ、さらには「CogVideoX」や「LTXV」「HunyuanVideo」など、オープンソースでカスタマイズ可能な動画生成モデルまで出現してしまった。

Soraは完全に出鼻をくじかれ、いざスタートした正式サービスも、先行するサービスに比べて安くも高くもなく、性能もそれほどでもないというパッとしない登場になってしまった。

(とりあえず作ってみて2週間前にYouTube公開したSoraを使った動画はこちら)

この出し渋るというミスをOpenAIは以前にもやっている。

「DALL-E」という画像生成モデルを自慢だけしてぐずぐず公開しないでいる間にグーグルから「Imagen」という拡散モデルが登場し、「Midjouney」というサービスに先行され、さらにはStability.aiによる「StableDiffusion」という破壊的なオープンソースモデルが登場し、一気に存在意義を失った。

それにしても、最近の中国のAIは、最前線を見ているAI研究者としても驚異的だ。

まずすごいのが、全部オープンソースにしてしまうところである。テンセントでもバイトダンスでも、とにかく「こんなすごいものが」というモデルをどんどんオープンソースにして配ってしまう。

つまり、誰でも無償で使える。彼らに一体何のメリットがあるのか、目的がわからなくてむしろ怖いくらいだ。

この12月は、OpenAIとグーグルが対照的なつばぜり合いをしていたのも興味深い。

OpenAIが毎日、日本時間午前3時(太平洋標準時10時)に地味な発表を重ねることで世界中の非カリフォルニア居住のAI研究者を寝不足に陥れている一方で、グーグルは長距離マラソンのランナーのようにコツコツとOpenAIの発表直前にGeminiのアップデートを発表した。

グーグルからしてみれば、OpenAIの発表のインパクトが相対的に薄まるという作戦を展開していた形だ。

OpenAIとGeminiはどちらが「役立つ」のか…AI研究者の視点

AI研究者からみて、OpenAIとグーグル(Gemini)のどちらが「役に立つ」のか?

実際問題、Geminiの方が役立つと実感している人が多いのではないか、と筆者は考えている。

Geminiの方が高速で性能も十分高く、しかもAPIも公開されているため、月額1000ドル(約15万7000円)以上使うTier5ユーザーでないと使わせてもらえない「o1」のAPIよりもずっと役に立つからだ。

正式リリースされたo1および月額200ドル(約3万1000円)払うと使うことができる「o1 pro mode」は、一般の人が触るには少々オーバースペックに思える。

例えば、o1 pro modeは、物理学や数学などの論文を読ませたり、要約させたり、その論文をもとにSF的なアイデアを考えさせたりするのには、非常に役立つ。日常的にそんな使い方をする人は特定の業種に限られる。

言い方を変えれば、理系大学生のインターンや助手を雇うような感覚なのだが、あなたは仕事でそんな助手を必要としているのか?と考えると分かりやすいかもしれない。

OpenAIの失敗に話を戻すと、彼らが抱える問題は、「o1 pro modeもSoraも、より安くて高性能な他社の選択肢がある」ということなのだ。

特に2024年はローカルLLM(インターネットの接続せずに使えるLLM)の発達が目覚ましかった。

「vllm」や「ollama」のような、高速化・軽量化の工夫をこらした「量子化モデル」を手軽に動かせる環境も充実してきたし、「MacBook Pro(M4)」のように大容量メモリーにLLMを入れてローカルで動かしても実用的な性能が出せるようになってきた。

また、「Qwen2.5-Coder」のような、ローカルで動作するLLM(LLMの「大きさ」では比較的小さい30Bクラス※

)でもプログラミングの支援としては申し分のない性能を発揮できるようになった。

※編注 30Bとは:生成AIのパラメーター数のこと。モデル内部の複雑さ・規模を示している。BはBillionの略で、30Bは300億パラメーターの意味。

さらには、熱力学を応用して、LLMとしては非常に小さな「3B」程度の小規模なモデルでも飛躍的に性能を向上させることができる「entropix」や、(囲碁や将棋AIに使われる)モンテカルロ木探索とLLMを組み合わせたo1のような手法をオープンソースで実現する方法が模索されるなど、2024年にかけてローカルLLMでも十分な実用性が出せることが次第に証明されてきた。

2025年の今頃は、ローカルLLMが発達して誰もクラウドの向こう側にあるChatGPTのようなものは使わなくなっているかもしれない。

2024年の「インパクトの大きかった生成AI」

Anthropicの「Claude 3」にあるコンピューター操作を自動化する「Computer Use」機能は、AI研究者から見て2024年で最もインパクトのあるプロダクトの一つだった。OpenAIからも同様の機能が発表されることを期待したが、残念ながらそれは叶わなかった。

なぜなら、コンピューターの操作が自動化されるのは、原理的にはAIが社員になるのと同じだからだ。

リモート勤務から通勤への揺り戻しが世界各地で話題になっているが、雇用主や発注者の立場として考えると、「リモート勤務でカメラオフの従業員は、音声応答可能なChatGPTとあまり変わらない」というのは、2024年現在、顕在化してきた側面の1つだ。

実際、筆者は新たに起業したAI関連の会社で12月から再び一人だけフルタイムのスタッフを雇うことにしたのだが、筆者もスタッフもあえて出社体制にしている。

ちなみに、彼女の仕事は「一日中ChatGPTと話してタスクを実行させる」こと。言ってみればリモートで済みそうな作業だ。

それでも出社にしている理由は、「ちょっと聞いていいですか? この方向性でいいですか?」と聞かれたり、「ねぇ、ちょっと意見を聞かせて欲しいんだけど」と、相談するときに相手がすぐそばにいた方が、互いに手間がかからず、早く、便利だからだ。

ChatGPTから離れるのは食事の時間くらいという仕事でも、要は仕事の質を高めるには必然的に顔を合わせる必要がある、ということだ。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏