アップルが発表した「再構築された新しいSiri」の正体──Geminiとの関係

アップルが発表した「再構築された新しいSiri」の正体──Geminiとの関係

アップルが6月8日に開催した世界開発者会議「WWDC 26」の基調講演において、Apple Intelligenceの今後の戦略と、エージェンティックなふるまいを実現する新世代の「Siri AI」に関連する重要な発表を行った。

Siriによる体験は何が変わるのか、あるいはグーグルのGeminiとのパートナーシップについて、詳細を解説する特別なセッション「TECH TALK」が開催された。

ステージには現在、Apple Intelligenceの開発を最前線でリードするソフトウェアエンジニアリング担当シニア・バイスプレデントのクレイグ・フェデリギ氏をはじめ、昨年末に新しくAI担当バイスプレジデントに就任したアマル・スブラマニア氏、Siriのエンジニアリング担当バイス・プレジデントのマイク・ロックウェル氏と、ソフトウェア担当バイス・プレジデントのセバスチャン・マリノー=メス氏の4名が登壇した。

■完全に再構築された「Siri AI」

今回の注目すべき発表は「Siriがゼロから再構築」されたことだ。アップルはこれを「Siri AI」と名付けた。

「アップルは昨年、Siriが単に質問に答えるだけでなく、アプリやシステム機能を横断して必要な操作を実行するための『ツール呼び出し』の機能をアップデートにより段階的に追加した。しかし、既存のシステムを拡張していくアプローチではアップルが目指す理想的なビジョンやユーザー体験を十分に実現できないという判断から、その方針を大きくシフトチェンジした」(ロックウェル氏)

新しく誕生したSiri AIは「AFM 3 Core Advanced」と呼ばれる新しいオンデバイスモデルなどを中核とし、設計の初期段階からネイティブにマルチモーダルなシステムとして構築されている。つまり、従来のSiriが「音声をテキストに変換してから処理する」といった単一モダリティの橋渡しを中心としていたのに対して、AIがテキスト、画像、音声などタイプの異なる複数の情報形式を同時に理解できる構造に変わる。

Siri AIはチャットボットではなく、iOSやmacOSをはじめとするApple OSのシステム全体に深く根ざす対話型のユーザーインターフェースとして機能する。さらに、ユーザーの「パーソナルなコンテキスト」を賢く理解し、複数のアプリにまたがる個人的な情報を横断的に検索して推論処理を行える。

これを支える中核技術のひとつが「スパース・アーキテクチャ(Sparse Architecture)」だ。デバイス上で動くApple Foundation Model(AFM)は、大きなものでは全体で200億パラメータという大規模なモデルになるが、すべてのリクエストに対してフルサイズで稼働するわけではない。リクエストごとに必要なサブセットのみを使用し、わずか100万〜400万のパラメータだけを選択的にアクティベートする仕組みを採用している。

グーグルとのパートナー戦略の内容とは

これにより、デバイスの限られたメモリやバッテリーに過度な負担をかけることなく、大規模モデルに匹敵する高度な処理能力と、かつてないほど自然で表現豊かな音声合成をデバイスのローカル環境で実現する。

「オンスクリーンコンテキスト(画面認識機能)」も進化したSiriの機能だ。Siriはユーザーが端末のディスプレイ上で見ているウェブページ、メモのテキスト、アプリのUI、さらには画像を瞬時に理解する。例えば、画面に表示された風景写真について「この風景はどこで見られる?」とSiriに聞くだけで、現実世界に存在する場所であれば位置情報を解析しながら画像の詳細を伝える。続けざまに、その画像の場所にたどり着くためのルート検索をマップアプリと連動して提供する機能もある。

さらにSiriがデバイスのストレージ内に保存された数千、数万のメッセージや写真の中から必要な情報だけを見つけ出し、複数のアプリをまたいで「家族の写真」や「愛犬の写真」を推論、提示する機能も実現できる。

■グーグルとのパートナー戦略の内容とは

アップルは「第3世代」へと進化するAFM 3 ファミリの構築にあたり、グーグルと戦略的なパートナーシップを結んだ。この協力関係により、前世代から4つのコアモデル──AFM 3 Core、AFM 3 Core Advanced、AFM 3  Cloud、AFM 3  Cloud(Image)──の、それぞれの精度が飛躍的に向上するという。これらのモデルはAppleシリコンのためにカスタムビルドされ、グーグルのGemini Frontierモデルの出力を活用しながら最適化を図った。

フェデリギ氏は壇上で「アップルのシステムは、グーグルが提供するGeminiアプリ、およびグーグルがクライアント向けに展開するモデルや、これを配信するためのインフラ、および参照するナレッジベースも一切使っていない」ことを強調している。つまり、アップルの新しく再構築されたSiriはグーグルによる既存AIサービスや仕組みには全く依存していないということだ。

さらに、複雑な推論を必要とするタスクに向けた最強のモデル「AFM Cloud Pro」を本番環境で動かすために、アップルは自社のセキュアなPrivate Cloud Compute(PCC)のインフラを、Google Cloudの中にNVIDIAのGPU環境をベースとして構築した。

これにより、デバイスのローカル処理からクラウドに重い負荷がかかる処理まで、ユーザーのリクエストに応じて最も応答が速く適格なモデルを動的に割り当てることが可能になる。つまり、グーグルの強力な計算インフラと基礎モデルの恩恵を受けつつも、それを従来のアップルによる独自のセキュアなエコシステムの上に築くという最適解を導き出した。

Apple Intelligenceの仕組みはエージェンティックAIに変わるのか

つまりApple Intelligenceの仕組みはエージェンティックAIに変わるのか

近年、自律的に思考し行動する「エージェンティックAI」が注目を集めているが、Apple Intelligenceもその方向へと舵を切りつつある。ロックウェル氏は「エージェントとは情報を取り込み、決定を下し、行動を起こすループのことである」と定義した上で、現在のSiriは主にリクエストベースで動いているものの、その基盤にはエージェント的なアーキテクチャが採用されていると語った。

新しいSiriでは、システム全体のプライバシーアーキテクチャの鍵を司る「オーケストレーター」がAIモデルと連携しながら、アプリツールボックスを操作する、先述の「ツール呼び出し」機能を抜本的に作り直して組み込んだ。これにより、ユーザーの指示を受けてSiriが裏側でアプリの機能を直接実行することが可能になる。

アップルは新しいフレームワークを通じて、この仕組みをサードパーティの開発者にも開放する。現時点では完全に自律的で長期的なタスクを自動でこなす段階にはないが、将来の強力なエージェントAIへと進化していくために、堅牢で拡張性にも富んだ下地は既に準備されている。

Google Cloudのインフラを使用するという発表に対し、「アップルユーザーの個人情報がグーグルに渡ってしまうのではないか」という懸念がアップルにも寄せられているという。この問いに対してマリノー=メス氏は、アップルによるPCCの厳格なプライバシー基準をエンドツーエンドで維持する仕組みが、Google Cloudをベースとする実行環境においても担保されることを強調した。

クラウドに送信されるデータは、該当する推論処理に必要な最小限のものにとどめ、処理が完了して回答を生成した直後に一切の記録が完全に消去される。これらのデータがサーバーに保存されたり、プロファイル構築に利用されたりすることはなく、さらにはアップルでさえもその内容を知ることができない仕組みがある。

そしてクラウド上に展開されるソフトウェアもアップルが独自にコントロールしている。ユーザーのデバイスはアップルが署名した認証済みのソフトウェアとのみ通信を行う、強固な機密性を確保した。

■Siri AIの提供開始予定は年内。英語環境から

WWDC 26における一連の発表は、アップルが独自のAIアーキテクチャを完成させ、本格的な攻勢に転じたことを強く印象づけるものだった。

ただし、今回のWWDCの時点では、そのサービスモデルなど気になる情報の多くがまだベールに包まれている。そして、AIをめぐる競争がこれからも一段と激しさを増してくることを踏まえれば、Siri AIに関するいくつかの課題も浮かび上がる。筆者は特に以下の3点に注目した。

私たちのAppleデバイスとの関わり方を根本から変える転換点

ひとつは競合の機能に対する「アップルらしさ」の再定義だ。例えばアップルが発表した新しいAI関連の機能やサービスの中には、グーグルの「Gemini」と「Pixel」デバイスの組み合わせなど、他社のAIエコシステムでは先行して実現しているものも少なくない。アップルはOSへの深い統合とプライバシー保護を同社の絶対的な強みとしているが、個別の機能の優劣だけでなく、それらがユーザーの生活体験をどう一変させるのかという「アップルを選ぶことの理由」を明確に示しながら、他社に勝る体験価値として前面に押し出す腕力が必要だ。

次に、ビジネスモデルの持続性とマネタイゼーションだ。新しいApple Intelligenceは基本的に無料で提供され、例えば画像生成のように大きな負荷のかかるタスクにおいては、iCloud+のサブスクリプションサービスに「生成クレジット」のようなオプションをつくり、計算コストに応じて従量課金やサブスクリプションを求めることを検討するようだ。今はユーザーの間にも「高度なAIサービスにはお金がかかる」という認識が育ちつつあるから、筆者はこのアップルの方針は妥当だと思う。あるいはヘビーに活用したいプロユーザー向けに制限を取り払い、快適さを担保するApple Intelligenceの「有料プレミアムプラン」を設けることもまた、インフラ維持の観点から十分に検討の余地があるはずだ。

そして最後にエコシステムの拡張戦略だ。これまでアップルは自社製ハードウェアの中にユーザーを囲い込む戦略で成功を収めてきた。今後はApple Intelligenceの各機能を独立させ、AndroidやWindowsなど他社のプラットフォーム向けにアプリやサービスとして、切りだして提供するビジネスモデルもあり得ないだろうか。AIによる利便性がデバイスの垣根を越えつつある中、アップルの卓越したAIテクノロジーとプライバシー基準をより広範な市場で展開していく柔軟な発想も、より多くのユーザーとの接点をつくり、データを確保しながらApple Intelligenceを鍛えるために欠かせない。

再構築されたSiriとApple Intelligenceの登場は、私たちのAppleデバイスとの関わり方を根本から変える転換点になるだろう。新しいSiri AIの機能は次世代バージョン「27」のiOS、iPadOS、macOS、visionOS 27に始まり、少し遅れてwatchOS 27から、対応するデバイスを英語に設定しているユーザーにベータ版として提供される見込みだ。

気になる日本語対応の時期については触れられていないが、アップルは「さらに多くの言語への対応を迅速に拡大する」と宣言した。今後、新しい「アップルのAI」が競合他社のサービスに並んで、私たちの日常に溶け込むまでに成長できるのか、引き続き注目したい。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏