NVIDIA、推論チップ開発企業Groqとライセンス契約を締結
AI推論チップ開発を手掛けるGroqは12月24日(現地時間)、同社の推論技術に関して、NVIDIAと非独占ライセンス契約を締結したと発表した。
Groqは、AI推論処理に特化した技術および独自チップ「LPU」の開発を行なう企業。NVIDIAとの今回のライセンス契約により、Groqの創設者であるJonathan Ross氏、社長であるSunny Madra氏、およびほかのチームメンバーがNVIDIA側に加わり、ライセンス供与された技術の開発と拡大に注力するという。
一方、Groqは引き続き独立した企業として運営し、Simon Edwards氏が最高経営責任者(CEO)を担う。また、LPUを採用したクラウドサービス「GroqCloud」は中断することなく運営を継続する。
Groqは2016年に設立された。同社のLPUは、コンパイラ制御によるソフトウェアデファインドなシングルコアアーキテクチャを採用している。数百MBのSRAMをメインの重みストレージとして統合した点が特徴であり、これによりレイテンシを削減し、演算ユニットにフルスピードでデータを供給できる。チップ間で効率的なテンソル並列処理により、高速かつスケーラブルな推論を実現する。
ライセンス額については公開されていないが、この件について報道しているCNBCによると、約200億ドル(約3兆1,200万円相当)に上るとされ、実質企業買収に近い形だとしている。
言語処理ユニット(LPU)とは?Groqが開発した言語処理専用チップを紹介
自然言語モデルを活用した生成AIでは、ユーザーとリアルタイムにやり取りするユースケースが求められることが多く、高速化のニーズが高まっています。AIの高速化を実現する可能性の一つとして、スタートアップ企業のGroqが開発した言語処理ユニット(LPU)が注目を集めています。本記事ではLPUの概要、Groqの開発アプローチや今後の展望について解説します。
LPUとは
2016年に設立したスタートアップ企業のGroqは、言語処理ユニット(LPU:Language Processing Unit)と呼ばれる言語処理に特化したプロセッサを開発しました。LPUは大規模言語モデル(LLM)の処理における従来のハードウエア、特にGPUやCPUの欠点を克服するように設計され、高い計算能力とメモリ帯域幅の改善を特長としています。
これまでAI処理において中心的な役割を担ってきたGPUは、もともと映像や3Dグラフィックス処理に関する並列演算に長けていました。そして同じく並列演算を活用できる機械学習のモデル生成にもGPUが転用されるようになりました。しかし、テキストのようなデータの処理は本来のGPUの設計思想から外れています。
ここに着目し、自然言語モデルの推論処理に特化して設計されたLPUは、GPUを超えるパフォーマンスを発揮します。Groqは公式サイト上でLPUを搭載したチャットボット「GroqChat」を公開し、Llama2やMixtralなどのオープンソースLLMを用いたデモンストレーションを提供しています。
LPUの特長
大規模言語モデルの応答生成を比較すると、LPUはGPUより10倍以上早くなるという結果が得られています。これを可能にする理由として、チップの性能を最大限に引き出すためGroqはハードウエアとソフトウエアを一体開発していることが挙げられます。
圧倒的な高速性
LPUの計算パフォーマンスは従来のGPUを大きく凌駕しており、特に大規模な言語モデルの処理においてその差は顕著です。GroqChatとGPT-3.5を利用したChatGPTとの比較では、GroqChatがわずか数秒で応答可能なのに対し、ChatGPTは20秒以上を要するケースが報告されています。
Groqの発表によると、LPUの性能は最大500 tokens/秒に達するとのことで、これはGPT-3.5が提供する約40 tokens/秒の処理速度と比較して10倍以上の速度です。LPUは大規模言語モデルの応答生成時間を大幅に短縮する可能性を持ち、特にリアルタイム性が求められるアプリケーションにおいて、その優位性を発揮します。この桁違いの高速性が、LPUが将来的にAIや機械学習分野において重要な役割を果たすことを示唆しています。
ハードウエアとソフトウエアの一体開発で誕生
LPUの圧倒的な高速性を支える一因として、Groqの開発アプローチが挙げられます。Groqは、LPUのチップアーキテクチャから始まり、ソフトウエアにいたるまでのすべてを自社で一体開発しています。このアプローチは、Appleが自社のチップ、オペレーティングシステム(OS)、そしてアプリケーションを自社一貫で設計・開発する戦略と同様で、ハードウエアとソフトウエアの間の最適化を追求することにより、LPUはその驚異的な性能を達成しています。
多くのAI企業はGPUをNvidiaなどの外部ベンダーから調達し、そこに自社のソフトウエアを搭載します。一方でGroqはハードウエアとソフトウエアの設計を始めから終わりまで自社で行うことで、両者間の深い統合と最適化を実現し、LPUの性能を引き出しています。ハードウエアとソフトウエアの相性を細かく調整することで、通常では達成が難しいレベルの処理速度と効率を実現できるのです。
開発者向けプラットフォームを公開
Groqは、コードやサンプル、ドキュメントを統合した開発者向けプラットフォーム「GroqCloud」を公式サイトで公開しています。GroqCloudを利用することで、開発者はLPU推論エンジンに簡単にアクセスし、生成AIアプリケーションを容易に展開できます。2024年2月19日の公開以降、数千人が利用しているとのことです。
APIアクセスにも対応しており、APIキーをGroqCloudから取得できます。APIの利用は従量課金制で、使用する大規模言語モデルに応じて価格が異なります。OpenAIのAPIを利用している場合は、GroqのAPIキー、APIエンドポイント、言語モデルの三つを変更するだけで、簡単にGroqCloudを利用できます。
LPUで言語処理のリアルタイム性が向上
チャットボットやコンテンツ生成など、リアルタイムでの応答を求められるAI活用のニーズが高まる中で、言語処理の高速化は重要な課題となっています。Groqが開発したLPUは、GPUを凌駕する高速な言語処理能力を実現し、対話型アプリケーションにおけるリアルタイム性の向上に大きな可能性を秘めています。今後、LPUを搭載したAIツールが登場すれば、対話型アプリケーションの質が格段に向上することが期待されます。開発者向けプラットフォームは誰でも試せるため、興味のある方は他社のサービスと比較してみてはいかがでしょうか。
言語処理ユニット(LPU)とは?
言語処理ユニット(LPU)を理解するには、まず、大規模言語モデル(LLM)を理解する必要があります。シンプルなコンセプトです。膨大な量のデータを活用することで、LLM は次の単語を順番に予測します。LLM は、概念はシンプルですが、実際には極めて複雑なため、人間が作成したテキストに匹敵する一貫性と精度でテキストを作成、分類、要約できます。LLM は、実用的なアプリケーションにおいて、顧客サポートのチャットボットの作成、カスタム製品の推奨の作成、独自のマーケティング・コンテンツの書き込み、洞察力のある市場調査の提供を可能にします。
LLM は最近まで、既存のチップと処理システムによって駆動されてきました。しかし、言語処理ユニット(LPU)は、これまでにない速度と精度で LLM 開発を加速することを約束するカスタム構築のチップとコンピューティング・システムです。LPU は、驚異的な速度とスループットに対応できるストレージ・インフラを備えており、自然言語処理の未来であり、サイバーセキュリティ、政府、研究、金融などの業界を根本的に変革する可能性があります。
言語処理ユニット(LPU)とは?
LPU は言語処理ユニットの略で、Groq という会社によって開発された独自の専用チップです(イーロン・マスクが率いる人工知能会社 Grok と間違えないでください)。Groq は、LLM の独自の速度とメモリ要求に対応するために LPU を設計しました。すなわち、LPU は並列処理ではなく、シーケンシャル処理を必要とする計算集約型のアプリケーション向けに設計された非常に高速なプロセッサであり、LLM は特にシーケンシャルな処理を特徴としています。
関連記事:LPU と GPU:その違いは?
LLM 市場は現在競争が激しく、NVIDIA のような巨大企業が一般および特定のアプリケーションに最適なモデルを生産しようと競争しています。Groq は、その分野で競争するのではなく、LLM を実行するための最高のチップセットと処理システムを作成することにしました。
LPU と従来のプロセッサの主な差別化要因は、LPU がシーケンシャル処理を重視していることです。今日の CPU は数値計算に優れており、GPU は並列計算に優れています。しかし、LPU は、言語の複雑でシーケンシャルな性質に対処するために特別に設計されており、文脈を理解し、一貫した応答を生成し、パターンを認識するモデルを訓練するのに役立ちます。
言語処理ユニット(LPU)の仕組み
Groq 独自の LPU は、LPU 推論エンジンに不可欠なコンポーネントです。LPU 推論エンジンは、新しいタイプの処理システムです。LPU 推論エンジンは、LLM を悩ませるコンピューティングとメモリの帯域幅のボトルネックに対処する特殊な計算環境です。
LPU 推論エンジンは、GPU と同じくらいの計算容量しか持っていませんが、外部メモリ帯域幅のボトルネックに負担がかからないため、LPU 推論エンジンは、LLM のトレーニングや操作時に従来の処理システムよりも大幅に優れた性能を提供します。しかし、驚異的なスループットはどこかに送らなければならず、従来のオンプレミスのデータ・ストレージ・ソリューションでは、LPU 推論エンジンの要求に追いつくことは困難でした。
LPU 推論エンジンは、大規模な展開でもシングルコア・アーキテクチャと同期ネットワーキングで動作し、低精度レベルでも高い精度を維持します。Groq は、優れたシーケンシャル性能とほぼ即時のメモリ・アクセスにより、LPU 推論エンジンが 500 億パラメータを超える LLM を自動コンパイルできることを誇りにしています。
言語処理ユニット(LPU)を使用するメリット
LPU を使用するメリットは、非常にシンプルです。LPU は、LLM をトレーニングするために作られたチップと処理システムだからです。LPU は、特定のモデルやトレーニング・プログラムに縛られることなく、アーキテクチャに関係なく、LLM の効率と性能を最適化するように設計されています。AI/ML の研究者や開発者は、さまざまなモデル・アーキテクチャ、データセット・サイズ、トレーニング手法を試用しています。汎用ハードウェアに制約されることなく、LPU を使用してさまざまなアプローチで研究や実験を加速できます。
現在のプロセッサや一部のデータ・ストレージ・ソリューションでさえ、LLM が必要とするスピードと需要に対応できません。また、LLM の高速化に伴い、GPU を使用してトレーニングを行うことは、実行可能性の低いソリューションになる可能性があります。LPU は CPU や GPU とともにデータセンターに存在するため、既存のネットワーク環境に LLM 開発を完全に統合することができます。十分に高速なフラッシュベースのエンタープライズ・ストレージにより、LPU はかつてない規模と複雑さの LLM をトレーニングし、展開することができます。
特定のタスクに特化した特殊なアーキテクチャを活用することで、処理速度、スループット、精度を向上させることができます。LLM の最終目標が音声認識であれ、言語翻訳であれ、センチメント分析であれ、LPU は汎用ハードウェアよりも優れた効率性と精度を提供します。
言語処理ユニット(LPU)のアプリケーション
LPU は、LLM の開発と使用を加速します。LLM を導入する場所を問わず、LPU を組み込むことで、効率性、スケーラビリティ、全体的な性能を劇的に向上させることができます。LPU によって大幅に高速化できるトレーニング・プロセスだけでなく、大規模なモデルではより高速な推論も実現できます。
関連記事:検索拡張生成とは
LPU は、LLM の開発サイクルを加速し、合理化します。チャットボットや仮想アシスタント、言語翻訳やローカリゼーション、センチメント分析など、自然言語処理タスクのリアルタイム・アプリケーションに新たな可能性をもたらします。LPU は、処理能力と効率性を高め、処理可能なデータ量、結果の速度と精度を向上させます。
しかし、データセンターがデータを十分に高速に提供できるかどうか、あるいはデータセンターの結果を保存・分析できるかどうかは、当然の欠点となります。ボトルネックは、LPU を使用する際に実際に発生する可能性があり、システム全体の効率と性能を妨げます。
ピュア・ストレージの FlashBlade//S のようなスループット、共有、スケールアウトされたデータ・ストレージ・アーキテクチャは、LPU や LPU 推論エンジンのようなチップや処理システムのギャップを埋めることができます。あるいは、組織が本格的なインフラ・ソリューションを求めている場合、オンデマンドのフルスタック AI 対応インフラである AIRI は、LPU 強化 LLM を含む AI 展開のあらゆるコンポーネントを処理できます。
まとめ
アウトバーンというドイツの高速道路をご存知でしょうか。一部のドライバーは、ドイツを訪問して旅行することに非常に興奮しています。しかし、アウトバーンを故障した古い車で運転すると想像してみてください。それをフルに活用することはできません。
大規模な言語モデルのトレーニングと展開のプロセスは、アウトバーンを芝刈り機で疾走するのに似ています。可能性はありますが、ハードウェアは不足しています。
LPU は、LLM のトレーニング用に特別に設計された優れた処理速度とスループットを提供し、その不足を補うように設計されています。しかし、LPU 推論エンジンにアップグレードするだけでは、サポートするインフラがその処理された情報に対応できない場合には十分ではありません。AIRI や FlashBlade//S のようなフルフラッシュ・ストレージ・ソリューションは、LPU の可能性を最大化しながら、ストレージと速度の問題に効果的に対処できます。
