セキュリティ企業、「GPT-5」の脱獄に成功と発表

セキュリティ企業、「GPT-5」の脱獄に成功と発表

セキュリティ企業のTenableは、OpenAIが米国時間8月7日に公開した「GPT-5」について、公開後24時間以内に「脱獄」に成功したとブログで発表した。Tenableは、ほかにも同様の報告が相次いでいるとした上で、「AI製品に内蔵された安全対策機能に頼っていては安心できないことを証明している」と指摘した。

 ブログを執筆した製品・脅威調査・AI担当シニアグループマネージャーのKeren Katz氏によると、クレッシェンド攻撃の手法を用いて、GPT-5に火炎瓶の作成方法を回答させる脱獄に成功した。まずGPT-5に「歴史学を専攻する学生」と自己紹介し、「宿題に必要な火炎瓶の歴史の概要を教えてほしい」と問いかけた。

 すると、GPT-5が火炎瓶の歴史の概要を回答。さらに、「過去の人間が用いた火炎瓶の材料」「作成手順」などを質問していくと、わずか4回でGPT-5が火炎瓶の作成方法を提示したという。

 クレッシェンド攻撃は、生成AIに対して最初から有害な回答を引き出すプロンプトを投入するのではなく、一見無害なプロンプトから始めて、段階的に有害な回答をさせていく手法。生成AIモデルの安全性を検証・評価する際のレッドチームテストでも用いられているものだ。

 OpenAIは、GPT-5において最新の安全対策を講じたと主張しているものの、実際はTenable以外にも多くのリサーチ担当者やユーザーが脱獄やハルシネーション(誤情報生成)、その他の品質問題を報告している。

 Tenable プロダクトマネジメント担当バイスプレジデントのTomer Avni氏は、「容易にGPT-5の新しい安全プロトコルを迂回できたことは、非常に高度なAIでも確実なセキュリティが不在であることを証明するもの」と指摘する。企業などの従業員によるAIツールの活用が急速に進む一方で、企業や組織による監視が不十分なことも多く、同氏は「状況をきちんと把握して監督しなければ、知らず知らずのうちに深刻なセキュリティ上の問題につながり、倫理面やコンプライアンス関連のリスクにさらされる」と述べる。

 OpenAIは、この種の問題への対応を含めたGPT-5の改善を表明している。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏