ChatGPTが“人のように”応答　「高度な音声モード」一部ユーザーから開始

OpenAIは、「ChatGPT」で、応答速度が早く、人のように回答してくれる「高度なVoice Mode(音声モード)」のα版を一部の「ChatGPT Plus」(月額20ドル)ユーザー向けに提供開始した。今秋までに、ChatGPT Plusのすべてのユーザーが利用可能になる。

高度な音声モードは、より自然でリアルタイムな会話が可能になるほか、話し手の“感情”を感知して反応する新機能。トーン、複数の話者、背景のノイズなどを認識しながら、声で応答し、5月の発表時には、あたかも人と対話しているような自然な会話のデモが行なわれた。

AIモデルはGPT-4oを使い、高度な音声機能では45の言語で100人以上の外部チームがテスト。人々のプライバシーを保護するため、モデルが4つのプリセット音声のみで話すようにトレーニングしており、それらの音声と異なる出力はブロックする。また、暴力的な表現や著作権で保護されたコンテンツのリクエストを防ぐ「ガードレール」も実装した。

α版のユーザーには、手順を記載したメールとアプリへのメッセージが届き、順次ユーザーを拡大していく。また、ビデオと画面共有機能は後日リリース予定。

We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions.

OpenAI、ChatGPTが感情も読むアドバンスト音声モードを招待制テスト開始『Her』スカヨハ似ボイスは含まず

OpenAIが、ChatGPTの延期していた新機能 Advanced Voice Mode を一部Plusユーザー向けに試験提供しました。

Advanced Voice Mode は、ChatGPTと音声で自然な会話ができる機能。

ChatGPT は従来から音声モードに対応していますが、現状では自然な声の会話というよりも、ターンが明確なテキストチャットが音声入力と読み上げで使えるといったほうが近い機能です。

新機能の Advanced Chat Mode は、ChatGPTの発話が非常に自然で反応が早いことに加えて、話している途中に遮ったり被せても素早く反応すること、会話の間や、ユーザーの口調から感情も読み取って対応するなど、より現実に近い音声会話が可能です。

Advanced Voice Mode は GPT-4o モデルの一部として、5月のイベントで発表されていました。

当初は6月中に一部の ChatGPT Plus ユーザーへ提供予定でしたが、安全性の向上、特にユーザーからの不適切なリクエストを検出して拒否する能力の改善、全般的なユーザー体験の向上、今後多数のユーザーに提供するうえでインフラ側の準備といったことを理由に延期していました。

OpenAIによると、安全性への取り組みや改善は、社外の100名以上のレッドチームによる45言語によるテスト、プリセットの4種以外の音声では喋らない、暴力的な内容や著作権保護されたコンテンツについての出力をブロックするガードレールの実装など。

(レッドチームはセキュリティ向上のため攻撃やハックを試みて脆弱性を発見する役割、とその従事者のこと)。

延期を経て始まったアルファテストは、ChatGPT Plus加入者のうち少数が対象。選ばれた場合は登録メールアドレスに案内が届くほか、モバイルアプリのChatGPTにもAdvanced Voice Mode について知らせる画面が表示されます。

段階的に対象者を拡大し、秋にはすべてのChatGPT Plus 加入者がAdvanced Voice Mode を利用可能になる見込み。

なお、会話と並んで大きな反響を呼んだ映像や画面共有への対応、つまりカメラでリアルタイムの映像を見せたり、画面に表示された内容を ChatGPT に共有してリアルタイムに質問したり会話する機能については、単に「今後提供」のままのステータスです。

「ChatGPT」が人のように会話する“高度なボイスモード”がついに提供開始、まずはアルファユーザーから

　米OpenAIは7月30日（現地時間）、AIチャットボット「ChatGPT」において、同社の最新AIモデル「GPT-4o」をベースとした高度なボイスモード（advanced Voice Mode）の提供を開始した。現在はアルファ版として、メールまたはアプリ内通知が届いた一部のChatGPT Plus（有料版）ユーザーが利用できる。今後も順次対象ユーザーを追加し、今秋頃には全Plusユーザーがアクセス可能になる予定。

　新たに提供される“高度なボイスモード”は、「GPT-4o」のお披露目の場となった、今年2024年5月に実施された発表イベントにて披露されたもの。発表当初、この新モードは今年6月下旬に提供開始予定とされていたが、のちに同社のローンチ基準に到達していないとの理由でリリース延期に。約1カ月遅れでの提供開始となる。

　ボイスモード自体はすでに全ユーザーが利用可能な機能ではあるが、今回のモードでは、AIがユーザーの感情や非言語的なサインを理解して反応できるようになり、より自然でリアルタイムな会話体験が提供可能になる。リクエストによってはキャラクターの声を演じ分けるといった芸当も披露してくれる。なお、動画機能および画面共有機能については後日リリースされる予定となっている。

　また、「GPT-4o」のボイス機能は、45の言語にわたり、100人以上からなる外部レッドチームとテストを実施。ユーザーのプライバシーを保護するため、あらかじめ設定された4つの音声のみで会話するようモデルを訓練し、これらの音声と異なる出力をブロックするシステムを構築したとのこと。暴力的なコンテンツや著作権のあるコンテンツのリクエストをブロックするガードレールも実装されている。