概要OpenAIは、マルチモーダルサポート、高度な会話能力、強力な音声推論性能を備えたgpt-realtime音声-to-音声モデルをリリースしました。人工知能研究組織OpenAIは、開発者や企業が堅牢で生産準備が整った音声エージェントを構築できる機能を強化したRealtime APIの一般提供を発表しました。このAPIは、リモートMCPサーバー、画像入力、セッション初期化プロトコル(SIP)を介した電話呼び出しをサポートしており、より能力が高く、文脈を理解した音声アプリケーションを可能にします。APIとともに、OpenAIは最も先進的な音声から音声へのモデル、gpt-realtimeをリリースしました。このモデルは指示の実行、関数呼び出し、そして自然な音声を改善するように設計されています。このモデルは複雑なプロンプトを解釈し、文中で言語を切り替え、英数字のシーケンスを正確に再現し、非言語的な合図をキャッチすることができます。新しい2つの声、CedarとMarinも利用可能で、より表現力豊かで人間らしいイントネーションを提供します。既存の声もこれらの強化を取り入れるように更新されました。Realtime APIは、単一のモデルを通じて音声を直接処理するため、レイテンシを減らし、ニュアンスを保持します。これは、従来のパイプラインが別々の音声認識および音声合成モデルを連結するのとは対照的です。gpt-realtimeは、ユーザーとのコラボレーションでトレーニングされており、カスタマーサポート、パーソナルアシスタンス、教育などの実世界のアプリケーションで優れた成果を上げています。ベンチマーク評価では、以前のモデルと比較して、推論、指示遵守、機能呼び出しの精度において大幅な改善が見られます。追加の更新には、非同期関数呼び出しが含まれており、進行中の会話を中断することなく長時間実行される操作を可能にし、シームレスで本番対応の音声体験をさらにサポートします。## OpenAI、MCPサポート、画像入力、SIP統合、音声エージェントのコスト削減コントロールを備えたリアルタイムAPIを拡張OpenAIのリアルタイムAPIには、統合を簡素化し、製品向け音声エージェントの機能を拡張するために設計された新機能が含まれています。開発者は、セッションをMCPサーバーのURLにリンクすることでリモートMCPサポートを有効にし、APIがツール呼び出しを自動的に管理し、手動設定なしで追加機能にアクセスできるようにします。gpt-realtimeモデルは現在、画像入力をサポートしており、システムは音声やテキストに加えて写真、スクリーンショット、その他のビジュアルを取り入れることができます。これにより、ユーザーは見ているものに関してコンテキストに特化した質問をすることができ、開発者はどの画像がいつ共有されるかを制御することができます。追加の改善には、アプリを電話ネットワークやPBXシステムに接続するためのセッション開始プロトコル (SIP)のサポート、ならびに開発者が複数のセッションで事前構成された指示、ツール、および例メッセージを保存して展開できる再利用可能なプロンプトが含まれます。一般公開されているRealtime APIとgpt-realtimeモデルは、すべての開発者が利用できるようになり、以前のgpt-4o-realtime-previewと比べて価格が20%引き下げられました。会話のコンテキストに対する新しいコントロールにより、よりスマートなトークン管理が可能になり、長時間のセッションのコストが削減されます。これらの機能を採用するために、ドキュメント、テスト用のプレイグラウンド、およびRealtime APIプロンプティングガイドが利用可能です。
OpenAIがマルチモーダルサポートと高度な会話能力を備えたGPT-リアルタイム音声対音声モデルを発表
概要
OpenAIは、マルチモーダルサポート、高度な会話能力、強力な音声推論性能を備えたgpt-realtime音声-to-音声モデルをリリースしました。
人工知能研究組織OpenAIは、開発者や企業が堅牢で生産準備が整った音声エージェントを構築できる機能を強化したRealtime APIの一般提供を発表しました。このAPIは、リモートMCPサーバー、画像入力、セッション初期化プロトコル(SIP)を介した電話呼び出しをサポートしており、より能力が高く、文脈を理解した音声アプリケーションを可能にします。
APIとともに、OpenAIは最も先進的な音声から音声へのモデル、gpt-realtimeをリリースしました。このモデルは指示の実行、関数呼び出し、そして自然な音声を改善するように設計されています。このモデルは複雑なプロンプトを解釈し、文中で言語を切り替え、英数字のシーケンスを正確に再現し、非言語的な合図をキャッチすることができます。新しい2つの声、CedarとMarinも利用可能で、より表現力豊かで人間らしいイントネーションを提供します。既存の声もこれらの強化を取り入れるように更新されました。
Realtime APIは、単一のモデルを通じて音声を直接処理するため、レイテンシを減らし、ニュアンスを保持します。これは、従来のパイプラインが別々の音声認識および音声合成モデルを連結するのとは対照的です。gpt-realtimeは、ユーザーとのコラボレーションでトレーニングされており、カスタマーサポート、パーソナルアシスタンス、教育などの実世界のアプリケーションで優れた成果を上げています。ベンチマーク評価では、以前のモデルと比較して、推論、指示遵守、機能呼び出しの精度において大幅な改善が見られます。
追加の更新には、非同期関数呼び出しが含まれており、進行中の会話を中断することなく長時間実行される操作を可能にし、シームレスで本番対応の音声体験をさらにサポートします。
OpenAI、MCPサポート、画像入力、SIP統合、音声エージェントのコスト削減コントロールを備えたリアルタイムAPIを拡張
OpenAIのリアルタイムAPIには、統合を簡素化し、製品向け音声エージェントの機能を拡張するために設計された新機能が含まれています。開発者は、セッションをMCPサーバーのURLにリンクすることでリモートMCPサポートを有効にし、APIがツール呼び出しを自動的に管理し、手動設定なしで追加機能にアクセスできるようにします。
gpt-realtimeモデルは現在、画像入力をサポートしており、システムは音声やテキストに加えて写真、スクリーンショット、その他のビジュアルを取り入れることができます。これにより、ユーザーは見ているものに関してコンテキストに特化した質問をすることができ、開発者はどの画像がいつ共有されるかを制御することができます。
追加の改善には、アプリを電話ネットワークやPBXシステムに接続するためのセッション開始プロトコル (SIP)のサポート、ならびに開発者が複数のセッションで事前構成された指示、ツール、および例メッセージを保存して展開できる再利用可能なプロンプトが含まれます。
一般公開されているRealtime APIとgpt-realtimeモデルは、すべての開発者が利用できるようになり、以前のgpt-4o-realtime-previewと比べて価格が20%引き下げられました。会話のコンテキストに対する新しいコントロールにより、よりスマートなトークン管理が可能になり、長時間のセッションのコストが削減されます。これらの機能を採用するために、ドキュメント、テスト用のプレイグラウンド、およびRealtime APIプロンプティングガイドが利用可能です。