Cerebral Valley Voice Summit(Cerebral Valley Voice Summit)は2026年5月11日(現地時間)、初開催され、200名以上の創業者、投資家、オペレーターが一堂に会しました。Sierra(Sierra)共同創業者のブレット・テイラー氏やOpenAI(OpenAI)のリアルタイム人工知能責任者であるジャスティン・ウバーティ氏らが登壇し、音声人工知能の現状と将来の可能性について多角的な議論が展開されました。資金調達や収益実績といった具体的な進展が報告される一方、技術や市場における課題も指摘されました。
Sierra(Sierra)共同創業者のブレット・テイラー氏はCerebral Valley Voice Summit(Cerebral Valley Voice Summit)で、同社が新たに9億5000万ドルの資金調達を行い、収益が1億6500万ドルを超え、Fortune 50企業の40%が同社の音声エージェントを利用していると発表しました。テイラー氏は、これらの進展にもかかわらず、音声人工知能が世界経済に本格的に浸透するのはまだ初期段階にあるとの見方を示しました。
OpenAI(OpenAI)のジャスティン・ウバーティ氏は、音声モデルが「人間らしい」サウンドであるべきか、より正確だが会話的ではないエージェントが適切かという点について、人間らしい会話型エージェントの重要性を主張しました。OpenAIはサミットの翌日、会話中に推論を用いて行動を改善できるリアルタイム音声モデルを発表しています。
Runway(Runway)のアナスタシス・ジャーマニディス氏やMiniMax(MiniMax)のリンダ・シェン氏は、音声人工知能が動画や他のマルチモーダルチャネルと組み合わされることで進化すると述べました。ベンチャーキャピタルのジェイク・セイパー氏(Emergence Capital)、オリビア・ムーア氏(Andreessen Horowitz)、グレース・イスフォード氏(Lux Capital)は、音声技術はまだ初期段階にあるものの、人工知能モデルの急速な改善に期待を表明しました。イスフォード氏は現在の状況をMicrosoft Co-Pilot時代(Microsoft Co-Pilot era)と表現し、エンドツーエンドの製品構築がまだ多く残されていると指摘。ムーア氏は、消費者向け音声アプリケーションの成熟には時間がかかるとの見方を示し、セイパー氏は音楽アプリSuno(Suno)を例に挙げ、人工知能が担う音楽制作の割合が増加すると予測しました。
Abridge(Abridge)創業者のシヴ・ラオ氏は、ヘルスケアのような人間中心の産業において音声人工知能は自然な形であると述べ、ヘルスケア分野特有の規制やプライバシー問題が競争上の障壁となり得ると指摘しました。Assort Health(Assort Health)のジェフリー・リウ氏は、同社の音声エージェントが医療システムでスケジュール、請求、薬剤補充などの事務処理に対応し、5000の異なるプロバイダーで1億5000万件の患者とのやり取りを既に処理した実績を明らかにしています。
人間らしいエージェントの必要性については意見が分かれました。AssemblyAI(AssemblyAI)のディラン・フォックス氏は、すべてのエージェントが人間らしく振る舞うことを人々が必ずしも望んでいるわけではないと主張。Deepgram(Deepgram)のスコット・ステファンソン氏は、現在の音声人工知能モデルは自身のvoice Turing test(音声チューリングテスト)をまだ通過していないものの、コンテキスト記憶の進歩により年内にはこの障壁が破られると予測しました。LiveKit(LiveKit)のラス・ダサ氏は、コミュニケーション層の高速化がエージェントの賢さに寄与すると指摘し、Cartesia(Cartesia)共同創業者のブランドン・ヤン氏は、音声モデルの評価が主観的であり、多言語間での性能差が大きいという課題を挙げました。
参考: Newcomer (Eric Newcomer) — 2026年5月12日 02:49 (JST)