法国AI初创公司Mistral发布首个语音理解模型Voxtral系列,提供开放且经济高效的音频处理方案。该模型支持多语言操作,提供不同参数版本,商业集成成本低至每分钟0.001美元。
豆包APP正式推出其实时语音大模型,突破传统模式,带来更流畅的语音对话体验。该技术通过端到端的语音生成与理解,优化了语音控制力和情绪承接,解决了语音延迟和打断问题。