企业构建语音工作流的选择一直有限:使用存在数据驻留风险的闭源 API,或使用牺牲准确性的开源模型。Cohere 新推出的开源权重 ASR 模型 Transcribe 旨在同时解决四个关键差异点:上下文准确性、延迟、控制权和成本。

性能超越行业领导者

Cohere 表示,Transcribe 在准确性上超越当前领导者——且与闭源 API 不同,它可以在组织自己的基础设施上运行。Transcribe 拥有 20 亿参数,采用 Apache-2.0 许可证,平均词错误率仅为 5.42%,优于同类模型。

该模型支持 14 种语言:英语、法语、德语、意大利语、西班牙语、希腊语、荷兰语、波兰语、葡萄牙语、中文、日语、韩语、越南语和阿拉伯语。

Cohere 表示,他们”刻意专注于最小化词错误率,同时保持生产就绪性”。结果是一个企业可直接插入语音自动化、转录流水线和音频搜索工作流的模型。

自托管转录的生产就绪方案

企业转录一直是权衡游戏:闭源 API 提供准确性但锁定数据;开源模型提供控制权但性能落后。与 Whisper 在 MIT 许可证下作为研究模型发布不同,Transcribe 从发布之日起即可商用,并可在组织自己的本地 GPU 基础设施上运行。

Cohere 表示,该模型在本地 GPU 上具有更易管理的推理占用。公司在 10 亿参数以上模型队列中”扩展了帕累托前沿,在提供最先进准确性(低词错误率)的同时保持最佳吞吐量(高 RTFx)”。

性能对比

Transcribe 击败了语音模型老将:在 Hugging Face ASR 排行榜上以 5.42% 的平均词错误率领先,超越 Whisper Large v3 的 7.44%、ElevenLabs Scribe v2 的 5.83% 和 Qwen3-ASR-1.7B 的 5.76%。

在 Hugging Face 测试的其他数据集上,Transcribe 表现同样出色。测量会议理解和对话分析的 AMI 数据集上得分为 8.15%;测试不同口音理解的 Voxpopuli 数据集上得分 5.87%,仅被 Zoom Scribe 超越。

企业应用前景

早期用户将准确性和本地部署视为突出优势,特别是对于一直通过外部 API 路由音频数据并希望将工作负载引入内部的团队。

对于构建 RAG 流水线或带有音频输入的代理工作流的工程团队,Transcribe 提供了一条通往生产级转录的路径,无需承担闭源 API 的数据驻留和延迟惩罚。模型可通过 API 或 Cohere 的 Model Vault 访问,模型标识为 cohere-transcribe-03-2026。

在语音 AI 竞赛日趋激烈的背景下,Cohere 通过开源策略为企业提供了一个闭源 API 的可行替代方案,可能在数据敏感行业获得显著采用。