Cohere 开源语音识别模型词错误率仅 5.4%，达到生产可用标准

企业构建语音工作流的选择一直有限：使用存在数据驻留风险的闭源 API，或使用牺牲准确性的开源模型。Cohere 新推出的开源权重 ASR 模型 Transcribe 旨在同时解决四个关键差异点：上下文准确性、延迟、控制权和成本。

性能超越行业领导者

Cohere 表示，Transcribe 在准确性上超越当前领导者——且与闭源 API 不同，它可以在组织自己的基础设施上运行。Transcribe 拥有 20 亿参数，采用 Apache-2.0 许可证，平均词错误率仅为 5.42%，优于同类模型。

该模型支持 14 种语言：英语、法语、德语、意大利语、西班牙语、希腊语、荷兰语、波兰语、葡萄牙语、中文、日语、韩语、越南语和阿拉伯语。

Cohere 表示，他们”刻意专注于最小化词错误率，同时保持生产就绪性”。结果是一个企业可直接插入语音自动化、转录流水线和音频搜索工作流的模型。

企业转录一直是权衡游戏：闭源 API 提供准确性但锁定数据；开源模型提供控制权但性能落后。与 Whisper 在 MIT 许可证下作为研究模型发布不同，Transcribe 从发布之日起即可商用，并可在组织自己的本地 GPU 基础设施上运行。

Cohere 表示，该模型在本地 GPU 上具有更易管理的推理占用。公司在 10 亿参数以上模型队列中”扩展了帕累托前沿，在提供最先进准确性（低词错误率）的同时保持最佳吞吐量（高 RTFx）”。

Transcribe 击败了语音模型老将：在 Hugging Face ASR 排行榜上以 5.42% 的平均词错误率领先，超越 Whisper Large v3 的 7.44%、ElevenLabs Scribe v2 的 5.83% 和 Qwen3-ASR-1.7B 的 5.76%。

在 Hugging Face 测试的其他数据集上，Transcribe 表现同样出色。测量会议理解和对话分析的 AMI 数据集上得分为 8.15%；测试不同口音理解的 Voxpopuli 数据集上得分 5.87%，仅被 Zoom Scribe 超越。

早期用户将准确性和本地部署视为突出优势，特别是对于一直通过外部 API 路由音频数据并希望将工作负载引入内部的团队。

对于构建 RAG 流水线或带有音频输入的代理工作流的工程团队，Transcribe 提供了一条通往生产级转录的路径，无需承担闭源 API 的数据驻留和延迟惩罚。模型可通过 API 或 Cohere 的 Model Vault 访问，模型标识为 cohere-transcribe-03-2026。

在语音 AI 竞赛日趋激烈的背景下，Cohere 通过开源策略为企业提供了一个闭源 API 的可行替代方案，可能在数据敏感行业获得显著采用。