微软发布3款自研AI模型：语音转文字准确率超OpenAI，直接竞争前盟友

微软周四发布了三款完全自主开发的AI基础模型——MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2，涵盖语音转文字、语音合成和图像生成三大商业模态。这是微软意图与OpenAI、谷歌等前沿实验室直接竞争模型开发能力，而非仅仅分销他人模型的最明确信号。

三大模型，三个战场

MAI-Transcribe-1是此次发布的明星产品。这款语音转文字模型在FLEURS基准测试（业界标准多语言测试）中，在微软产品使用最多的25种语言上实现了最低平均词错误率（WER），平均仅3.8%。

根据微软的基准测试，它在全部25种语言上击败了OpenAI的Whisper-large-v3，在25种中的22种上击败了谷歌的Gemini 3.1 Flash，在25种中的15种上击败了ElevenLabs的Scribe v2和OpenAI的GPT-Transcribe。

更关键的是，微软CEO Mustafa Suleyman在接受采访时透露：”我们能够用竞争对手一半的GPU数量交付模型。”这对于成本控制意义巨大。

MAI-Voice-1是文本转语音模型，能够在1秒内生成60秒的自然语音，支持从几秒钟音频创建自定义声音。定价为每百万字符22美元。

MAI-Image-2在Arena.ai排行榜上位列前三，生成速度比前代快2倍。定价为输入每百万token 5美元，输出每百万token 33美元。全球最大广告控股公司WPP正在大规模使用。

与OpenAI重新谈判后才有的自主权

要理解这些模型的意义，必须了解背后的合同变革。直到2025年10月，微软合同上被禁止独立追求通用人工智能。

微软与OpenAI 2019年签署的原始协议让微软获得OpenAI模型的许可权，以换取为OpenAI构建云基础设施。但当OpenAI寻求将计算足迹扩展到微软之外——与软银等达成交易时——微软重新谈判了协议。

Suleyman解释：”直到几周前，微软合同上不被允许独立追求通用人工智能或超级智能。新条款让微软能够构建自己的前沿模型，同时保留到2032年OpenAI所有产品的许可权。”

他强调OpenAI合作关系仍然完好：”我们将与他们合作至少到2032年，希望更长。他们一直是我们的优秀合作伙伴。”但潜台词很明显：微软正在建立独立自主的能力。

不到10人的团队打造世界级模型

Suleyman分享了一个令人惊讶的细节：这些模型背后的团队非常小。

“音频模型由10人构建，图像团队也不到10人。这完全是关于模型和数据创新，而非人海战术。”

这挑战了行业主流叙事——前沿AI开发需要数千名研究员和数十亿美元人力成本。Meta据说为顶尖研究员开出了1亿到2亿美元的薪酬包，而微软用不到10人的团队达到了最先进水平。

“人文主义AI”的企业定位

Suleyman围绕微软AI努力构建了一套他称为”人文主义AI”的哲学品牌：

“人文主义超级智能的动机是创造真正服务于人类的东西。人类将保持在食物链顶端的控制地位，始终与人类利益对齐。”

这一框架有多重目的：区分微软与OpenAI和Meta更激进的加速主义言论；与需要治理、合规和安全保证的企业买家产生共鸣；提供叙事对冲——如果AI生态出现问题，微软可以指向其对人类控制的承诺。

激进定价施压竞争对手

微软的定价策略明确表示要竞争成本：”我们的定价将是所有超大规模云服务商中最便宜的，包括亚马逊和谷歌。这是一个非常自觉的决定。”

这对微软有战略意义——它可以将模型开发成本分摊到庞大的企业客户基础上。但它也回应了投资者日益紧迫的问题：AI支出何时开始产生回报？微软股价今年已下跌约17%。

前沿大语言模型在路上

当被问及微软是否会构建直接与GPT竞争的前沿大语言模型时，Suleyman毫不模糊：

“我们绝对会在所有模态上交付最先进的模型。我们的使命是确保如果微软需要，我们能够以最高效率、最低价格提供最先进技术，并完全独立。”

他描述了”在适当规模建立GPU集群”的多年路线图，超级智能团队直到2025年10月才正式组建。Suleyman在3月的内部备忘录中写道，他的目标是”将所有精力集中在超级智能努力上，在未来5年为微软交付世界级模型”。

写在最后

两年前，Suleyman在MIT Technology Review提出了”现代图灵测试”——不是AI能否在对话中欺骗人类，而是AI能否以最少监督进入世界并完成真实经济任务。周四，他自己的模型向这个愿景迈出了一步。

现在的问题是：微软的超级智能团队能否在真正重要的规模上复制这一成功——以及能否在市场耐心耗尽之前做到。

微软发布3款自研AI模型：语音转文字准确率超OpenAI，直接竞争前盟友

三大模型，三个战场

与OpenAI重新谈判后才有的自主权

不到10人的团队打造世界级模型

“人文主义AI”的企业定位

激进定价施压竞争对手

前沿大语言模型在路上

写在最后

发表回复取消回复

最新文章

文章分类

微软发布3款自研AI模型：语音转文字准确率超OpenAI，直接竞争前盟友

三大模型，三个战场

与OpenAI重新谈判后才有的自主权

不到10人的团队打造世界级模型

“人文主义AI”的企业定位

激进定价施压竞争对手

前沿大语言模型在路上

写在最后

发表回复 取消回复

最新文章

文章分类

发表回复取消回复