微软周四发布了三款完全自主开发的AI基础模型——MAI-Transcribe-1MAI-Voice-1MAI-Image-2,涵盖语音转文字、语音合成和图像生成三大商业模态。这是微软意图与OpenAI、谷歌等前沿实验室直接竞争模型开发能力,而非仅仅分销他人模型的最明确信号。

三大模型,三个战场

MAI-Transcribe-1是此次发布的明星产品。这款语音转文字模型在FLEURS基准测试(业界标准多语言测试)中,在微软产品使用最多的25种语言上实现了最低平均词错误率(WER),平均仅3.8%。

根据微软的基准测试,它在全部25种语言上击败了OpenAI的Whisper-large-v3,在25种中的22种上击败了谷歌的Gemini 3.1 Flash,在25种中的15种上击败了ElevenLabs的Scribe v2和OpenAI的GPT-Transcribe。

更关键的是,微软CEO Mustafa Suleyman在接受采访时透露:”我们能够用竞争对手一半的GPU数量交付模型。”这对于成本控制意义巨大。

MAI-Voice-1是文本转语音模型,能够在1秒内生成60秒的自然语音,支持从几秒钟音频创建自定义声音。定价为每百万字符22美元。

MAI-Image-2在Arena.ai排行榜上位列前三,生成速度比前代快2倍。定价为输入每百万token 5美元,输出每百万token 33美元。全球最大广告控股公司WPP正在大规模使用。

与OpenAI重新谈判后才有的自主权

要理解这些模型的意义,必须了解背后的合同变革。直到2025年10月,微软合同上被禁止独立追求通用人工智能

微软与OpenAI 2019年签署的原始协议让微软获得OpenAI模型的许可权,以换取为OpenAI构建云基础设施。但当OpenAI寻求将计算足迹扩展到微软之外——与软银等达成交易时——微软重新谈判了协议。

Suleyman解释:”直到几周前,微软合同上不被允许独立追求通用人工智能或超级智能。新条款让微软能够构建自己的前沿模型,同时保留到2032年OpenAI所有产品的许可权。”

他强调OpenAI合作关系仍然完好:”我们将与他们合作至少到2032年,希望更长。他们一直是我们的优秀合作伙伴。”但潜台词很明显:微软正在建立独立自主的能力。

不到10人的团队打造世界级模型

Suleyman分享了一个令人惊讶的细节:这些模型背后的团队非常小。

“音频模型由10人构建,图像团队也不到10人。这完全是关于模型和数据创新,而非人海战术。”

这挑战了行业主流叙事——前沿AI开发需要数千名研究员和数十亿美元人力成本。Meta据说为顶尖研究员开出了1亿到2亿美元的薪酬包,而微软用不到10人的团队达到了最先进水平。

“人文主义AI”的企业定位

Suleyman围绕微软AI努力构建了一套他称为”人文主义AI”的哲学品牌:

“人文主义超级智能的动机是创造真正服务于人类的东西。人类将保持在食物链顶端的控制地位,始终与人类利益对齐。”

这一框架有多重目的:区分微软与OpenAI和Meta更激进的加速主义言论;与需要治理、合规和安全保证的企业买家产生共鸣;提供叙事对冲——如果AI生态出现问题,微软可以指向其对人类控制的承诺。

激进定价施压竞争对手

微软的定价策略明确表示要竞争成本:”我们的定价将是所有超大规模云服务商中最便宜的,包括亚马逊和谷歌。这是一个非常自觉的决定。”

这对微软有战略意义——它可以将模型开发成本分摊到庞大的企业客户基础上。但它也回应了投资者日益紧迫的问题:AI支出何时开始产生回报?微软股价今年已下跌约17%。

前沿大语言模型在路上

当被问及微软是否会构建直接与GPT竞争的前沿大语言模型时,Suleyman毫不模糊:

“我们绝对会在所有模态上交付最先进的模型。我们的使命是确保如果微软需要,我们能够以最高效率、最低价格提供最先进技术,并完全独立。”

他描述了”在适当规模建立GPU集群”的多年路线图,超级智能团队直到2025年10月才正式组建。Suleyman在3月的内部备忘录中写道,他的目标是”将所有精力集中在超级智能努力上,在未来5年为微软交付世界级模型”。

写在最后

两年前,Suleyman在MIT Technology Review提出了”现代图灵测试”——不是AI能否在对话中欺骗人类,而是AI能否以最少监督进入世界并完成真实经济任务。周四,他自己的模型向这个愿景迈出了一步。

现在的问题是:微软的超级智能团队能否在真正重要的规模上复制这一成功——以及能否在市场耐心耗尽之前做到。