中国AI初创公司MiniMax发布了新一代大语言模型M2.7,其最大亮点在于「自我进化」能力——早期版本的模型参与了自身的研究与优化工作流程,自主完成了30%至50%的强化学习研究任务。

自我进化的里程碑

根据官方介绍,M2.7被用于构建研究代理框架,能够管理数据管道、训练环境和评估基础设施。通过自动触发日志读取、调试和指标分析,模型能够分析失败轨迹并规划代码修改,进行超过100轮的迭代优化。

在MLE Bench Lite机器学习竞赛测试中,M2.7获得了66.6%的奖牌率,与Google Gemini 3.1持平,接近Claude Opus 4.6的顶尖水平。这表明AI正在从单纯的工具向能够自主科研的智能体演进。

性能全面跃升

与上一代M2.5相比,M2.7在多个关键领域取得突破:

  • 软件工程:SWE-Pro基准得分56.22%,与GPT-5.3-Codex持平
  • 专业办公:GDPval-AA Elo得分1495,声称是开源可访问模型中的最高分
  • 幻觉控制:幻觉率降至34%,低于Claude Sonnet 4.6的46%和Gemini 3.1 Pro的50%
  • 终端操作:Terminal Bench 2得分57.0%

在Artificial Analysis智能指数中,M2.7得分50分,排名第8位,较前代提升了8分。

极致性价比

M2.7延续了MiniMax的一贯定价策略,每百万输入token收费0.3美元,输出token收费1.2美元,仍是全球最经济的前沿模型之一——仅比xAI的Grok 4.1 Fast略贵。

这一价格意味着运行标准智能指数测试的成本仅为176美元,而GLM-5需要547美元,Kimi K2.5需要371美元。

广泛的工具集成

MiniMax为M2.7提供了完善的开发者生态支持,官方文档覆盖了Claude Code、Cursor、Trae、Zed等11个主流开发工具和代理框架。模型还支持MCP协议,能够原生使用网页搜索和图像理解等工具。

值得思考的是,作为一家中国公司开发的闭源模型,M2.7在欧美市场可能面临合规审查。但其在自我进化和成本效益方面的突破,无疑为AI行业提供了新的发展方向。