中国 AI 独角兽 Z.ai 正式发布 GLM-5-Turbo,这是其旗舰 GLM-5 模型的新变种,专门针对 AI Agent 工作流进行了优化。
值得注意的是,这是 Z.ai 首次采用闭源策略——公司表示模型的能力和发现将融入未来的开源版本,但 GLM-5-Turbo 本身目前不开放源代码。
定价极具竞争力
GLM-5-Turbo 在 OpenRouter 上的定价为:
- 输入:每百万 token 0.96 美元
- 输出:每百万 token 3.20 美元
- 总成本:每百万 token 4.16 美元
对比竞品:
| 模型 | 输入价格 | 输出价格 | 总成本 |
|---|---|---|---|
| Grok 4.1 Fast | $0.20 | $0.50 | $0.70 |
| Gemini 3 Flash | $0.50 | $3.00 | $3.50 |
| GLM-5-Turbo | $0.96 | $3.20 | $4.16 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $6.00 |
| GPT-5.2 | $1.75 | $14.00 | $15.75 |
| Claude Opus 4.6 | $5.00 | $25.00 | $30.00 |
GLM-5-Turbo 的价格约为 GPT-5.2 的四分之一,为 Claude Opus 的七分之一。
为 Agent 而生
Z.ai 明确将 GLM-5-Turbo 定位为”执行型”模型,而非单纯的对话模型:
- 复杂指令分解:能够将复杂任务拆分为可执行的步骤
- 工具调用优化:专门针对 API 调用和外部工具使用进行调优
- 长链执行稳定:在多步骤任务中保持稳定性
- 持久化任务:支持定时和持续执行
官方数据显示,GLM-5-Turbo 在工具调用方面的错误率仅为 0.67%,远低于其他 GLM-5 提供商的 2.33% 到 6.41%。
性能数据
在 OpenRouter 的实测数据中:
- 吞吐量:平均 48 tokens/秒
- 首 token 延迟:2.92 秒
- 端到端完成时间:8.16 秒
虽然首 token 延迟不如某些 GLM-5 端点,但端到端完成时间更快,且工具调用稳定性显著更高。对于需要多步骤执行的 Agent 场景,这种权衡可能更合适。
Z.ai 的背景
Z.ai(原名智谱 AI)成立于 2019 年,是清华大学孵化的 AI 公司,总部位于北京。2026 年 1 月 8 日在香港证券交易所上市,市值达 528 亿港元,是中国最大的独立大语言模型开发商。
截至 2025 年 9 月,其模型已被超过 12,000 家企业客户、8000 万终端设备和 4500 万全球开发者使用。
今年 2 月发布的 GLM-5 开源模型在 AA-Omniscience 指数上创下了最低幻觉率记录,支持 7440 亿参数、每次激活 400 亿参数的混合专家架构。
开源策略的微妙转变
GLM-5-Turbo 的闭源策略引发关注。Z.ai 此前一直是开源 AI 的坚定支持者,GLM 系列模型采用 MIT 许可证。
公司表示 Turbo 版本的能力将融入未来的开源模型,这意味着 Z.ai 可能采取”闭源先行、开源跟进”的策略。
这一转变需要放在中国 AI 市场的宏观背景下理解。近期,阿里巴巴 Qwen 部门负责人离职,CEO 吴泳铭亲自掌管新成立的 AI 业务集团。开源模型的盈利压力正在迫使中国 AI 实验室重新思考策略。
对开发者的意义
GLM-5-Turbo 为构建 AI Agent 的开发者提供了一个高性价比选择:
- 如果你的应用需要频繁的工具调用和长链执行,Turbo 的低错误率可能节省大量成本
- 如果首 token 响应速度是关键,其他选项可能更合适
- 中文场景下,GLM 系列的性能通常更优
Z.ai 还将 Turbo 添加到其 GLM Coding 订阅产品中,Pro 订阅者(每季度 81 美元)可在 3 月获得访问权限,Lite 订阅者(每季度 27 美元)需等到 4 月。
发表回复