DeepSeek V3.2-Exp：稀疏注意力让 API 价格腰斩，每百万 token 仅 2.8 美分

DeepSeek 继续推动生成式 AI 的前沿——这次是在可负担性方面。公司发布了最新的实验性大语言模型 DeepSeek-V3.2-Exp，在基准测试上基本匹配或略优于前代 DeepSeek-3.1-Terminus，更重要的是，通过 API 的成本降低了 50%，每百万输入 token 仅需 0.028 美元——即使接近 12.8 万 token 的上下文限制也能保持低成本。

API 成本大幅降低

DeepSeek 宣布了显著的 API 降价。每百万 token，缓存命中输入成本 0.028 美元，缓存未命中 0.28 美元，输出 0.42 美元。相比之下，V3.1-Terminus 的定价分别是 0.07 美元、0.56 美元和 1.68 美元。

DeepSeek 暂时保留 Terminus 通过单独 API 可用至 10 月 15 日，允许开发者直接比较两个模型，但之后 Terminus 将被弃用——这个仅在一周前发布的短命型号。

在主要模型中，DeepSeek V3.2-Exp 仍然是最便宜的选择之一，虽然 OpenAI 的 GPT-5 Nano 仍然是最实惠的。对比来看：DeepSeek V3.2-Exp 输入 0.28 美元/缓存 0.028 美元，输出 0.42 美元；OpenAI GPT-5 Nano 输入 0.05 美元/缓存 0.005 美元，输出 0.40 美元；Google Gemini 2.5 Flash-Lite 输入 0.10 美元，输出 0.40 美元；Anthropic Claude Haiku 3.5 输入 0.80 美元/缓存 0.08 美元，输出 4.00 美元。

新稀疏注意力架构

V3.2-Exp 的核心是 DeepSeek 稀疏注意力（DSA），在公司同日发布的技术报告中详细描述。

传统的密集注意力机制计算序列中每个 token 与所有其他 token 的交互，随序列长度二次增长。随着 token 数量增加，内存使用和计算需求迅速上升，导致高成本和慢推理。

大多数大语言模型使用”密集”自注意力机制，将输入中的每个 token 与每个其他 token 进行比较。如果提示长度翻倍，模型做的工作不止翻倍来处理所有这些跨 token 交互。这推高了 GPU 时间和能源成本，反映在 API 的每百万 token 定价中。在预填充期间，计算量随上下文长度的平方增长，在解码期间至少线性增长。结果，更长的序列——数万甚至超过 10 万 token——导致成本增长远快于 token 数量本身。

DSA 通过使用”闪电索引器”仅选择最相关的 token 进行注意力来解决这个问题。这减少了计算负担，同时保持几乎相同的响应质量。通过减少大上下文长度下每个 token 的计算负担，V3.2-Exp 保持成本曲线更平坦、更低。

训练后和强化学习进步

除了架构变化，DeepSeek-V3.2-Exp 引入了训练后过程的改进。公司采用两步方法：专家蒸馏和强化学习。

专家蒸馏从训练数学、竞技编程、逻辑推理、代理编码和代理搜索的独立模型开始。这些专家从相同基础检查点微调，经过大规模训练生成领域特定数据。然后将数据蒸馏回最终检查点，确保整合模型从专家知识受益，同时保持通用性。

强化学习阶段标志着重大的转变。与之前 DeepSeek 模型中使用的多阶段方法不同，推理、代理和人类对齐训练被合并到使用群组相对策略优化（GRPO）的单个 RL 阶段。这个统一过程平衡各领域的性能，同时避免多阶段流水线常关联的”灾难性遗忘”问题。

基准测试表现稳定

基准测试确认了设计权衡按预期工作。在广泛使用的公共评估中，V3.2-Exp 与 V3.1-Terminus 表现相当，在推理、编码和问答等领域差异可忽略不计。

虽然在一些重推理任务如 GPQA-Diamond 和 Humanity’s Last Exam 中分数略有下降，但模型的效率增益和其他方面的一致表现表明稀疏方法没有显著损害能力。MMLU-Pro 保持稳定在 85.0，AIME 2025 略有提升到 89.3，GPQA-Diamond 从 80.7 下降到 79.9。编码和代理基准测试类似，Codeforces 评分从 2046 提升到 2121，BrowseComp 从 38.5 提升到 40.1。

开源访问与企业考量

DeepSeek 在 Hugging Face 上以 MIT 许可证发布了 V3.2-Exp 模型权重。研究者和企业可以自由下载、修改和商业部署模型。发布还附带开源内核：用于研究原型的 TileLang 和用于高性能推理的 CUDA/FlashMLA 内核。

对于企业——尤其是美国的——DeepSeek API 提供的成本节省很吸引人，但在采用前有额外考量。使用 DeepSeek 托管 API 意味着数据流经香港公司运营的服务器。有敏感客户数据、受监管行业或严格合规框架的企业需要仔细评估法律和治理影响。自托管开源权重可能缓解这些风险，但将基础设施和维护责任转移到内部。

DeepSeek V3.2-Exp：稀疏注意力让 API 价格腰斩，每百万 token 仅 2.8 美分

API 成本大幅降低

新稀疏注意力架构

训练后和强化学习进步

基准测试表现稳定

开源访问与企业考量

发表回复取消回复

最新文章

文章分类

DeepSeek V3.2-Exp：稀疏注意力让 API 价格腰斩，每百万 token 仅 2.8 美分

API 成本大幅降低

新稀疏注意力架构

训练后和强化学习进步

基准测试表现稳定

开源访问与企业考量

发表回复 取消回复

最新文章

文章分类

发表回复取消回复