DeepSeek这只“鲸鱼”再次浮出水面。这家源自幻方量化的中国AI创业公司,在2025年1月凭借开源R1模型一夜成名之后,如今携DeepSeek-V4强势回归,以1.6万亿参数的混合专家(MoE)架构、MIT开源许可和仅约GPT-5.5六分之一的API成本,被誉为“第二次DeepSeek时刻”。
前沿级AI进入低价区间
DeepSeek-V4最直接的冲击在于经济层面。DeepSeek-V4-Pro通过API的定价为每百万输入token 1.74美元(缓存未命中)、每百万输出token 3.48美元,合计约5.22美元。而GPT-5.5的同等计算为35美元,Claude Opus 4.7为30美元。这意味着DeepSeek-V4-Pro的标准价格仅约为GPT-5.5的七分之一、Claude Opus 4.7的六分之一。
如果启用缓存输入,差距进一步拉大:DeepSeek-V4-Pro的成本降至约GPT-5.5的十分之一。更激进的是DeepSeek-V4-Flash版本,合并成本仅0.42美元,比GPT-5.5和Opus 4.7便宜超过98%。
DeepSeek正在将高端模型的经济性压缩到一个低得多的区间,迫使开发者和企业重新审视围绕高端闭源模型的成本收益计算。对于运行大量推理工作负载的企业来说,这个价格差距可以改变自动化的价值边界——在GPT-5.5上看起来过于昂贵的任务,在DeepSeek-V4-Pro上可能变得经济可行。
基准测试:逼近但未超越
在基准测试方面,DeepSeek-V4-Pro-Max的表现可以被理解为一次重大的开源飞跃,但并非对最新闭源系统的全面超越。GPT-5.5和Claude Opus 4.7在大多数直接对比中仍然领先。
在BrowseComp(衡量AI代理网页浏览能力的基准)上,DeepSeek以83.4%的成绩紧追GPT-5.5的84.4%,并超过Claude Opus 4.7的79.3%。在Terminal-Bench 2.0上,DeepSeek的67.9%接近Claude的69.4%,但远落后于GPT-5.5的82.7%。
在学术推理方面,GPQA Diamond测试中DeepSeek-V4-Pro-Max得分为90.1%,而GPT-5.5为93.6%,Claude Opus 4.7为94.2%。在Humanity’s Last Exam无工具模式下,DeepSeek以37.7%落后于Claude的46.9%。
关键在于,DeepSeek不需要在每项排行榜上获胜就能产生重大影响。如果它能在许多企业相关的代理和推理任务上提供接近前沿的性能,而API成本仅约为GPT-5.5或Claude Opus 4.7的六分之一到七分之一,这本身就迫使行业重新思考高级AI部署的经济模型。
相比V3.2的巨大飞跃
要理解这一发布的重大意义,必须看看基础模型的性能提升。DeepSeek-V4-Pro-Base相比上一代V3.2-Base有了显著进步:MMLU(5-shot)从87.8提升至90.1,MMLU-Pro从65.5跃升至73.5。
高级推理和事实验证方面的进步更为显著:SuperGPQA从45.0提升至53.9,FACTS参数基准从27.1翻倍至62.6。长上下文能力也得到了加强,LongBench-V2从40.2提升至51.5。代码方面,HumanEval(Pass@1)从62.8提升至76.8。
这些数据表明,DeepSeek不仅优化了推理成本,更从根本上提升了基础架构的智能密度。DeepSeek研究员陈力在社交媒体上称这是“484天的心血结晶”,并表示“AGI属于每一个人”。该模型现已在Hugging Face和DeepSeek API上可用。
架构创新:Manifold-Constrained Hyper-Connections
DeepSeek实现这些价格和性能数字的背后,是其技术报告中详述的激进架构创新。新的信息“交通控制器”——Manifold-Constrained Hyper-Connections(mHC)——是实现百万token上下文高效处理的关键。这一架构创新使得模型在处理超长上下文时既能保持性能又能控制成本,为开源大模型设立了一个新的标杆。
对于中国AI行业乃至全球AI格局而言,DeepSeek-V4的发布再次证明了开源AI在竞争性和经济性上的巨大潜力。在一个闭源模型日益集中的市场中,DeepSeek为开发者和企业提供了一个强有力的替代选择。
发表回复