旧金山AI实验室Arcee本周发布了Trinity-Large-Thinking——一个3990亿参数的纯文本推理模型,采用完全开放的Apache 2.0许可。这是罕见的美国制造的大规模开源模型,允许从独立开发者到大型企业的任何人进行完全定制和商业使用。
30人团队的豪赌
Arcee是一家只有30人的精简团队,与OpenAI和谷歌数千名工程师和数十亿美元计算预算形成鲜明对比。CTO Lucas Atkins称之为”通过约束进行工程”。
公司在2024年获得Emergence Capital领投的2400万美元A轮后,总融资接近5000万美元。2026年初,团队做了一个大胆的决定:投入2000万美元——近一半总融资——进行一次为期33天的训练运行。
他们使用了2048块英伟达B300 Blackwell GPU集群,赌上公司未来,坚信开发者需要一个真正能拥有的前沿模型。
稀疏架构:400B参数,仅激活13B
Trinity-Large-Thinking采用了极端稀疏的注意力机制。虽然模型拥有4000亿总参数,但其混合专家架构意味着任何给定token只激活1.56%,即130亿参数。
这使模型既拥有大规模系统的深度知识,又保持小得多的推理速度和运营效率——在相同硬件上比同类快约2到3倍。
为防止少数专家成为”赢家”而其他成为未训练的”死重”,Arcee开发了SMEBU(软钳位动量专家偏置更新)机制,确保专家在通用网络语料库上均匀分布和专业路由。
从喋喋不休到深度推理
此次正式发布的关键转变是从标准”指令”模型转向”推理”模型。通过在生成响应前实现”思考”阶段,ArCEE解决了1月预览版的主要批评——早期用户指出它在复杂环境中处理多步指令时有时会吃力。
“Thinking”更新有效弥合了这一差距,实现了Arcee所称的”长视野代理”——能够在多轮工具调用中保持连贯性而不变得”邋遢”。
基准测试:与Claude Opus 4.6匹敌
在PinchBench(评估模型自主代理任务能力的关键指标)上,Trinity得分91.9,仅次于专有市场领导者Claude Opus 4.6(93.3)。
在IFBench上,Trinity的52.3分与Opus 4.6的53.1几乎持平,表明推理优先的”Thinking”更新成功解决了早期预览版的指令跟随障碍。
最引人注目的是成本对比:Trinity每百万输出token收费0.90美元,比Opus 4.6(每百万输出token 25美元)便宜约96%。
地缘政治:美国开放权重的机遇
Arcee的Apache 2.0承诺意义深远。2025年,阿里巴巴的Qwen和z.ai等中国研究实验室主导了高效MoE架构的开放权重市场。但进入2026年,这些实验室开始转向专有企业平台和专业订阅。
在美国,Meta的Llama部门在Llama 4于2025年4月遭遇混合反应后明显从前沿领域撤退。对于依赖Llama 3时代优势的开发者来说,当前缺乏400B+开放模型创造了紧迫的替代需求。
TrueBase:为监管行业提供透明审计
Arcee还发布了Trinity-Large-TrueBase,一个原始的10万亿token检查点。TrueBase提供了在应用指令调优和强化学习之前对基础智能的罕见”未触及”视角。
对于金融和国防等高度监管行业的研究人员,TrueBase允许从干净的基础开始进行真实审计和定制对齐。
开发者反响
开发者社区的反应总体积极。在OpenRouter上,Trinity-Large-Preview已确立为美国第一大使用开放模型,在2026年3月1日等高峰日服务超过806亿token。
Arcee的策略现在专注于将这些预训练和后训练经验回馈到较小模型。Trinity Large的大量工作将流入Mini和Nano模型,用前沿级推理的蒸馏刷新公司的紧凑产品线。
写在最后
当全球实验室转向专有锁定时,Arcee将Trinity定位为主权基础设施层——开发者终于可以控制和适应长视野代理工作流。
Hugging Face联合创始人兼CEO Clément Delangue在X上告诉VentureBeat:”美国的力量一直是其初创公司,所以也许我们应该指望它们领导开源AI。Arcee证明这是可能的!”
发表回复