在 GTC 2026 大会上,Nvidia 不仅发布了硬件和平台,还扩展了其开源模型家族 Nemotron。三款新模型——Ultra、Omni 和 VoiceChat——专为 Agent AI 应用设计,覆盖从前沿智能到实时语音的多种场景。
Nemotron 3 Ultra:前沿级智能
Nvidia CEO 黄仁勋称 Nemotron 3 Ultra”将是业内最好的模型,将帮助世界构建主权 AI”。
Ultra 的主打卖点是效率:在 Nvidia Blackwell 平台上使用 NVFP4 格式,吞吐量效率提升 5 倍。这意味着在相同硬件上可以处理更多请求,或以更低的延迟完成推理。
对于需要本地部署敏感数据的企业来说,主权 AI 的概念尤为重要。Ultra 提供了一种在不将数据发送到云端的情况下获得前沿级智能的选择。
Nemotron 3 Omni:多模态理解
Omni 顾名思义,专注于多模态能力。它结合音频、视觉和语言理解,让 AI Agent 能够从多模态输入中提取信息。
实际应用场景包括:
- 客服 Agent 可以同时分析用户上传的截图和语音描述
- 销售 Agent 可以理解产品视频并回答问题
- 办公 Agent 可以处理包含图表、音频和文本的复合文档
这种多模态能力是实现真正自主 Agent 的关键——现实世界的信息很少以单一格式出现。
Nemotron 3 VoiceChat:实时语音对话
VoiceChat 是最具创新性的版本。它实现了”听和说同时进行”——这是人类对话的自然方式,但对 AI 来说一直是挑战。
传统语音助手需要先听完用户的话,转成文本,处理,再转回语音。VoiceChat 将自动语音识别、LLM 处理和文本转语音整合为一个流程,大幅降低延迟。
想象一下打电话给 AI 客服,不需要停顿等待回复,而是像与真人对话一样自然交流——这就是 VoiceChat 的目标。
安全模型与数据管道
随着企业越来越多地部署 AI Agent,对一致行为和安全护栏的需求也在增加。Nvidia 同步发布了 Nemotron 安全模型和一个可信多模态数据检索管道。
数据检索管道可以检测文本和图像中的”不安全内容”,而 Agent 检索管道则提高输出的相关性和准确性。
这些组件对于企业部署至关重要。没有它们,Agent 可能会产生幻觉、泄露敏感信息或执行不当操作。
技术架构:Mamba-Transformer 混合
Nemotron 3 家族基于去年 12 月首次发布的架构,采用混合 Mamba-Transformer 专家混合(MoE)设计。Super 和 Ultra 模型使用潜在 MoE 设计,进一步优化参数效率。
这种架构选择反映了 Nvidia 的务实态度:不盲目追求纯 Transformer,而是结合不同架构的优势。Mamba 在处理长序列时更高效,Transformer 在复杂推理上更强,两者结合可以兼顾效率和能力。
与 NemoClaw 的协同
这些模型与同日发布的 NemoClaw 形成天然协同。NemoClaw 是 Nvidia 为 OpenClaw 平台打造的安全沙箱环境,可以一键安装 Nemotron 模型。
这意味着开发者可以快速搭建本地运行的 Agent 系统:Nemotron 提供智能,NemoClaw 提供安全和执行环境,OpenClaw 提供 Agent 框架。
开源策略的意义
Nvidia 选择将 Nemotron 3 开源(部分采用开放权重),延续了其在软件层面的策略:硬件收费,软件开源。
开源意味着:
- 开发者可以本地运行,不需要 API 调用费用
- 企业可以微调模型以适应特定场景
- 社区可以审查和改进模型
这与 OpenAI、Anthropic 的闭源策略形成对比。对于追求数据主权和成本控制的用户来说,Nemotron 提供了一个可信的选择。
市场定位
Nemotron 3 的竞争对手包括:
- Meta 的 Llama 系列(开源)
- Google 的 Gemma(开放权重)
- 中国的 Qwen 和 GLM(开放权重)
- OpenAI 和 Anthropic 的闭源模型(API)
Nvidia 的差异化在于与硬件的深度整合。如果你已经投资了 Nvidia GPU,Nemotron 可以提供最优的性能表现。这种软硬件协同是 Nvidia 在 AI 时代的核心竞争优势。
发表回复