AINews - 2026-06-03
📰 十大AI新闻要点
1. NVIDIA发布Cosmos 3开源世界模型与Nemotron 3 Ultra
NVIDIA本周主导了开源模型话题,发布了Cosmos 3——一个面向物理AI的全模态世界模型家族,以及Nemotron 3 Ultra——一个550B参数的开源权重模型,被多位评论者称为迄今为止最强的美国开源模型。Cosmos 3采用混合Transformer架构,将语言、图像、视频、音频和动作统一在一个模型中,结合自回归推理器和扩散生成器,在Artificial Analysis的文本到图像和图像到视频排行榜上均达到**#1**。
2. MiniMax M3发布:开源多模态Agent模型
MiniMax M3作为开源权重的多模态Agent/编码模型发布,拥有1M上下文、原生多模态能力,在SWE-Bench Pro上达到59.0%,Terminal Bench 2.1达到66.0%,MCP Atlas达到74.2%。多个基础设施供应商(Novita、Vercel AI Gateway、Cloudflare AI Gateway等)在发布首日即提供支持,显示出异常快速的生态系统采用。但评测者也报告了高Token消耗和冗长的自我检查循环问题。
3. Anthropic秘密提交IPO申请
Anthropic宣布已向SEC秘密提交S-1草案,开启了IPO之路,目前正在等待审查。这是AI领域最受关注的IPO动态之一,标志着Anthropic从私营公司向上市公司的战略转变。
4. Perplexity推出“Search as Code”架构
Perplexity发布了“Search as Code”方案,模型不再进行迭代搜索工具调用,而是编写Python代码调用搜索SDK,实现自定义排序管道、Map-Reduce索引、批处理和聚合,显著降低Token开销。Perplexity报告其内部WANDR基准测试从0.152跃升至0.386,这是Agent架构创新的重要案例。
5. Google推出Gemini API托管Agent
Google详细介绍了Gemini API中的托管Agent功能,单个API调用即可启动一个能推理、编写/运行代码、管理文件并在托管Linux沙箱内操作的Agent。这标志着Agent运行时正成为主要工程杠杆点,而非模型调用本身。
6. OpenAI Codex登陆AWS Bedrock
OpenAI宣布前沿模型和Codex现已在AWS / Amazon Bedrock上全面可用,面向希望在现有AWS安全/合规工作流中使用OpenAI能力的企业。同时发布了Codex Python SDK,支持线程、轮次、流式、恢复、图像和沙箱控制。
7. Claude Code出现Ops事故:并行子Agent导致配额耗尽
Anthropic重置了Pro和Max用户的5小时和周速率限制,原因是修复了一个bug——某些Opus 4.8会话生成了过多并行子Agent/工具调用,意外消耗了用户配额。有用户报告Max计划会话限制被消耗两次,周使用量达到70%以上,这凸显了编码Agent的产品质量越来越取决于编排行为而非原始模型智商。
8. NVIDIA推出RTX Spark个人AI计算机
NVIDIA与微软合作推出了RTX Spark“个人AI计算机”,基于Grace + Blackwell架构,最高128GB统一内存,声称达到1 PFLOP FP4。战略意义在于NVIDIA不再仅销售加速器,而是提供端到端的本地AI系统,与Apple Silicon、x86 PC和Qualcomm同时竞争。
9. Qwen3.7-Plus发布:多模态交互式混合Agent
阿里巴巴发布了Qwen3.7-Plus,一个统一GUI和CLI操作、视觉推理、编码和搜索增强QA的多模态交互式混合Agent。通过阿里云Model Studio提供API,并迅速被集成到Cline等工具中。这强化了亚洲实验室不再发布“仅聊天模型”,而是发布完整Agent能力多模态系统的趋势。
10. JetBrains Mellum2:面向开发者工作流的小型快速模型
JetBrains发布了Mellum2,一个12B MoE模型(2.5B活跃参数),训练约11T Token,采用RLVR后训练,提供base/SFT/RL检查点。其定位是超低延迟推理,用于路由、RAG、子Agent和IDE使用,并立即登陆vLLM。这看起来是一个严肃的“面向开发者工作流的小型快速开源模型”策略。
🛠️ 十大工具产品要点
1. NVIDIA Cosmos 3:开源全模态世界模型
开源发布,包含权重、代码、数据集和微调配方。采用混合Transformer架构,统一语言、图像、视频、音频和动作。生成器使用结构化JSON提示,可由外部提示放大或自身推理器分支驱动。在Artificial Analysis的Text-to-Image和Image-to-Video排行榜上均排名**#1**。
2. NVIDIA Nemotron 3 Ultra:550B开源权重模型
550B-A55 MoE架构,约55B活跃参数。社区反应异常强烈,声称在某些设置下可达300+ tok/s,远快于DeepSeek/Kimi类大型模型。Artificial Analysis评分48,接近前沿水平,被认为是迄今为止最强的美国开源模型。
3. MiniMax M3:开源多模态Agent模型
开源权重,1M上下文(保证512K),原生多模态。采用MiniMax Sparse Attention技术。在SWE-Bench Pro(59.0%)、Terminal Bench 2.1(66.0%)、MCP Atlas(74.2%)上表现突出。支持12小时ICLR论文复现和Hopper FP8 GEMM CUDA/Triton优化(9.4×加速)。
4. Perplexity “Search as Code”
模型编写Python代码调用搜索SDK,而非迭代搜索工具调用。支持自定义排序管道、Map-Reduce索引、批处理和聚合。内部WANDR基准测试从0.152提升至0.386,显著降低Token开销。
5. Google Gemini API托管Agent
单个API调用即可启动一个能推理、编写/运行代码、管理文件并在托管Linux沙箱内操作的Agent。这是Agent即服务的重要进展,降低了构建复杂Agent系统的门槛。
6. OpenAI Codex Python SDK
支持线程、轮次、流式、恢复、图像和沙箱控制。同时Codex和前沿模型现已在AWS Bedrock上可用,面向企业级安全/合规工作流。
7. MLX-VLM v0.6.0:本地Agent工具
新增推测解码、Anthropic风格和响应风格API、工具调用、多模态模型支持、图像/音频功能。明确目标是将Apple设备转变为“真正的本地Agent机器”。
8. JetBrains Mellum2:12B MoE开发者模型
12B总参数,2.5B活跃参数,训练约11T Token,采用RLVR后训练。定位为超低延迟推理,用于路由、RAG、子Agent和IDE使用。提供base/SFT/RL检查点,立即登陆vLLM。
9. Qwen3.7-Plus:多模态交互式混合Agent
统一GUI和CLI操作、视觉推理、编码和搜索增强QA。通过阿里云Model Studio提供API,已集成到Cline等工具中。代表亚洲实验室发布完整Agent能力多模态系统的趋势。
10. NVIDIA RTX Spark:个人AI计算机
基于Grace + Blackwell架构,最高128GB统一内存,声称1 PFLOP FP4。NVIDIA首次提供端到端本地AI系统,与Apple Silicon、x86 PC和Qualcomm竞争。Dell已确认将推出基于NVIDIA N1X的XPS笔记本。