ai_news_summary_2025-09-29

AINews - 2025-09-29

原文链接

📰 十大AI新闻要点

1. Google九月产品堆栈更新：Gemini Robotics 1.5、Live、Veo 3 GA

Google在9月发布了密集的产品更新，包括Gemini Robotics 1.5（含高级推理”ER 1.5”）、最新Gemini Live、EmbeddingGemma、Veo 3正式版及API更新等。Robotics-ER 1.5在空间/时间推理方面表现强劲，Veo 3已在创意工作流中投入生产使用。

2. Meta发布Code World Model (CWM) 32B开源模型

Meta发布32B参数的开源代码世界模型，通过执行轨迹和代理交互学习代码语义，支持Python逐步模拟、多轮软件任务，在SWE-bench Verified上达到65.7%，在数学推理上表现优异（96.5% Math-500）。

3. FlashAttention 4技术解析

Modal团队对FA4进行逆向工程，揭示了约20%速度提升的来源：专用warp布局、softmax的exp立方近似、更激进的异步处理。详细技术分析和代码指针已发布。

4. 腾讯发布Hunyuan3D-Part部件级3D生成

腾讯发布Hunyuan3D-Part，包含P3-SAM（首个原生3D部件分割）和X-Part（SOTA可控性/形状质量）两个模型，基于370万形状数据集训练，提供完整代码/权重和演示。

5. GDPVal基准引发激烈讨论

新基准GDPVal涵盖美国前9大GDP部门的44个职业任务，支持者认为其将”实用性”操作化，显示模型在经济指标上达到AGI的77-95%。批评者警告存在任务选择偏见和评分风格影响。

6. Modular Manifolds优化器突破

Jeremy Bernstein等人提出在权重矩阵上施加流形约束（如Stiefel流形：奇异值=1）的优化器设计，扩展Muon以稳定特定”形状”的训练，获得从业者强烈认可。

7. OpenAI计算扩展计划泄露

泄露的OpenAI Slack笔记显示计划到2033年将计算能力提高125倍，可能超过印度整个发电容量，引发关于资源可用性、碳排放和负载平衡策略的讨论。

8. Alibaba Qwen路线图公布

阿里巴巴公布激进的Qwen路线图，目标统一多模态堆栈，包括上下文窗口从1M→100M tokens，参数从约1T→10T，训练数据从10T→100T tokens，强调无限合成数据生成管道。

9. OpenAI模型路由bug影响付费用户

用户报告ChatGPT存在路由/别名bug，选择4o时响应来自”5/5-auto”，即使使用模型范围URL或显式选择，重新生成也会切换到5，影响付费用户体验。

10. Perplexity构建非Google/Microsoft网络索引

Perplexity继续构建独立的网络索引，正在发布浏览API，发现feed刷新将于下周推出（iOS优先），开发者已开始将其集成为自定义工具。

🛠️ 十大工具产品要点

1. Exa发布exa-code代码搜索工具

Exa推出免费工具exa-code，索引GitHub、StackOverflow等数十亿文档，为代理提供token高效的代码上下文，通过真实代码库基础减少幻觉，早期用户计划集成到Claude Code和MCP工作流中。

2. Cloudflare推出Code Mode for MCP

Cloudflare发布Code Mode，将MCP工具转换为TypeScript API，让代理通过动态Worker加载编写/执行代码，引发关于这是否”违背MCP目的”或实用利用模型编码能力的讨论。

3. Windsurf升级至100万token上下文

Windsurf将其代码模型升级到100万token上下文窗口，在替换前版本前提供限时免费访问，开发者期待大型项目导航和重构在单会话中变得可行。

4. vLLM v1支持混合模型

vLLM v1将混合模型（如Mamba/Mamba2、线性注意力）作为一等公民支持，相比v0版本有性能提升，为新型架构提供更好的推理支持。

5. Ollama Cloud新增免费试用SKU

Ollama Cloud添加Kimi K2 “1T-cloud”和DeepSeek V3.1 “671b-cloud” SKU供免费试用，扩展了云端模型部署选项。

6. GraphMend编译器消除PyTorch图中断

GraphMend编译器通过转换Python源代码消除PyTorch 2中的FX图中断，在RTX 3090/A40上报告高达75%延迟降低和8%吞吐量提升，针对动态控制流和Python I/O函数引起的中断。

7. MoonshotAI发布K2供应商验证器

MoonshotAI发布工具审计供应商端量化（如Together、Baseten）并标准化披露，工程师呼吁行业范围的量化报告政策，警告基准测试配置错误可能扭曲感知性能。

8. Cline升级至100万token上下文

Cline在免费alpha期间将其”code-supernova”提供商从200k token上下文悄悄提升到100万token，同时发布了”构建工作流的工作流”和提示配方。

9. mlx-lm添加混合SSM支持

在Apple芯片上，mlx-lm为混合SSM/滑动窗口注意力添加了批量推理支持，并支持Meta的CWM模型，扩展了Apple平台上的模型推理能力。

10. Superhuman通过Baseten优化嵌入延迟

Superhuman通过迁移到Baseten将P95嵌入延迟降低约80%至500ms，展示了推理基础设施优化对实际应用性能的显著影响。