ai_news_summary_2025-09-28

AINews - 2025-09-28

原文链接

📰 十大AI新闻要点

1. Google发布9月产品堆栈更新

Google密集发布了9月更新:Gemini Robotics 1.5(含高级推理ER 1.5)、Gemini Live、EmbeddingGemma、Veo 3正式版、AI Edge画廊、批量API嵌入支持、Flash/Flash Lite更新、Chrome DevTools MCP、VaultGemma等。Robotics-ER 1.5在空间/时间推理方面表现强劲,Veo 3已用于生产创意工作流。


2. Meta发布代码世界模型CWM

Meta发布开源32B参数代码世界模型,通过执行轨迹和代理交互学习代码语义,支持Python逐步模拟、多轮软件任务,131k上下文长度,在编程基准上表现优异(SWE-bench Verified 65.7%,LiveCodeBench 68.4%),数学能力也很强。


3. FlashAttention 4技术解析

Modal团队反向工程FA4,解释了约20%速度提升的来源:专用warp布局、softmax的exp三次近似、更激进的异步处理。深度技术分析和代码指针提供了详细实现细节。


4. Perplexity构建独立网络索引

Perplexity继续构建非Google/Microsoft的网络索引,推出浏览API,下周将更新发现feed(iOS优先)。开发者已开始将其集成作为自定义工具使用。


5. Tencent发布Hunyuan3D-Part

腾讯发布Hunyuan3D-Part,包含P3-SAM(首个原生3D部件分割)和X-Part(SOTA可控性/形状质量)两个模型,基于370万形状数据集训练,提供完整代码/权重和演示。


6. RLBFF新强化学习方法

RLBFF提出从自然语言反馈中提取可二进制检查的原则,结合可验证奖励来训练奖励模型,捕捉超越正确性的细微差别,改进RLHF方法。


7. GDPVal基准引发激烈讨论

新基准涵盖美国9大GDP部门的44个职业任务,支持者认为其操作化”有用性”,显示模型达到”AGI”的77-95%,批评者警告任务选择偏见和评分风格影响。


8. Modular Manifolds优化器突破

Jeremy Bernstein等提出与流形约束共同设计优化器,扩展Muon到特定”形状”上的稳定训练,获得从业者强烈认可,包括层间调度和判别性微调讨论。


9. OpenAI计算扩展计划泄露

泄露的OpenAI Slack笔记显示计划到2033年将计算能力增加125倍,可能超过印度整个发电容量,引发资源可用性和碳排放讨论。


10. OpenAI模型路由bug影响用户

用户报告选择GPT-4o时被静默路由到GPT-5,付费用户也受影响,导致输出质量下降和风格变化,OpenAI尚未正式承认此行为。


🛠️ 十大工具产品要点

1. Exa代码搜索工具发布

Exa推出免费exa-code工具,索引GitHub、StackOverflow等十亿文档,为代理提供token高效的代码上下文,减少幻觉,早期用户计划集成到Claude Code和MCP工作流中。


2. Cloudflare代码模式转换MCP

Cloudflare推出代码模式,将MCP工具转换为TypeScript API,让代理能够编写/执行代码对抗它们,支持动态Worker加载。


3. Windsurf升级100万token上下文

Windsurf将代码模型升级到100万token上下文窗口,在替换旧版本前提供限时免费访问,使大型项目导航和重构在单会话中可行。


4. vLLM v1支持混合模型

vLLM v1将混合模型(Mamba/Mamba2、线性注意力)作为一等公民支持,相比v0有性能提升,改善推理后端兼容性。


5. Ollama Cloud新增免费模型

Ollama Cloud新增Kimi K2 “1T-cloud”和DeepSeek V3.1 “671b-cloud”免费试用SKU,扩展本地模型部署选项。


6. mlx-lm支持Meta CWM

mlx-lm为Apple芯片添加混合SSM/滑动窗口注意力的批量推理支持,并支持Meta的代码世界模型,优化苹果平台推理性能。


7. GraphMend编译器优化PyTorch

GraphMend编译器消除PyTorch 2中的FX图断裂,在RTX 3090/A40上实现75%延迟降低和8%吞吐量提升,通过转换源代码处理动态控制流和Python I/O。


8. MoonshotAI发布量化验证工具

MoonshotAI发布K2供应商验证器,审计提供商端量化(如Together、Baseten),推动行业量化披露标准化。


9. llama.cpp统一Metal归一化

llama.cpp更新在Metal上统一RMS_NORM和NORM实现,改善小模型推理质量,在量化llama-3.2-1B变体上观察到更多样化的生成。


10. Cline工作流构建工具升级

Cline推出”工作流构建工作流”方法,在免费alpha期间将代码超新星提供商从200k token上下文悄悄升级到100万token,提升编码助手能力。