ai_news_summary_2025-09-14

AINews - 2025-09-14

原文链接

Meta在Hugging Face上发布了参数小于10亿的MobileLLM-R1系列模型，在仅使用4.2T tokens训练的情况下，MATH准确率比Olmo-1.24B高约5倍，比SmolLM2-1.7B高约2倍，在多推理基准测试中匹配或超越Qwen3性能。

Qwen3-Next-80B-A3B采用混合注意力设计（Gated DeltaNet + Gated Attention），稀疏度高达约3.8%，原生支持256k上下文窗口，需要SGLang和vLLM进行大量引擎适配。

FAIR Codegen发现SWE-Bench存在允许代理窥探未来提交的漏洞并已修复，初步重新运行显示大多数模型未受严重影响，建议实验室和开源项目在修复后的基准上重新发布结果。

LiveMCP-101引入实时代理框架/基准测试，即使在复杂任务中前沿模型表现不佳（GPT-5在”困难”任务中得分39.02%），并分类了七种常见失败模式。

VS Code正式推出”语言模型聊天提供商”扩展API，允许安装BYOK提供商作为扩展，提供更多模型选择，并附带教程、视频和自动选择模型体验。

Transformers v5推出更快内核、更智能默认值和清理工作，并悄悄落地连续批处理以简化评估/训练循环，专注于修补/工具箱而非最大吞吐量服务器。

OpenAI大幅提升GPT-5和gpt-5-mini across各层的速率限制，同时出现新的”gpt-5-high-new”目标，专注于内置推理默认值。

英国AISI和美国CAISI识别Claude Opus 4/4.1的越狱漏洞，帮助部署更强安全防护措施，同时为构建者推荐Claude Code SDK作为自定义代理起点。

Google Research发布VaultGemma，这是通过差分隐私从头训练的10亿参数Gemma变体，声称是以此方式训练的最大开放模型，并提供私有语言模型训练的新缩放定律结果。

在获得超过43,000票后，Gemini 2.5 Flash Image（”nano-banana”）继续位居图像编辑和文本到图像图表首位，ByteDance的Seedream 4现居图像编辑第2位和文本到图像第5位。

Meta发布的~950M参数小型LLM，专为高效设备端/移动推理设计，提供交互式演示空间，专注于在低参数端推动推理准确性。

阿里巴巴的稀疏激活80B MoE模型，每个token约激活30亿参数，推理速度报告快约10倍，支持32k+上下文。

允许安装BYOK提供商作为扩展，提供更多模型选择，包括Claude、GPT-5/mini、Gemini等模型的自动选择体验。

简化评估/训练循环的连续批处理功能，专注于修补和工具箱使用，而非追逐最大吞吐量服务器。

为构建者推荐的自定义代理起点，使用与CLI相同的工具链，便于开发定制代理解决方案。

添加子代理、Todo Write工具、”Welcome Back”项目摘要、编辑稳定性、更好的IDE/Shell集成和改进的内存/会话管理。

支持4096×4096输出的新变体，现已在Arena上线，提供更高分辨率的图像生成能力。

在Transformers中落地的Kosmos-2.5，提供OCR+布局演示和笔记本，支持文本和布局理解任务。

添加区域AOT编译和预编译图共享/加载功能，加速启动时间，提高GPU利用率。

新的GPU利用率仪表板，提供更好的资源监控和优化功能，帮助用户更有效地管理GPU资源。