ai_news_summary_2025-09-12

AINews - 2025-09-12

原文链接

📰 十大AI新闻要点

1. Qwen3-Next发布超稀疏MoE架构

阿里巴巴发布Qwen3-Next-80B-A3B模型，采用超稀疏MoE设计，总参数量80B但每token仅激活约3B参数（3.75%激活率），创下行业新低。模型使用512个专家（10个路由专家+1个共享专家），结合门控DeltaNet和门控注意力机制，训练成本比Qwen3-32B降低10倍，长上下文推理速度提升10倍。

2. 混合架构实现严格帕累托优势

Qwen3-Next在预训练中实现严格帕累托改进，关键架构创新包括：混合门控DeltaNet+门控注意力机制消除注意力沉没和大规模激活问题；采用零中心RMSNorm防止层归一化权重异常增长；改进MoE路由器初始化确保专家无偏选择。

3. Seedream 4.0登顶图像生成与编辑排行榜

字节跳动Seedream 4.0在Artificial Analysis的文本到图像和图像编辑竞技场中均排名第一，超越谷歌Gemini 2.5 Flash（Nano-Banana）。该模型合并了Seedream 3和SeedEdit 3，改进文本渲染能力，生成成本为30美元/千次。

4. OCR技术栈重大更新

多项OCR技术发布：PP-OCRv5（70M参数模块化管道，专为密集文档和边缘设备优化）；腾讯Points-Reader（4B参数，基于Qwen2.5-VL标注训练，多项基准测试超越Qwen2.5-VL和MistralOCR）；Florence-2正式接入transformers库。

5. VS Code v1.104集成Copilot重大升级

VS Code新版本带来Copilot Chat多项增强：更好的智能体集成、自动模式选择模型、终端自动批准改进、UI优化，并正式支持AGENTS.md文件管理规则和指令。新增BYOK扩展API支持直接使用提供商密钥。

6. Hugging Face推理提供商集成VS Code

Hugging Face推理提供商现直接集成到VS Code中，使前沿开源LLM（GLM-4.5、Qwen3 Coder、DeepSeek 3.1、Kimi K2、GPT-OSS等）一键可用，极大提升开发者访问开放模型的便利性。

7. AgentGym-RL统一强化学习框架发布

字节跳动Seed团队推出AgentGym-RL，统一的多轮智能体训练框架，覆盖网页导航、搜索、游戏、具身和科学任务。无需监督微调，在网页导航任务达到26%（GPT-4o为16%），深度搜索38%（GPT-4o为26%），BabyAI任务96.7%，SciWorld创57%新纪录。

8. OpenAI Evals支持原生音频输入

OpenAI Evals现在支持原生音频输入和音频评分器，无需转录即可评估语音响应。GPT-Realtime在Big Bench Audio竞技场以82.8%准确率领先（原生语音到语音），接近92%的流水线方法（Whisper→文本LLM→TTS），同时保持延迟优势。

9. HierMoE提升MoE训练效率

分层感知All-to-All通过令牌去重和专家交换减少节点间流量并平衡负载。在32GPU A6000集群上，相比Megatron-LM/Tutel-2DH/SmartMoE，All-to-All快1.55-3.32倍，端到端训练快1.18-1.27倍，增益随top-k值和跨节点增加而提升。

10. Set Block Decoding大幅减少生成步骤

Set Block Decoding（SBD）集成下一令牌预测（NTP）和掩码令牌预测（MATP），在Llama-3.1 8B和Qwen-3 8B上减少生成前向传递3-5倍，同时保持准确性，无需架构更改且完全兼容KV缓存。

🛠️ 十大工具产品要点

1. Qwen3-Next生态系统部署支持

Qwen3-Next获全方位部署支持：Hyperbolic在Hugging Face提供BF16服务和低延迟端点；vLLM提供原生支持（混合模型加速内核和内存管理）；Baseten在4×H100上提供专用部署；可在Hugging Face、ModelScope、Kaggle获取，Qwen聊天应用提供试用。

2. vLLM组建前沿模型推理团队

Thinking Machines正在组建vLLM团队，推进开源推理技术并服务前沿模型，邀请感兴趣者加入，重点优化大规模模型推理性能和效率。

3. LangChain人机回圈中间件发布

LangChain推出基于LangGraph图形原生中断的人机回圈中间件，支持工具调用批准（批准/编辑/拒绝/忽略），提供简单API实现生产就绪的HITL功能。

4. InstantX精准修复ControlNet

InstantX发布Qwen图像修复ControlNet，支持针对性高质量编辑，提供Hugging Face模型和演示，专注于精确控制和高保真度输出。

5. Transformers性能深度优化

GPT-OSS发布带来transformers深度性能升级：MXFP4量化、预构建内核、张量/专家并行、连续批处理，提供基准测试和可复现脚本，显著提升推理效率。

6. Kyutai延迟流序列到序列模型

Kyutai DSM采用仅解码器LM加预对齐流，支持ASR↔TTS转换，延迟仅几百毫秒，竞争离线基线，支持无限序列和批处理，提供论文和代码库。

7. OCR模块化管道PP-OCRv5

PP-OCRv5为70M参数模块化OCR管道（Apache-2.0许可），专为密集文档布局/文本定位和边缘设备优化，现可在Hugging Face获取。

8. Tri-70B中间检查点开源

Trillion Labs发布Apache-2.0许可的70B transformer中间训练检查点，包含7B、1.9B和0.5B变体，提供完整训练历程而非最终权重，支持训练动力学研究和透明分析。

9. 1GIRL QWEN v2.0 LoRA发布

针对Qwen-Image/Qwen2-Image文本到图像模型的LoRA微调，专注于逼真单主题（女性）肖像，在Civitai发布，但未提供训练细节和基准测试。

10. rocprofiler线程追踪工具

工程师推荐使用rocprofiler线程追踪和rocprof compute viewer诊断MI300X VALU问题，提供可重复方法在SIMD粒度隔离调度器行为，优化GPU性能分析。