ai_news_summary_2025-09-08

AINews - 2025-09-08

原文链接

阿里巴巴推出迄今为止最大的模型Qwen 3 Max，参数规模超过1万亿，专注于代理任务行为，现已通过Qwen Chat、阿里云API和OpenRouter提供。社区反应认为这是”美国级前沿模型”，具有竞争力的定价和吞吐量。

Moonshot AI发布Kimi K2-0905，上下文长度翻倍至256K，改进了编码和工具调用能力，优化了与代理框架的集成。已在多个平台部署，包括Hugging Face、Together AI、vLLM等，社区强调代理任务需要超长上下文来保证稳定性。

Meta的Set Block Decoding技术可并行采样多个未来token，减少3-5倍前向传递，无需架构更改且兼容KV缓存。训练模型在下一token预测上匹配标准NTP性能。

微软使用代理强化学习在仅510步内使rStar2-Agent-14B达到前沿数学水平（AIME24 80.6分，AIME25 69.8分），具有更短、更可验证的思维链。

OpenAI将与Broadcom合作开始大规模生产自研AI加速器，旨在减少对Nvidia GPU的依赖，降低训练和推理成本，确保供应链安全。

Together AI宣布由BOND领投的1.5亿美元D轮融资，用于扩展推理基础设施；Baseten也完成1.5亿美元D轮融资，推出性能工作和EmbeddingGemma支持。

OpenAI为ChatGPT添加对话分支支持功能，允许用户创建不同的对话路径，Sam Altman称这是”非常受欢迎的功能”。

Google开源EmbeddingGemma多语言嵌入编码器，报告显示在M2 Max上约80分钟可嵌入140万文档，质量优于旧的付费大模型，支持完全离线检索。

分析显示PyTorch中ROCm专属跳过/禁用测试数量增加（各超过200个），核心transformer操作（如注意力）已被禁用数月，影响开发者信任度。

Salesforce CEO确认因AI驱动的Agentforce系统效率提升，裁减约4000个客户支持岗位，支持人员从9000人减少至5000人，AI reportedly处理高达50%的工作量。

Kimi K2-0905已在Hugging Face、Together AI、vLLM、LMSYS SGLang runtime、Groq等多个平台部署，Groq即时推理达到200+ tokens/秒，价格1.50美元/百万tokens。

OpenAI Responses API获得深度解释，AI SDK v5现在默认将OpenAI提供商设置为Responses（Completions仍可用），改进持续对话中的”思维链保持”。

LlamaIndex展示SemTools使用UNIX工具和模糊语义搜索处理1000篇arXiv论文，CLI优先代理加语义搜索在文档任务上优于临时RAG。

vLLM发布Kimi K2部署指南，同时宣布在多伦多举办分布式推理、spec decode和FlashInfer的meetup活动。

SQLite-vec结合EmbeddingGemma可在各种语言和运行时中完全离线运行，为设备上检索提供便捷解决方案。

Nunchaku v1.0.0后端从C迁移到Python，添加异步CPU卸载，使Qwen-Image扩散在约3GiB VRAM中运行，无性能损失，提供新wheel和ComfyUI节点。

THUDM的slime提供集成工具调用和状态转换的清洁rollout抽象，减少代理强化学习实验中的胶水代码。

OpenRouter现在提供Qwen 3 Max模型接入，定价按上下文长度分层：输入1.2美元（≤128K）/3美元（>128K），输出6美元（≤128K）/15美元（>128K）。

LMSYS SGLang runtime为Kimi K2提供支持，实现60-100+ TPS（每秒处理事务数）的高吞吐量性能。

Cline宣布集成Kimi K2，优化代理框架的协同工作，提升工具编排和任务执行的稳定性。