ai_news_summary_2025-09-11

AINews - 2025-09-11

原文链接

Cognition宣布完成4亿美元融资，由Founders Fund领投，估值达102亿美元，旨在扩展AI编程代理Devin。团队强调客户扩张和Windsurf团队加入，正在招聘产品、基础设施和后训练岗位。

Vercel基于Vercel AI SDK、Gateway、Sandbox和调优的GPT-5代理循环构建了开源编程平台，支持文件IO、命令执行、包安装和自动修复功能，单次演示即在Go中编写了多人Pong游戏。

Kimi K2-0905在Groq上运行，在Roo Code评估中达到94%准确率，排名第7，成为首个突破90+的开源权重模型，同时是前十名中最快且最便宜的模型。

Meta的Set Block Decoding技术可在不改变架构的情况下将现有语言模型的解码速度提升3-5倍，匹配NTP性能并保持精确的KV缓存，通过掩码/离散扩散公式实现并行生成。

Google的Veo 3和Veo 3 Fast现已在Gemini API中正式上市，价格降低约50%（0.40美元/秒和0.15美元/秒），支持1080p输出和9:16垂直视频，定位为规模化生产。

FAIR的Exploratory Iteration方法通过自动课程训练LLMs进行推理时自我改进，从模型先前的响应中引导，优先处理高回报方差的局部历史，在竞赛数学、BFCLv3多轮任务和MLE-bench上超越GRPO。

Google DeepMind与Intrinsic和UCL合作开发的RoboBallet可编排多达8个机器人臂进行无碰撞任务和运动规划，比传统方法性能提升约25%，通过RL学习的协调原则在几秒内泛化到新工作流。

Perplexity推出”Perplexity for Government”，默认安全、零数据使用、提供高级模型访问且无需企业合同，同时将Perplexity Finance扩展到iOS/Android平台。

Anthropic支持加州参议员Scott Wiener提出的SB 53法案，这是一个以透明度为重点的州级框架，用于在缺乏联邦标准的情况下治理前沿AI。

阿里巴巴的Qwen3-Next系列引入混合注意力堆栈（门控DeltaNet + 门控注意力）、高稀疏度MoE（1:50激活比）和多令牌预测等架构变化，Qwen3-Next-80B-A3B据称在下游任务上以<1/10训练成本超越Qwen3-32B。

Anthropic宣布Claude现在可以本地创建和编辑常见办公文件（Excel、Word、PowerPoint、PDF等），为Claude Max和Team/Enterprise用户提供即用型输出，无需复制粘贴。

阿里巴巴的Qwen3-ASR发布单一模型支持多语言转录（中英文+9种语言），自动检测，抗BGM/噪声/说唱干扰，词错误率<8%，支持自定义上下文偏置，在ModelScope/Hugging Face提供演示和API。

AutoRound现已在SGLang中集成，提供高效的量化优化功能，提升模型推理效率。

QuTLASS v0.1.0为Blackwell GPU带来4位NVFP4微缩放和快速变换功能，优化量化性能。

AlgoPerf v0.6添加滚动排行榜、JAX jit支持和更低计算成本的算法基准测试功能。

Hugging Face文档化了ZeroGPU的Ahead-of-Time编译内部机制，为PyTorch提供优化支持。

ROMA开源深度研究框架结合递归规划和多代理架构，在SEAL-0和FRAMES基准测试中声称超越闭源平台，提供即插即用系统和网络搜索工具。

PyDevMini-1是基于Qwen的约4B参数微调模型，专注于Python和Web开发编码，声称在1/400大小下达到GPT-4水平，可在单个游戏GPU上运行。

腾讯的HunyuanImage-2.1是基于多模态DiT骨干的开源文本到图像系统，支持高效2K生成，采用多模态LLM和ByT5双文本编码器，需要≥59GB GPU内存进行2K生成。

RAGGY是开源的REPL工具，支持RAG的假设迭代，推动将预生产测试与生产可观察性和人工审查集成，而非作为独立孤岛处理。