ai_news_summary_2025-10-11

AINews - 2025-10-11

原文链接

Reflection AI宣布获得20亿美元融资，致力于构建前沿开源权重模型，采用大规模MoE预训练和从零开始的强化学习，强调安全性和评估，团队包括AlphaGo、PaLM、Gemini等项目的核心贡献者

Figure发布新一代人形机器人Figure 03，通过精心制作的演示展示系统设计和产品目标，团队强调”影片中没有任何内容是遥操作的”，定位为家庭和规模化应用

GPT-5 Pro在ARC-AGI基准测试中取得70.2%（ARC-AGI-1）和18.3%（ARC-AGI-2）的成绩，这是迄今为止半私有基准测试中前沿LLM的最高分数

Anthropic与英国AISI和图灵研究所合作研究表明，少量恶意文档就可在不同规模模型中植入后门，挑战了之前认为投毒需要大量数据比例的假设

Sora 2在发布后5天内达到100万应用下载量，尽管仅限于邀请和北美地区，同时在功能和内容审核方面快速迭代，Hugging Face上提供限时文本到视频演示

微软发布UserLM-8B，这是一个8B参数的LLM，专门训练用于模拟”用户”角色而非助手角色，基于Llama3-8B-Base在WildChat数据集上微调，用于预测用户对话轮次

新行政命令要求联邦LLM采购必须遵守”无偏见AI原则”：追求真实性和意识形态中立性，OMB将在120天内发布指导，各机构在90天内更新程序

Radical Numerics发布RND1，这是一个30B参数的稀疏MoE扩散语言模型（3B活跃参数），提供权重、代码和训练细节，旨在推动DLM推理和后训练研究

Anthropic为Claude Code推出插件系统和市场，用户可通过”plugin marketplace add anthropics/claude-code”命令添加插件，早期社区市场正在形成

字节跳动发布人工海马网络，旨在将无损内存压缩为固定大小的表示，专门为长上下文建模设计，结合了注意力KV缓存保真度和RNN风格压缩的优势

VS Code九月版本包含GitHub MCP注册表集成、AI合并冲突解决、操作系统通知和思维链渲染等AI优先功能改进，支持GPT-5-Codex

Google AI Studio新增”模型搜索”功能，Gemini CLI提供托管文档，推出”Gemini Enterprise”作为无代码入口，可在Workspace/M365/Salesforce等平台构建代理和自动化工作流

SemiAnalysis推出每日跨堆栈基准测试套件，涵盖H100/H200/B200/GB200/MI300X/MI325X/MI355X等硬件，专注于吞吐量、每百万token成本、延迟/吞吐量权衡等指标

阿里巴巴的Qwen Image Edit 2509在图像编辑任务中总体排名第三，领先开源权重模型，支持多图像身份绑定和命名实体编辑

AI21的Jamba Reasoning 3B在IFBench上达到52%，在”微小”推理模型中领先，专门为边缘计算场景优化

智谱AI的GLM-4.6在Design Arena基准测试中发布强劲结果，在多次代码编辑中保持连贯性并正确使用工具

Helion通过根据输入形状重写内核本身进行自动调优，最终生成Triton内核，在多种输入形状上通常优于Triton，特别在线性注意力内核方面表现突出

Google发布Gemma 3 270M从微调到部署的完整流程，可压缩至300MB以下，支持浏览器内和本地设备运行

开发者在代理管道中测试Mem0等内存层，使用DSPy/GEPA以20倍低成本切换模型而不产生回归，优化代理性能

该实现展示仅需8步即可生成与20步相当或更好的图像质量，计算量减少约60%，生成速度提升2.5倍，无需额外训练或蒸馏，适用于任何模型