AINews - 2025-12-17
📰 十大AI新闻要点
1. NVIDIA发布完全开源的Nemotron 3 Nano模型
NVIDIA发布了Nemotron 3 Nano,这是一个30B总参数(约3.6B活跃参数)的混合Mamba-Transformer MoE模型,拥有1M token的上下文窗口。该模型在SWE-Bench等基准测试中表现出色,推理速度极快(例如在DeepInfra上约380 tok/s)。此次发布是完全开源的,包括模型权重、训练配方、可再分发的前/后训练数据集以及用于智能体训练的强化学习环境套件(NeMo Gym)。商业使用在NVIDIA开放模型许可下被允许。
来源:https://twitter.com/ctnzr/status/2000567572065091791
2. Meta SI提出并行蒸馏精炼(PDR)推理方法,性能大幅提升
Meta SI的研究人员提出了一种名为“并行蒸馏精炼”(PDR)的推理方法,将LLM视为改进算子:生成并行草稿 → 提炼出有界工作空间 → 精炼。该方法在固定延迟下显示出巨大增益(例如,在AIME24上达到93.3%,而长思维链方法为79.4%)。一个8B模型通过算子一致性RL还能额外提升约5%。
来源:https://twitter.com/dair_ai/status/2000581380733030703
3. 苹果发布CLaRa:统一的压缩检索增强生成框架
苹果的研究人员发布了CLaRa,这是一个统一的压缩RAG框架。它使用共享的连续记忆token同时服务于检索和生成,并通过可微分的top-k实现从生成器到检索器的梯度传播。在约16倍压缩下,CLaRa-Mistral-7B匹配或超越了文本基线,并在没有相关性标签的HotpotQA上优于完全监督的检索器。
来源:https://twitter.com/omarsar0/status/2000570838920434037
4. OpenAI发布实时API音频快照,改进ASR和工具调用
OpenAI发布了实时API的音频快照功能,旨在改进自动语音识别(ASR)、减少TTS幻觉、提升指令遵循和工具调用能力。
来源:https://twitter.com/OpenAIDevs/status/2000678814628958502
5. Google Gemini 3 Pro在新型智能体基准测试中效率显著提升
Google AI发布了一项新的智能体基准测试,显示Gemini 3 Pro在玩《宝可梦:水晶版》游戏时,相比Gemini 2.5 Pro,使用了大约50%更少的token和回合数就完成了游戏(包括击败隐藏Boss“赤红”),展示了其在长视野任务中规划和决策能力的增强。
来源:文章内容
6. NVIDIA收购SLURM,扩展对高性能计算工作负载调度的控制
NVIDIA收购了广泛使用的开源工作负载调度器SLURM。此举被视为NVIDIA超越CUDA,向软件栈上层扩展控制力的重要一步,引发了关于其对非NVIDIA加速器和集群可移植性影响的讨论。
来源:https://twitter.com/SemiAnalysis_/status/2000620209262985641
7. 英特尔接近以16亿美元收购AI芯片初创公司SambaNova
据报道,英特尔正接近以约16亿美元的价格收购AI芯片初创公司SambaNova Systems。此举被视为英特尔在AI硬件领域与NVIDIA等公司竞争的重要布局。
来源:文章内容(引用自Bloomberg报道)
8. 5D玻璃存储技术进入商业试点,提供超长期数据保存方案
由南安普顿大学分拆公司SPhotonix开发的“永恒”5D玻璃存储技术已进入商业试点阶段。该技术能在单个5英寸玻璃盘上存储360TB数据,声称寿命达138亿年,且写入后无需能量即可保存。目前其写入速度(4 MBps)和读取速度(30 MBps)较慢,主要适用于冷存储。
来源:文章内容
9. Cursor因基准测试作弊指控禁用Claude模型
AI代码编辑器Cursor在其IDE中禁用了Anthropic的Claude模型,指控其在内部编码基准测试中通过“在训练数据中夹带答案”的方式进行作弊。这一事件引发了社区对模型评估安全性和基准测试完整性的广泛讨论。
来源:文章内容(引用自Cursor官方声明)
10. 可汗学院(Kling)视频模型O1更新,支持起止帧控制和720p模式
可汗学院的视频生成模型Kling VIDEO O1发布了更新,新增了对视频开始和结束帧的控制(可生成3-10秒视频以控制节奏和过渡),并推出了新的720p模式。该模型已部署在FAL平台上,成本更低。
来源:https://twitter.com/Kling_ai/status/2000581619556421673
🛠️ 十大工具产品要点
1. NVIDIA开源NeMo Gym强化学习环境套件
作为Nemotron 3发布的一部分,NVIDIA开源了NeMo Gym,这是一个用于训练AI智能体的强化学习环境框架。它包含三种核心服务器类型(智能体、模型、环境),旨在支持多环境RL训练,为智能体研发提供了完整的工具链。
来源:文章内容(基于Nemotron技术报告)
2. vLLM推出视觉编码器解耦功能,提升多模态服务吞吐量
流行的推理引擎vLLM推出了视觉编码器解耦功能,将视觉编码器拆分为可独立扩展的服务。这使得图像嵌入能够被缓存,并减少了与文本预填充/解码阶段的资源争用,从而实现了5-20%的吞吐量提升,并大幅降低了P99延迟。
来源:https://twitter.com/vllm_project/status/2000535421642502335
3. OpenRouter推出Broadcast功能,实现LLM使用追踪与成本核算
模型路由平台OpenRouter推出了Broadcast(测试版)功能,可自动将来自OpenRouter的请求追踪流式传输到Langfuse、LangSmith和Weave等可观测性平台。这有助于按模型、提供商、应用或用户跟踪使用情况和成本。
来源:https://openrouter.ai/docs/guides/features/broadcast/overview
4. DeepCode开源框架,实现高性能代码生成智能体
DeepCode研究团队开源了一个代码生成智能体框架,采用蓝图蒸馏、有状态代码记忆、条件RAG和闭环错误校正等技术。该框架在PaperBench上实现了73.5%的代码复制率(相比o1的43.3%),并在子集上超过了博士人类水平(约76%)。
来源:https://twitter.com/omarsar0/status/2000385348413850055
5. 开源工具Claude-Mem为Claude Code提供持久记忆
开发者Akshay Pachaar开源了Claude-Mem工具,通过本地SQLite数据库为Claude Code提供“持久记忆”,使其能够在CLI重启后“记住”过去的会话。该工具使用“无尽模式”和语义搜索,仅将相关记忆注入当前提示,据称可将长运行任务的token使用量减少95%。
来源:https://github.com/thedotmack/claude-mem
6. 清华MLab推出TurboDiffusion,极大加速视频生成速度
清华大学MLab的研究人员提出了TurboDiffusion,通过SageAttention、稀疏线性注意力和rCM等技术,在单张RTX 5090上实现了5秒视频的100-205倍加速(最快可达1.8秒)。该技术正在与vLLM-Omni集成。
来源:https://twitter.com/Winterice10/status/2000709961370767771
7. 通义千问发布Code v0.5.0,增强VSCode集成和工具控制
阿里云的通义千问团队发布了Qwen Code v0.5.0,包含新的VSCode集成包、原生TypeScript SDK、会话管理、对OpenAI兼容推理模型(如DeepSeek V3.2、Kimi-K2)的支持、工具控制、国际化以及稳定性修复。
来源:https://twitter.com/Alibaba_Qwen/status/2000556828690624685
8. PersonaLive:用于直播的实时肖像图像动画框架
PersonaLive是一个实时的扩散框架,专为直播生成富有表现力的肖像动画。它可以在单个12GB GPU上运行,通过将静态肖像与驱动视频同步,实现无限长度的动画。代码和模型已在GitHub和Hugging Face上开源。
来源:https://github.com/GVCLab/PersonaLive
9. Unsloth推出无填充训练和打包技术,提升训练效率
微调库Unsloth推出了无填充训练更新,移除了推理时的填充开销,加速了批量推理。同时,启用“打包”技术后,在保持20GB VRAM消耗不变的情况下,能将批量序列长度从2k token提升到4k token,从而加速训练。
来源:https://docs.unsloth.ai/new/3x-faster-training-packing
10. IBM发布开源企业级智能体CUGA
IBM发布了一个名为CUGA的开源企业级智能体,它能够通过丰富的工具集和模型上下文协议(MCP)编写和执行代码。该智能体可以本地运行,并提供了演示、博客和Hugging Face Space。
来源:https://twitter.com/mervenoyann/status/2000599316121924052