ai_news_summary_2025-12-18

AINews - 2025-12-18

原文链接

📰 十大AI新闻要点

1. OpenAI发布GPT-Image-1.5，在多项基准测试中排名第一

OpenAI发布了新的图像生成模型GPT-Image-1.5（ChatGPT Images），该模型在指令遵循、精确编辑、文本渲染和生成速度（比前代快4倍）方面均有显著提升。它在LMArena（1277分）、Design Arena（1344分）和Artificial Analysis（1272分）的文本到图像排行榜上均位列第一。
来源：https://openai.com/index/new-chatgpt-images-is-here/

2. 小米发布开源大模型MiMo-V2-Flash，在推理效率和编码任务上表现突出

小米发布了309B参数的MoE模型MiMo-V2-Flash（激活参数15B），强调推理效率（150 tokens/s）和长上下文（256K）。该模型在SWE-Bench基准测试中取得开源模型最佳成绩（Verified: 73.4%），并声称在通用基准测试中与DeepSeek-V3.2表现相当，但延迟更低。
来源：https://twitter.com/XiaomiMiMo/status/2000929154670157939

3. NVIDIA发布Nemotron-Cascade模型，在代码基准上超越DeepSeek-R1

NVIDIA推出了采用“Cascade RL”训练流程的Nemotron-Cascade模型（14B）。该模型在LiveCodeBench v5/v6/Pro上超越了DeepSeek-R1-0528（671B），并在SWE-Bench Verified上达到43.1%的pass@1准确率（通过测试时计算扩展可达53.8%）。
来源：https://twitter.com/_weiping/status/2000947255088701628

4. Google Research发布FACTS事实性评估基准，Gemini 3 Pro领先

Google Research推出了全面的AI事实性评估套件FACTS，涵盖多模态、参数化、搜索和基础化四个维度。评估结果显示，Gemini 3 Pro以68.8%的总分领先，而GPT-5 mini在参数化事实性方面得分较低（16%），揭示了不同模型在事实性行为上的权衡。
来源：https://twitter.com/omarsar0/status/2000935220049273303

5. OpenAI开源FrontierScience科学评估基准，并展示GPT-5在湿实验中的实际应用

OpenAI发布了针对物理、化学、生物学的博士级科学推理评估基准FrontierScience。同时，一项湿实验研究表明，GPT-5提出的协议修改建议使一个克隆工作流程的效率提高了79倍，展示了AI模型与真实科学工作流程结合的价值。
来源：https://openai.com/index/frontierscience/

6. Meta开源SAM Audio模型，实现基于文本/视觉/时间提示的音频分离

Meta发布了SAM Audio模型，这是一个统一的音频分离模型，能够根据文本、视觉或时间跨度提示，从复杂的音频混合物中隔离出特定声音。该模型已开源权重并提供在线演示。
来源：https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/

7. 苹果发布SHARP模型，实现单图像秒级3D生成

苹果的研究团队提出了SHARP模型，能够通过单次前向传播，在不到1秒的时间内从单张图像生成约120万个3D高斯点云。相比扩散基线方法（如Gen3C的~850秒），速度提升了约1000倍，并在ScanNet++基准上取得了更好的感知保真度。
来源：https://twitter.com/omarsar0/status/2000989377883988311

8. NVIDIA收购SchedMD公司，强化HPC生态控制力

NVIDIA宣布收购了流行的高性能计算工作负载管理器Slurm背后的公司SchedMD。此举旨在进一步整合其AI计算硬件与软件栈，但引发了关于Slurm未来许可和开源性质的讨论。
来源：https://blogs.nvidia.com/blog/nvidia-acquires-schedmd/

9. 著名数学家陶哲轩发表观点：当前AI是“聪明的魔术”，而非真正的AGI

数学家陶哲轩认为，当前的人工智能技术更像是“人工通用聪明才智”，通过随机或暴力方法解决复杂问题，但缺乏真正的理解，类似于看穿一个魔术戏法。他建议将AI视为“聪明输出的随机生成器”可能更有助于解决问题。
来源：文章内容（原Mastodon链接已失效）

10. MI6负责人警告：科技巨头比政治家更接近“统治世界”

英国秘密情报局（MI6）负责人理查德·摩尔（文中误为Blaise）警告称，科技巨头在散布虚假信息和影响全球稳定方面拥有堪比政府的权力，并呼吁建立紧急监管框架来管理它们的社会和政治影响力。
来源：文章内容（原新闻链接已失效）

🛠️ 十大工具产品要点

1. OpenAI GPT-Image-1.5 API上线，提供分级定价

GPT-Image-1.5模型已通过API提供，定价取决于分辨率和质量。根据分析，生成1000张1MP的高质量图像约需133美元，而低质量图像仅需约9美元。
来源：https://twitter.com/OpenAIDevs/status/2000992413402456485

2. Black Forest Labs发布高质量图像模型FLUX.2 [max]

Black Forest Labs发布了FLUX.2的高质量变体FLUX.2 [max]，支持网络信息 grounding 和最多10张参考图像以实现一致性编辑。该模型在多个图像排行榜上位列第二或第三。
来源：https://twitter.com/bfl_ml/status/2000945755125899427

3. vLLM发布专为推理集群设计的智能路由器

vLLM项目发布了一个用Rust编写的路由器，专为vLLM推理集群设计。它支持KV感知的一致性哈希、预填充/解码分离、重试/退避、熔断机制、Kubernetes服务发现和Prometheus指标，旨在优化吞吐量和尾部延迟。
来源：https://twitter.com/vllm_project/status/2000882750010876179

4. Mistral在OpenRouter上发布实验性创意模型Mistral Small Creative

Mistral在OpenRouter上发布了实验性模型Mistral Small Creative，定价为每百万输入/输出tokens 0.10/0.30美元，旨在集成到写作应用和聊天室中，并收集用户反馈。
来源：https://openrouter.ai/mistralai/mistral-small-creative

5. 小米MiMo-V2-Flash模型在OpenRouter上限时免费提供

小米的MiMo-V2-Flash模型已在OpenRouter平台上限时免费提供，引发了社区对手机厂商进入LLM领域的广泛讨论。
来源：https://openrouter.ai/xiaomi/mimo-v2-flash:free

6. NVIDIA Nemotron 3 Nano系列模型登陆Ollama和LM Studio

NVIDIA的小型MoE模型Nemotron 3 Nano现已支持Ollama和LM Studio（针对Apple Silicon），使得这些“从头训练”的高效模型能够更方便地集成到本地工作流中。
来源：https://twitter.com/ollama/status/2000820163231232167

7. 开源语音模型Chatterbox Turbo发布，声称超越ElevenLabs Turbo

一款名为Chatterbox Turbo的MIT许可语音模型宣布推出，声称在速度和自然度上超越了ElevenLabs Turbo和Cartesia Sonic 3，并强调其透明度和可审计性。
来源：文章内容（原推文链接已失效）

8. SkyPilot与NVIDIA合作推出MoE推理部署方案

SkyPilot与NVIDIA合作，推出了针对MoE模型推理的部署方案，包含预填充/解码分离、KV感知路由等功能，并提供了兼容OpenAI API的端点。
来源：https://twitter.com/skypilot_org/status/2000999292333666339

9. Cline迁移至Vercel AI Gateway以优化性能

代码生成工具Cline将其后端迁移至Vercel的AI Gateway，报告称错误率降低，并且跨多个模型的P99流式延迟改善了10-40%。
来源：https://twitter.com/cline/status/2001043584490070470

10. NeoCloudX推出聚合数据中心闲置算力的GPU市场

NeoCloudX推出了一个云GPU市场，通过聚合数据中心的过剩算力来降低费用，提供约0.4美元/小时的A100和0.15美元/小时的V100实例。
来源：https://neocloudx.com/