AINews - 2025-12-18
📰 十大AI新闻要点
1. OpenAI发布GPT-Image-1.5,在多项基准测试中排名第一
OpenAI发布了新的图像生成模型GPT-Image-1.5(ChatGPT Images),该模型在指令遵循、精确编辑、文本渲染和生成速度(比前代快4倍)方面均有显著提升。它在LMArena(1277分)、Design Arena(1344分)和Artificial Analysis(1272分)的文本到图像排行榜上均位列第一。
来源:https://openai.com/index/new-chatgpt-images-is-here/
2. 小米发布开源大模型MiMo-V2-Flash,在推理效率和编码任务上表现突出
小米发布了309B参数的MoE模型MiMo-V2-Flash(激活参数15B),强调推理效率(150 tokens/s)和长上下文(256K)。该模型在SWE-Bench基准测试中取得开源模型最佳成绩(Verified: 73.4%),并声称在通用基准测试中与DeepSeek-V3.2表现相当,但延迟更低。
来源:https://twitter.com/XiaomiMiMo/status/2000929154670157939
3. NVIDIA发布Nemotron-Cascade模型,在代码基准上超越DeepSeek-R1
NVIDIA推出了采用“Cascade RL”训练流程的Nemotron-Cascade模型(14B)。该模型在LiveCodeBench v5/v6/Pro上超越了DeepSeek-R1-0528(671B),并在SWE-Bench Verified上达到43.1%的pass@1准确率(通过测试时计算扩展可达53.8%)。
来源:https://twitter.com/_weiping/status/2000947255088701628
4. Google Research发布FACTS事实性评估基准,Gemini 3 Pro领先
Google Research推出了全面的AI事实性评估套件FACTS,涵盖多模态、参数化、搜索和基础化四个维度。评估结果显示,Gemini 3 Pro以68.8%的总分领先,而GPT-5 mini在参数化事实性方面得分较低(16%),揭示了不同模型在事实性行为上的权衡。
来源:https://twitter.com/omarsar0/status/2000935220049273303
5. OpenAI开源FrontierScience科学评估基准,并展示GPT-5在湿实验中的实际应用
OpenAI发布了针对物理、化学、生物学的博士级科学推理评估基准FrontierScience。同时,一项湿实验研究表明,GPT-5提出的协议修改建议使一个克隆工作流程的效率提高了79倍,展示了AI模型与真实科学工作流程结合的价值。
来源:https://openai.com/index/frontierscience/
6. Meta开源SAM Audio模型,实现基于文本/视觉/时间提示的音频分离
Meta发布了SAM Audio模型,这是一个统一的音频分离模型,能够根据文本、视觉或时间跨度提示,从复杂的音频混合物中隔离出特定声音。该模型已开源权重并提供在线演示。
来源:https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
7. 苹果发布SHARP模型,实现单图像秒级3D生成
苹果的研究团队提出了SHARP模型,能够通过单次前向传播,在不到1秒的时间内从单张图像生成约120万个3D高斯点云。相比扩散基线方法(如Gen3C的~850秒),速度提升了约1000倍,并在ScanNet++基准上取得了更好的感知保真度。
来源:https://twitter.com/omarsar0/status/2000989377883988311
8. NVIDIA收购SchedMD公司,强化HPC生态控制力
NVIDIA宣布收购了流行的高性能计算工作负载管理器Slurm背后的公司SchedMD。此举旨在进一步整合其AI计算硬件与软件栈,但引发了关于Slurm未来许可和开源性质的讨论。
来源:https://blogs.nvidia.com/blog/nvidia-acquires-schedmd/
9. 著名数学家陶哲轩发表观点:当前AI是“聪明的魔术”,而非真正的AGI
数学家陶哲轩认为,当前的人工智能技术更像是“人工通用聪明才智”,通过随机或暴力方法解决复杂问题,但缺乏真正的理解,类似于看穿一个魔术戏法。他建议将AI视为“聪明输出的随机生成器”可能更有助于解决问题。
来源:文章内容(原Mastodon链接已失效)
10. MI6负责人警告:科技巨头比政治家更接近“统治世界”
英国秘密情报局(MI6)负责人理查德·摩尔(文中误为Blaise)警告称,科技巨头在散布虚假信息和影响全球稳定方面拥有堪比政府的权力,并呼吁建立紧急监管框架来管理它们的社会和政治影响力。
来源:文章内容(原新闻链接已失效)
🛠️ 十大工具产品要点
1. OpenAI GPT-Image-1.5 API上线,提供分级定价
GPT-Image-1.5模型已通过API提供,定价取决于分辨率和质量。根据分析,生成1000张1MP的高质量图像约需133美元,而低质量图像仅需约9美元。
来源:https://twitter.com/OpenAIDevs/status/2000992413402456485
2. Black Forest Labs发布高质量图像模型FLUX.2 [max]
Black Forest Labs发布了FLUX.2的高质量变体FLUX.2 [max],支持网络信息 grounding 和最多10张参考图像以实现一致性编辑。该模型在多个图像排行榜上位列第二或第三。
来源:https://twitter.com/bfl_ml/status/2000945755125899427
3. vLLM发布专为推理集群设计的智能路由器
vLLM项目发布了一个用Rust编写的路由器,专为vLLM推理集群设计。它支持KV感知的一致性哈希、预填充/解码分离、重试/退避、熔断机制、Kubernetes服务发现和Prometheus指标,旨在优化吞吐量和尾部延迟。
来源:https://twitter.com/vllm_project/status/2000882750010876179
4. Mistral在OpenRouter上发布实验性创意模型Mistral Small Creative
Mistral在OpenRouter上发布了实验性模型Mistral Small Creative,定价为每百万输入/输出tokens 0.10/0.30美元,旨在集成到写作应用和聊天室中,并收集用户反馈。
来源:https://openrouter.ai/mistralai/mistral-small-creative
5. 小米MiMo-V2-Flash模型在OpenRouter上限时免费提供
小米的MiMo-V2-Flash模型已在OpenRouter平台上限时免费提供,引发了社区对手机厂商进入LLM领域的广泛讨论。
来源:https://openrouter.ai/xiaomi/mimo-v2-flash:free
6. NVIDIA Nemotron 3 Nano系列模型登陆Ollama和LM Studio
NVIDIA的小型MoE模型Nemotron 3 Nano现已支持Ollama和LM Studio(针对Apple Silicon),使得这些“从头训练”的高效模型能够更方便地集成到本地工作流中。
来源:https://twitter.com/ollama/status/2000820163231232167
7. 开源语音模型Chatterbox Turbo发布,声称超越ElevenLabs Turbo
一款名为Chatterbox Turbo的MIT许可语音模型宣布推出,声称在速度和自然度上超越了ElevenLabs Turbo和Cartesia Sonic 3,并强调其透明度和可审计性。
来源:文章内容(原推文链接已失效)
8. SkyPilot与NVIDIA合作推出MoE推理部署方案
SkyPilot与NVIDIA合作,推出了针对MoE模型推理的部署方案,包含预填充/解码分离、KV感知路由等功能,并提供了兼容OpenAI API的端点。
来源:https://twitter.com/skypilot_org/status/2000999292333666339
9. Cline迁移至Vercel AI Gateway以优化性能
代码生成工具Cline将其后端迁移至Vercel的AI Gateway,报告称错误率降低,并且跨多个模型的P99流式延迟改善了10-40%。
来源:https://twitter.com/cline/status/2001043584490070470
10. NeoCloudX推出聚合数据中心闲置算力的GPU市场
NeoCloudX推出了一个云GPU市场,通过聚合数据中心的过剩算力来降低费用,提供约0.4美元/小时的A100和0.15美元/小时的V100实例。
来源:https://neocloudx.com/