ai_news_summary_2025-08-23

AINews - 2025-08-23

原文链接

Cohere推出企业级推理模型Command A Reasoning，提供开源权重供研究和私有部署，商业使用需Cohere许可。该模型在工具使用和智能体基准测试中表现强劲，强调安全性与实用性的平衡，减少过度拒绝。

DeepSeek-V3.1是671B参数的MoE模型，支持通过特殊标记切换”推理”和”非推理”模式，专注于智能体用例和编码工作流。在SWE-Bench Verified上达到66%（非推理模式），支持164K上下文窗口，API定价为$0.56/M输入和$1.68/M输出。

Google详细展示了Gemini推理能效：中位数文本提示消耗约0.24 Wh和0.26 ml水。从2024年5月到2025年5月，每个提示的能耗下降33倍，碳足迹减少44倍，得益于模型/系统效率和清洁能源。

Google搜索的AI模式现在可以规划和执行多步骤任务（如跨网站餐厅预订），个性化结果并共享会话上下文，正在向180多个国家和地区的英语用户推出。

OpenAI Responses API新增”Connectors”功能，可单次调用从Gmail/Calendar/Dropbox等获取上下文；”Conversations”添加持久线程存储，无需自建聊天数据库。

NVIDIA宣布Nemotron Nano 2作为混合Mamba-Transformer推理模型，虽然公开细节有限，但值得关注作为NVIDIA小规模推理产品线的发展。

ByteDance发布Seed-OSS-36B-Base-woSyn，这是一个36B密集模型，具有512K上下文窗口，在12T token上训练且无合成数据，专注于长上下文能力。

MM-BrowseComp包含224个多模态网络任务（文本+图像+视频）用于智能体评估，提供代码、HF数据集和arXiv论文。

DuPO通过对偶性生成自监督反馈，实现可靠的自验证而无需外部标注，支持框架可逆性（如反向数学解恢复隐藏变量）。

Perplexity Finance为印度股票推出自然语言筛选功能，覆盖多个界面，为用户提供智能投资分析工具。

DeepSeek-V3.1实现与Anthropic API的完全兼容，允许现有Anthropic集成应用通过更改基础URL和模型名称无缝切换到DeepSeek后端，降低迁移成本。

vLLM和SGLang现已支持DeepSeek-V3.1的”思考/非思考”模式切换，为开发者提供灵活的推理配置选项。

MLX-VLM 0.3.3添加GLM-4.5V和Command-A-Vision支持；JinaAI MLX-retrieval实现本地Gemma3-270m嵌入/重排，在M3 Ultra上达到约4000 token/秒。

LlamaParse现在支持引用生成和多种模式（成本效益/智能体/智能体+），提升文档解析和RAG应用的效果。

Weaviate的Elysia功能提供决策树智能体RAG，带有实时推理可视化，增强检索增强生成的可解释性。

Cursor现在可与Linear问题跟踪系统集成，直接从问题/评论中启动AI智能体，提升开发工作流效率。

Google开发者发布Next.js模板，用于构建浏览器内AI视频工作室，使用Veo 3和Imagen 4技术。

Weights & Biases Inference现在支持DeepSeek V3.1模型，定价为$0.55/M输入和$1.65/M输出token。

Chutes AI平台提供DeepSeek V3.1的定价托管服务，为开发者提供便捷的模型部署选项。

Baseten平台针对DeepSeek V3.1进行延迟优化跟踪，提供更高效的模型服务性能。