ai_news_summary_2025-08-17

AINews - 2025-08-17

原文链接

OpenAI 宣布 GPT-5 成为 ChatGPT 默认模型，提供 Auto/Fast/Thinking 三种模式。Plus/Team 用户每周可使用 3000 条 GPT-5 Thinking 消息，企业/教育版也已上线。

OpenAI 调整 GPT-5 的默认人格，使其更友好（如“Good question”），但声称不会增加“奉承”行为，用户仍可通过 Custom Instructions 自定义风格。

GPT-5 默认版本（gpt-5-chat）排名第5，而 GPT-5-High 仍居榜首。评测指出其在编码任务上逊于部分中文模型，且对“奉承”敏感。

Imagen 4 支持 2K 分辨率图像生成，速度提升 10 倍；Gemma 3 270M 专为边缘计算优化，在 iPad Air M3 上达 200 tok/s。

OpenCUA 提供 7B/32B 模型及 22.6K 轨迹数据集，在 OSWorld 基准测试中达到 34.8%，媲美商业模型。

包含欧盟最大开源语音数据集和 25 种语言的 ASR/翻译模型，Argmax 已提供 Parakeet v3 支持。

DeepSeek-V3 在多数基准测试中优于 GPT-4o，输入/输出成本分别为 $0.27/$1.10（GPT-4o 为 $2.50/$10.00）。

无需标注数据，在分割、深度估计等任务上达到 SOTA，7B 参数版本引入“Gram Anchoring”技术防止特征退化。

基于 Gemma-12B，评测得分 3.53（Claude 4 Sonnet 为 3.16），成本低 17 倍（$335/百万帧）。

中国电网储备容量达 80-100%，远超美国的 15%，可轻松支持 AI 数据中心扩张，而美国面临基础设施瓶颈。

支持对比 GPT-5 变体性能，内置评分器可评估模型响应质量。

提供优化提示、路由策略等建议，整合 Playground 的向量存储和评估工具。

模拟数百种人格对话以暴露代理缺陷，将失败转化为训练信号。

支持工具增强编码，引入 /compress 和 @-file 引用功能。

实时集成 LangSmith 追踪数据，便于调试多模态工作流。

新增 DeepWiki 悬停解释、Vibe & Replace 批量编辑，支持 Dev Containers。

结合 CopilotKit 和 Neo4j，提供端到端 RAG 解决方案。

支持 Apple Silicon 设备快速部署和测试本地模型。

评测显示开源模型token消耗为闭源的1.5-4倍，影响生产成本。

通过 α,1-稀疏性实现近无损低比特训练，有望降低推理成本。