ai_news_summary_2025-08-18

AINews - 2025-08-18

原文链接

OpenAI 宣布 GPT-5 成为 ChatGPT 默认模型，提供 Auto/Fast/Thinking 三种模式。Plus/Team 用户每周可使用 3000 条 GPT-5 Thinking 消息，企业/教育用户已开放访问。

OpenAI 推出更“温暖”的 GPT-5 人格，声称不会增加谄媚性（sycophancy），用户仍可通过 Custom Instructions 自定义风格。

GPT-5 默认版本（gpt-5-chat）排名第5，小型变体（mini/nano）表现较弱，而 GPT-5-High 仍居榜首。部分评测指出其在编码任务上逊于中文模型。

Imagen 4 提供 Ultra/Standard/Fast 三档定价（$0.06-$0.02/图），生成速度比前代快 10 倍，开发者已分享 JSON 提示模板优化产品图生成。

参数分配独特（170M 嵌入层 + 100M Transformer），支持 Transformers/JS 等生态，在 iPad Air M3 上达 200 token/s，但存在重复问题争议。

包含 7B/32B 模型和 22.6K 轨迹数据集，32B 版本在 OSWorld 基准上达 34.8%，宣称媲美闭源方案。

包含 Canary-1b-v2（25 种语言 ASR+翻译）和 Parakeet-tdt-0.6b-v3 SOTA 多语言语音识别模型。

9B 版本在 OpenCompass 达 78.3 分（<40B 模型 SOTA），支持视频/多图像理解和文档 OCR。

ARC Prize 团队复现 HRM 的 ARC-AGI-1 高分，发现其核心优势来自外部精炼循环（refinement loop），而非模型架构本身。

预测开源模型可能在 2026 Q2 追上 Grok 4 水平，引发对能力扩散与安全政策的讨论。

支持对比 GPT-5 变体性能，内置评分器可评估模型响应与用户答案的匹配度。

提供优化提示、版本控制等建议，同步上线整合版开发者门户（developers.openai.com）。

支持多文件引用（@-file）和代码压缩，强化工具增强编程体验。

通过故意触发失败生成训练信号，适用于长周期工作流加固。

基于 Gemma-12B，评测分数超 Claude 4 Sonnet（3.53 vs 3.16），成本低 17 倍（$335/百万帧）。

7B 参数 ViT 模型，仅用无标签图像训练，在分割/深度估计等任务达 SOTA，引入 Gram Anchoring 防特征退化。

新增 DeepWiki 悬停解释、Vibe & Replace 批量编辑、Dev Containers 支持，优化智能体 Cascade 的持续规划能力。

支持 pip 安装，为 Apple Silicon 提供快速本地模型测试环境。

显示开源模型token消耗达闭源模型的1.5-4倍，呼吁将效率纳入生产级评估指标。

提出 α,1-稀疏方法，在超低位宽下实现近无损训练与推理，有望降低部署成本。