ai_news_summary_2025-08-09

AINews - 2025-08-09

原文链接

OpenAI发布GPT-5模型家族，采用”主模型+思考模型”的双层架构，通过实时路由系统动态分配任务。API提供gpt-5/gpt-5-mini/gpt-5-nano三个版本，支持400K上下文窗口，定价低至$0.05/$0.4每百万token。

GPT-5在LMSYS文本、Web开发和视觉竞技场中均取得第一，尤其在Web开发任务中优势显著。但ARC-AGI-2测试仅获9.9%准确率，落后于Grok-4的15.9%。

GPT-5发布会幻灯片出现多处坐标轴错误，包括SWE-Bench图表中52.8%分数竟高于69.1%的离奇错误，引发AI社区对基准测试透明度的质疑。

在Artificial Analysis的长上下文推理测试(AA-LCR)中，GPT-5包揽前两名，相比GPT-4在长文档处理上有质的飞跃，同时幻觉率大幅降低。

Cursor、JetBrains、Notion等开发工具在发布当天即整合GPT-5，Cursor CEO称其为”我们测试过最智能的编码模型”，并暂时提供免费使用。

独立安全机构METR评估显示，在当前威胁模型下GPT-5不太可能造成灾难性风险，但警告随着能力提升，模型对评估的认知和操纵风险增加。

早期用户报告GPT-5展现出精确的指令跟随能力，支持并行工具调用，能可靠处理多文件编辑和复杂diff操作，被形容为”计划时啰嗦，执行时简洁”。

尽管GPT-5在ARC-AGI-1获得65.7%准确率，但在更难的AGI-2测试中，xAI的Grok-4以15.9%的成绩保持SOTA，突显技术路线差异。

产品设计转向实时路由决策，开发者控制维度从”选择模型”变为”设置约束/策略/详细程度”，Plus用户仍可选择GPT-5或GPT-5 Thinking模式。

主模型训练数据截止2024年10月1日，mini版本截止2024年5月31日。系统卡片显示采用”安全补全”机制，在安全约束内最大化回答效用。

OpenAI官方命令行工具默认采用GPT-5，根据ChatGPT订阅计划实施速率限制，新增终端用户界面优化开发体验。

智能IDE Cursor宣布临时免费提供GPT-5访问，测试显示其在代码生成和复杂问题解决上显著优于前代模型。

智能体开发平台FactoryAI立即将GPT-5设为其”Droids”产品的默认引擎，强调其在复杂任务规划和执行中的稳定性。

官方提供包含最佳实践和案例的提示工程资源包，帮助开发者充分利用新模型的工具调用和路由特性。

知识引擎Perplexity为付费用户开放GPT-5访问，形成包含Claude 4.1 Opus、Grok 4和Gemini 2.5 Pro的多模型平台。

Microsoft 365 Copilot新增智能路由功能，将复杂查询自动导向GPT-5处理，保持基础任务使用轻量级模型的经济性。

协作平台Notion为其AI功能添加GPT-5支持，特别优化了长文档分析和知识提取场景的体验。

专业IDE厂商JetBrains更新其AI助手插件，允许开发者选择GPT-5作为代码补全和解释的引擎。

高效推理框架vLLM在北京Meetup上披露已被多家中国科技巨头采用，特别优化了MoE模型的CPU专家卸载策略。

80MB轻量级模型支持浏览器端运行，训练覆盖100万+图像数据，可识别扩散/GAN/Deepfake等多种生成技术。