ai_news_summary_2025-07-29

AINews - 2025-07-29

原文链接

OpenAI的GPT-5预计8月发布，Sam Altman称其”在几乎所有方面都比人类更聪明”。测试显示GPT-5能轻松击败Grok-4，并在两分钟内编写出完整的Cookie Clicker游戏。

阿里巴巴Qwen团队发布Qwen3-235B-Thinking开源模型，采用新型GSPO强化学习算法，在Arena-hard v1基准测试中以89%胜率击败GPT-4-0314。

Runway Aleph是新一代视频编辑模型，支持文本指令即时修复、转换和生成视频内容，可作为通用视频任务解决方案。

Anthropic为Claude Code推出自定义代理团队功能，允许用户创建专门化的AI代理(如规划、编码、测试)，但目前不支持为不同代理分配不同基础模型。

微软CEO Satya Nadella宣布GitHub Spark，这是一款通过自然语言交互将想法转化为全栈应用的Copilot工具。

Perplexity的AI原生浏览器Comet新增功能包括自动创建Spotify播放列表、LinkedIn任务自动化，以及直接从餐厅订餐绕过聚合平台。

DeepMind CEO Demis Hassabis透露，Google上个月处理了近千万亿(quadrillion)token，是前一个月的两倍多。

Meta宣布将关闭广受欢迎的研究平台Papers with Code，Hugging Face随即宣布将与Meta AI合作构建其替代品。

NVIDIA的Jim Fan提出”机器人Moravec悖论”：对人类困难的复杂体操动作对机器人反而容易，而简单的清洁任务却极其困难，因为后者需要模拟复杂的现实物理环境。

白宫命令联邦机构防止AI系统中的意识形态偏见，要求LLM优先考虑历史准确性、科学探究和客观性，这是对Google Gemini争议的直接回应。

Unsloth提供Qwen3-235B-Thinking的GGUF格式量化版本，在89GB统一内存或80GB RAM+8GB VRAM配置下可实现超过6token/s的推理速度。

LlamaIndex推出FlowMaker，这是一个开源的低代码工具，通过可视化拖拽界面构建自定义代理工作流，基于LlamaIndex.TS。

Wan 2.1 14B DiT模型支持原生高分辨率生成(如2304x1296+)，配合NAG注意引导和特定采样器组合，在ComfyUI中提供定制工作流。

斯坦福DSPy框架成功部署于罗马尼亚的多代理LLM医生-患者沟通系统，展示了上下文工程的实际应用价值。

Claude现在可以直接将文档转换为品牌视觉设计，与Canva平台深度集成，简化内容创建工作流。

清华GLM团队推出的9B参数多模态模型，在OCR等任务上号称超越Qwen2.5-72B，实际测试显示其OCR能力显著优于传统工具。

开源工具使用分支算法管理LLM上下文，有效防止上下文污染/腐化问题，提高长对话稳定性。

人机交互CLI工具，将自然语言转换为git命令，使版本控制对非技术用户更友好。

使用HQQ量化和torchao库，实现在仅5.4GB内存中高效运行llama3.1-8B模型，精度损失极小。

阿里巴巴Wan 2.2文本到视频模型即将发布，预览显示支持1280x720分辨率、30FPS的5秒视频生成，社区关注其VRAM需求和与Kling模型的对比。