ai_news_summary_2025-07-28

AINews - 2025-07-28

原文链接

OpenAI的GPT-5预计8月发布，演示显示其能在两分钟内编写完整的Cookie Clicker游戏，性能显著优于Grok-4。Sam Altman称GPT-5”在几乎所有方面都比人类更聪明”。

阿里巴巴Qwen团队发布Qwen3-235B-Thinking开源模型，在Arena-hard v1基准测试中以89%胜率击败GPT-4-0314，采用新型RL算法GSPO(Group Sequence Policy Optimization)。

Runway发布Aleph视频模型，支持即时修复、内容转换和生成，能通过简单文本命令完成复杂视频编辑任务，成为多功能视频处理工具。

Anthropic为Claude Code新增自定义代理功能，用户可创建专门化的AI代理团队(如规划、编码、测试)，但尚不支持为不同代理分配不同基础模型。

微软计划将GPT-5集成到Copilot中，取代当前使用的GPT-4模型，但用户反映Copilot网页界面存在性能问题可能影响体验。

微软CEO Satya Nadella宣布GitHub Spark，一个通过自然语言交互就能创建全栈应用的新Copilot工具。

Perplexity CEO展示Comet浏览器功能，包括创建Spotify播放列表、自动化LinkedIn任务，甚至能绕过聚合商直接从餐厅订餐。

LlamaIndex发布FlowMaker，一个可视化拖拽界面的开源工具，用于构建自定义AI代理工作流，基于LlamaIndex.TS技术。

DeepMind CEO透露Google上月处理了近千万亿token，是前一个月的两倍多，展示了AI处理的惊人规模。

NVIDIA科学家提出”机器人Moravec悖论”：机器人能完成复杂体操动作却难以完成日常清洁任务，因后者需要模拟混乱的物理世界。

Unsloth提供Qwen3-235B-Thinking的GGUF量化版本，在89GB统一内存或80GB RAM+8GB VRAM配置下可实现6+ token/s的推理速度。

Wan 2.1 14B DiT模型支持原生高分辨率生成(如2304x1296)，使用NAG(Normalized Attention Guidance)和特定采样器组合，在ComfyUI中提供定制工作流。

Anthropic团队分享Claude Code使用技巧：初始”一次性”提示成功率约33%，建议采用迭代方法、频繁”重滚”上下文，并使用检查点密集的git工作流。

开源工具使用分支算法防止上下文污染/腐烂，帮助管理大型语言模型的对话历史，提高长期对话质量。

人机交互CLI工具，将自然语言转换为git命令，使版本控制更易用，特别适合非技术用户。

使用HQQ量化和torchao库，可在仅5.4GB内存中运行llama3.1-8B模型，实现高效推理而精度损失最小。

阿里巴巴Wan 2.2视频模型即将发布，预览显示支持1280x720分辨率、30FPS的5秒视频生成，社区关注其VRAM需求是否仍保持在24GB内。

清华GLM团队9B参数多模态模型，声称在OCR等任务上超越Qwen2.5-72B，用户报告其实用性显著优于传统OCR工具。

Perplexity推出自然语言驱动的股票筛选工具，用户可通过对话方式查询和分析股票数据，扩展其金融AI工具集。

OpenRouter API完全运行在Cloudflare Workers无服务器架构上，正扩展支持大文件处理以实现多模态能力。