AINews - 2025-07-28
📰 十大AI新闻要点
1. GPT-5即将发布,性能大幅超越Grok-4
OpenAI的GPT-5预计8月发布,演示显示其能在两分钟内编写完整的Cookie Clicker游戏,性能显著优于Grok-4。Sam Altman称GPT-5”在几乎所有方面都比人类更聪明”。
2. Qwen3-235B-Thinking开源模型发布
阿里巴巴Qwen团队发布Qwen3-235B-Thinking开源模型,在Arena-hard v1基准测试中以89%胜率击败GPT-4-0314,采用新型RL算法GSPO(Group Sequence Policy Optimization)。
3. Runway推出Aleph视频模型
Runway发布Aleph视频模型,支持即时修复、内容转换和生成,能通过简单文本命令完成复杂视频编辑任务,成为多功能视频处理工具。
4. Claude Code支持自定义AI代理团队
Anthropic为Claude Code新增自定义代理功能,用户可创建专门化的AI代理团队(如规划、编码、测试),但尚不支持为不同代理分配不同基础模型。
5. 微软将GPT-5集成至Copilot
微软计划将GPT-5集成到Copilot中,取代当前使用的GPT-4模型,但用户反映Copilot网页界面存在性能问题可能影响体验。
6. GitHub Spark发布
微软CEO Satya Nadella宣布GitHub Spark,一个通过自然语言交互就能创建全栈应用的新Copilot工具。
7. Perplexity Comet浏览器功能展示
Perplexity CEO展示Comet浏览器功能,包括创建Spotify播放列表、自动化LinkedIn任务,甚至能绕过聚合商直接从餐厅订餐。
8. FlowMaker开源低代码代理工作流工具
LlamaIndex发布FlowMaker,一个可视化拖拽界面的开源工具,用于构建自定义AI代理工作流,基于LlamaIndex.TS技术。
9. Google处理量达千万亿token
DeepMind CEO透露Google上月处理了近千万亿token,是前一个月的两倍多,展示了AI处理的惊人规模。
10. 机器人Moravec悖论
NVIDIA科学家提出”机器人Moravec悖论”:机器人能完成复杂体操动作却难以完成日常清洁任务,因后者需要模拟混乱的物理世界。
🛠️ 十大工具产品要点
1. Qwen3-235B-Thinking GGUF量化版本
Unsloth提供Qwen3-235B-Thinking的GGUF量化版本,在89GB统一内存或80GB RAM+8GB VRAM配置下可实现6+ token/s的推理速度。
2. Wan 2.1 14B文本到图像模型
Wan 2.1 14B DiT模型支持原生高分辨率生成(如2304x1296),使用NAG(Normalized Attention Guidance)和特定采样器组合,在ComfyUI中提供定制工作流。
3. Claude Code最佳实践
Anthropic团队分享Claude Code使用技巧:初始”一次性”提示成功率约33%,建议采用迭代方法、频繁”重滚”上下文,并使用检查点密集的git工作流。
4. LLM上下文管理器
开源工具使用分支算法防止上下文污染/腐烂,帮助管理大型语言模型的对话历史,提高长期对话质量。
5. gut自然语言git命令工具
人机交互CLI工具,将自然语言转换为git命令,使版本控制更易用,特别适合非技术用户。
6. HQQ量化实现高效推理
使用HQQ量化和torchao库,可在仅5.4GB内存中运行llama3.1-8B模型,实现高效推理而精度损失最小。
7. Wan 2.2视频生成预览
阿里巴巴Wan 2.2视频模型即将发布,预览显示支持1280x720分辨率、30FPS的5秒视频生成,社区关注其VRAM需求是否仍保持在24GB内。
8. GLM-4.1V-9B-Thinking多模态模型
清华GLM团队9B参数多模态模型,声称在OCR等任务上超越Qwen2.5-72B,用户报告其实用性显著优于传统OCR工具。
9. Perplexity金融股票筛选器
Perplexity推出自然语言驱动的股票筛选工具,用户可通过对话方式查询和分析股票数据,扩展其金融AI工具集。
10. OpenRouter服务器less架构
OpenRouter API完全运行在Cloudflare Workers无服务器架构上,正扩展支持大文件处理以实现多模态能力。