AINews - 2025-07-29
📰 十大AI新闻要点
1. GPT-5即将发布,性能大幅超越现有模型
OpenAI的GPT-5预计8月发布,Sam Altman称其”在几乎所有方面都比人类更聪明”。测试显示GPT-5能轻松击败Grok-4,并在两分钟内编写出完整的Cookie Clicker游戏。
2. Qwen3-235B开源模型发布,性能媲美顶级闭源模型
阿里巴巴Qwen团队发布Qwen3-235B-Thinking开源模型,采用新型GSPO强化学习算法,在Arena-hard v1基准测试中以89%胜率击败GPT-4-0314。
3. Runway推出Aleph视频编辑模型
Runway Aleph是新一代视频编辑模型,支持文本指令即时修复、转换和生成视频内容,可作为通用视频任务解决方案。
4. Claude Code新增自定义代理功能
Anthropic为Claude Code推出自定义代理团队功能,允许用户创建专门化的AI代理(如规划、编码、测试),但目前不支持为不同代理分配不同基础模型。
5. 微软GitHub Spark发布
微软CEO Satya Nadella宣布GitHub Spark,这是一款通过自然语言交互将想法转化为全栈应用的Copilot工具。
6. Perplexity Comet浏览器功能扩展
Perplexity的AI原生浏览器Comet新增功能包括自动创建Spotify播放列表、LinkedIn任务自动化,以及直接从餐厅订餐绕过聚合平台。
7. Google处理量突破千万亿token
DeepMind CEO Demis Hassabis透露,Google上个月处理了近千万亿(quadrillion)token,是前一个月的两倍多。
8. Meta将关闭Papers with Code平台
Meta宣布将关闭广受欢迎的研究平台Papers with Code,Hugging Face随即宣布将与Meta AI合作构建其替代品。
9. 机器人领域的Moravec悖论
NVIDIA的Jim Fan提出”机器人Moravec悖论”:对人类困难的复杂体操动作对机器人反而容易,而简单的清洁任务却极其困难,因为后者需要模拟复杂的现实物理环境。
10. 白宫发布防止”觉醒AI”备忘录
白宫命令联邦机构防止AI系统中的意识形态偏见,要求LLM优先考虑历史准确性、科学探究和客观性,这是对Google Gemini争议的直接回应。
🛠️ 十大工具产品要点
1. Qwen3-235B模型GGUF量化版本发布
Unsloth提供Qwen3-235B-Thinking的GGUF格式量化版本,在89GB统一内存或80GB RAM+8GB VRAM配置下可实现超过6token/s的推理速度。
2. LlamaIndex FlowMaker可视化代理工作流工具
LlamaIndex推出FlowMaker,这是一个开源的低代码工具,通过可视化拖拽界面构建自定义代理工作流,基于LlamaIndex.TS。
3. Wan 2.1文本到图像模型工作流
Wan 2.1 14B DiT模型支持原生高分辨率生成(如2304x1296+),配合NAG注意引导和特定采样器组合,在ComfyUI中提供定制工作流。
4. DSPy框架在多代理医生-患者沟通系统中的应用
斯坦福DSPy框架成功部署于罗马尼亚的多代理LLM医生-患者沟通系统,展示了上下文工程的实际应用价值。
5. Anthropic与Canva集成
Claude现在可以直接将文档转换为品牌视觉设计,与Canva平台深度集成,简化内容创建工作流。
6. GLM-4.1V-9B-Thinking多模态模型
清华GLM团队推出的9B参数多模态模型,在OCR等任务上号称超越Qwen2.5-72B,实际测试显示其OCR能力显著优于传统工具。
7. LLM上下文管理器工具
开源工具使用分支算法管理LLM上下文,有效防止上下文污染/腐化问题,提高长对话稳定性。
8. gut自然语言Git命令工具
人机交互CLI工具,将自然语言转换为git命令,使版本控制对非技术用户更友好。
9. HQQ量化实现llama3.1-8B仅需5.4GB内存
使用HQQ量化和torchao库,实现在仅5.4GB内存中高效运行llama3.1-8B模型,精度损失极小。
10. Wan 2.2视频生成模型预览
阿里巴巴Wan 2.2文本到视频模型即将发布,预览显示支持1280x720分辨率、30FPS的5秒视频生成,社区关注其VRAM需求和与Kling模型的对比。