ai_news_summary_2025-08-01

AINews - 2025-08-01

原文链接

中国实验室7月集中发布多个高性能开源模型，包括Zhipu AI的GLM-4.5（355B MoE）、阿里Qwen3-235B系列和Moonshot AI的Kimi K2（1T MoE），均采用宽松许可证。分析师指出西方开源进度放缓可能造成竞争劣势。

GLM-4.5（355B参数MoE）和轻量版GLM-4.5-Air在部分基准测试超越Gemini 2.5 Pro，接近Claude 4 Opus水平。因需求激增，公司正紧急扩容计算资源，社区已快速适配MLX/DeepInfra平台。

阿里Qwen3 Coder在Cline测试中仅5.32%编辑失败率，与Claude Sonnet 4持平。30B MoE版本支持256K上下文，已可通过MLX/Ollama本地运行，成本仅$0.3-0.45/百万token。

马斯克旗下xAI发布Grok Imagine进入等待名单，同期Wan2.2视频模型展示创新I2V技术——每潜在帧独立去噪时间步，理论上支持无限长视频生成。

扎克伯格声明因安全考虑将限制最先进模型的开源，标志从Llama系列宽松政策转向。社区批评其违背早期开放承诺，但实际影响有限因现有开源模型已超越Llama 4。

新视频模型只需提示词即可完成”昼夜转换”、”场景去车”等复杂编辑，对比传统需多步骤手动处理。展示案例包括爆炸特效添加。

结合ALST、FlashAttention-3和Liger-Kernel技术，Llama-8B模型在单张H200上突破120万序列长度训练，int64索引问题已获修复。

AMD工程师开始为llama.cpp提交代码，预示该流行推理框架将获得更广泛硬件支持，可能改变当前NVIDIA主导的AI加速格局。

ChatGPT macOS客户端代码泄露”gpt-5-auto”和”gpt-5-reasoning”模型选项，配合官方推特神秘日文预告，强烈暗示GPT-5即将发布。

顶尖AI研究者接连拒绝Meta天价报价，引发行业对神秘竞品公司的猜测。同期讨论指出能源供给已成比GPU资本更严重的算力扩展瓶颈。

量化版Qwen3-30B-A3B可在消费级笔记本无GPU下实现5-10 token/s速度，社区提供GGUF格式适配llama.cpp，复杂任务建议输出长度设为81k token。

整合WAN 2.2高/低模块与2.1输出块，支持4步1CFG采样，保留2.1 LoRA兼容性。12GB显卡实测T2V性能强劲但输出多样性略有降低。

新增邮件/短信/会议预约起草功能，通过系统意图调用保护隐私。Android实现仅预填内容字段，需用户手动指定收件人。

Keras之父发布免费开源GUI工具，支持神经网络可视化设计，降低深度学习入门门槛。

提供6种上下文工程实践的视频代码示例，包括自修正RAG代理构建方案，LangSmith Traces新增服务日志集成。

内置Perplexity搜索的浏览器完成联合航空订票全流程（含选座），展示复杂任务自动化潜力。

中国StepFun公司发布Attention-FFN解耦的推理系统通信库，优化大模型分布式推理效率。

轻量级嵌入式搜索引擎私有测试启动，面向机器人/移动/IoT场景，实现本地化向量检索。

包含nanotron预训练、TRL对齐和100+中间检查点的全栈代码Apache 2.0发布。

单参考图像即可维持多帧角色一致性，解决AI视频生成中的形象漂移问题。