ai_news_summary_2025-10-06

AINews - 2025-10-06

原文链接

经过约30小时测试，Claude Sonnet 4.5在编码任务上表现与Opus 4.1相当，具有抛光良好的用户体验，但不如GPT-5 Codex强大。Anthropic强调其在网络安全任务上表现优异，某些任务甚至优于Opus 4.1。

Grok Code Fast据称在较低成本下实现了比Claude 4.5和GPT-5 Codex更高的差异编辑成功率，需要独立验证，但用户更关注编辑可靠性而非原始指标。

Google的Jules编码代理经过一周的预热后推出公共API，使其成为”可编程团队成员”，支持工具集成和CI/CD流水线，标志着编码代理向生产环境迈进。

Sora 2现已成为App Store排名第一的应用，团队正在快速迭代和发放邀请。高质量15秒视频片段正在推出，同时催生了包括水印移除工作流在内的新创作者工具生态。

菲尔兹奖得主Terence Tao公开记录使用GPT-5和工具来搜索数学反例和启发式方法，这被认为是人类+AI研究工作流程的重要时刻。

Sakana AI与Daiwa证券签署多年期约3400万美元协议，共同构建”全面资产咨询平台”，使用Sakana模型进行研究生成、市场分析和投资组合构建。

xLSTM在固定FLOP和固定损失两种机制下都报告了在跨熵指标上帕累托优于Transformer，并在下游推理效率方面获得收益。

Perplexity的AI优先Comet浏览器退出等待名单，向全球用户免费开放，支持并行代理任务执行，早期采用者称赞其速度和更智能的搜索功能。

华为提出SINQ后训练LLM量化方案，添加每矩阵第二轴尺度和快速Sinkhorn-Knopp启发归一化，报告显示比AWQ快约30倍，在4位及以下精度上改进了困惑度。

Vision/LM Arena显示顶级梯队异常接近：Sonnet 4.5（标准和32k Thinking）、Claude Opus 4.1和Gemini 2.5 Pro四强并列第一，OpenAI模型都在一个评分点内。

可通过npm install -g @google/jules安装，提供异步编码代理的终端界面，从网页代理演变为命令行伴侣，支持工具和CI/CD集成。

规范的Chrome DevTools MCP发布，为代理提供标准化的浏览器调试和自动化接口，用户展示了与claude-cli在DeepSeek浏览器测试中的工作流程。

TorchAO现在支持INT4量化（INT4mm），使用从tinygemm库适配的TensorCore内核，针对A100部署的高吞吐量场景，贡献者可以扩展INT4路径和优化操作符覆盖。

Jeremy Howard宣布Solveit公开发布，这是Answer.AI内部使用一年的AI增强开发平台，包含5周直播课程，旨在通过紧密反馈循环对抗”AI疲劳”。

KernelBench项目系统化GPU性能评估，包含250个精选PyTorch ML工作负载，引入speedup度量fast_p，即使前沿推理模型大多也无法超越PyTorch基线。

工程师协调使用FlashMLA和TileLang在CUDA中实现DeepSeek的稀疏注意力，文档详细介绍了部分RoPE、FP8稀疏内核和Hopper特定优化。

在RTX 4070上，Qwen3-0.6B BF16使用vLLM在31个请求中达到约4300 t/s，远高于transformers的10-11 t/s，但低于LM Studio的llamacpp约200 t/s。

Hugging Face TRL重现了”无遗憾LoRA”，在熟悉的API下暴露了更高性能的LoRA实现，为参数高效微调提供改进方案。

Ollama提供简单方式使用工具调用（函数调用），本质上设置了一个与OpenAI API兼容的本地服务器，建议从小模型开始测试兼容性。

Red Hat发布FP8量化的Qwen3-VL-235B-A22B-Instruct，减少约50%磁盘/GPU内存使用，同时保持>99.6%的准确率保留。