AINews - 2025-09-27
📰 十大AI新闻要点
1. OpenAI发布GDPVal基准测试
OpenAI推出GDPVal评估框架,涵盖44个职业的1,320项经济价值任务,首次系统评估AI模型在真实工作场景中的表现。结果显示Claude 4.1 Opus接近人类专家水平,GPT-5高端版本略逊于Opus。
2. 谷歌推出Gemini Robotics 1.5机器人平台
Google DeepMind发布基于Gemini-1.5的多模态机器人控制平台,支持长时程任务规划和跨 embodiment 转移,演示了衣物分类、场景重置等复杂操作能力。
3. DeepMind展示Veo 3零样本视频推理能力
Veo 3视频模型展现出零样本分割、物理属性推理、工具使用模拟等能力,研究人员提出”Chain-of-Frames”作为视觉思维链方法。
4. Anthropic停止招聘应届毕业生
Anthropic首席产品官Mike Krieger表示公司已基本停止招聘应届毕业生,因Claude等AI工具能够替代初级开发工作,预测大多数编程任务将在1年内自动化。
5. 苹果与Anthropic就LLM推理能力展开学术争论
苹果ML团队发布论文质疑LLM的真实推理能力,Anthropic回应称评估方法存在偏差,引发关于AI是否真正具备推理能力的学术讨论。
6. 微软公布LLM推理能耗研究结果
微软研究显示平均聊天查询能耗约0.34Wh,长推理任务约4.3Wh,指出公开估计值普遍高估4-20倍,存在8-20倍的能效提升空间。
7. 阿里巴巴公布Qwen极端扩展路线图
阿里巴巴Qwen路线图规划从1M扩展到100M上下文长度,参数从约1T扩展到10T,训练数据从10T扩展到100T tokens,展现极端扩展野心。
8. 腾讯预告开源图像模型Hunyuan Image 3.0
腾讯宣布将于9月28日发布号称”世界最强”的开源文本到图像模型Hunyuan Image 3.0,传闻需要96GB显存。
9. 中国Fenghua No.3 GPU支持CUDA和DirectX
中国Fenghua No.3 GPU声称支持DirectX 12、Vulkan 1.2、OpenGL 4.6和CUDA,可能打破NVIDIA在AI计算领域的垄断地位。
10. OpenAI推出ChatGPT Pulse主动助手功能
OpenAI为Pro用户推出ChatGPT Pulse功能,提供基于聊天历史和连接应用的主动每日更新,标志从被动聊天向主动助手的转型。
🛠️ 十大工具产品要点
1. Kimi推出”OK Computer”代理模式
Kimi发布类操作系统的代理模式,具备自有文件系统、浏览器、终端和更长工具预算,支持单提示生成网站、可编辑幻灯片等复杂任务。
2. GitHub Copilot CLI公开预览版发布
GitHub推出Copilot CLI本地终端代理,支持MCP协议,提供清晰的按请求计费模式,为开发者提供本地编码助手体验。
3. Factory AI获得5000万美元融资推出Droids代理
Factory AI推出模型无关的软件开发代理,在Terminal-Bench排名第一,支持CLI/IDE/Slack/Linear/浏览器等多种环境。
4. Perplexity推出搜索API
Perplexity发布实时网络搜索API,为LLM和代理提供高质量网络信息检索,声称在延迟和质量方面优于Google SERP。
5. Ollama推出网络搜索API和MCP服务器
Ollama新增网络搜索功能,桥接本地/云端模型与实时网络信息,兼容Codex/cline/Goose等MCP客户端。
6. Reka Research推出”并行思考”API
Reka Research的API选项可生成多个候选推理链并通过验证器模型解析,在Research-Eval上提升4.2分,延迟几乎不变。
7. 谷歌发布EmbeddingGemma嵌入模型
谷歌推出308M参数的EmbeddingGemma编码器模型,在500M参数以下模型中领先MTEB基准,支持4-bit量化和128维嵌入。
8. Sakana AI开源ShinkaEvolve进化框架
Sakana AI发布样本高效的进化框架,使用LLM集成进行自适应父代采样和新颖性过滤,在circle packing等任务上达到SOTA。
9. LMCache开源KV缓存复用层
LMCache支持跨GPU/CPU/磁盘复用任何重复文本段,可将RAG成本降低4-10倍,提升吞吐量并减少TTFT。
10. 谷歌推出Chrome DevTools MCP
谷歌发布Chrome DevTools MCP服务器公开预览,允许AI代理通过CDP/Puppeteer控制实时Chrome会话,自动化测试和爬虫工作流。