ai_news_summary_2025-11-13

AINews - 2025-11-13

原文链接

GPT-5在Sudoku-Bench测试中解决了33%的谜题，是之前领先模型的两倍，成为首个解决9x9变体的LLM。但67%的更难变体仍未解决，显示在元推理、空间逻辑和全局一致性方面仍存缺陷。

ERNIE-4.5-VL-28B-A3B-Thinking采用Apache 2.0许可，具有”超过30亿活跃参数”，声称在文档/图表理解方面达到SOTA，并在特定基准测试中超越Gemini 2.5 Pro和GPT-5 High。

Databricks ai_parse_document服务可将PDF/报告/图表转换为结构化数据，成本降低高达5倍，并与Lakehouse工具链深度集成，在文档任务上表现优于GPT-5和Claude等领先VLM。

开放计划旨在通过LLM生成的摘要使1亿篇科学论文可访问，发布包括10万摘要数据集、两个微调LLM和3D可视化器。

斯坦福HazyResearch的HipKittens在AMD GPU上比ROCm可组合内核基准实现高达2倍加速，为AMD密集型训练堆栈缩小差距。

Lightning Grasp程序化抓取生成在不同机器人手和挑战性物体上比之前SOTA快10-100倍，论文和代码已开源。

随着语音克隆技术快速发展，专家提出”语音同意门”概念，纽约州法律已反映”拟人化阻断器”相关努力，为构建语音功能的团队提供设计目标。

Google 11月Pixel更新包含基于Gemini的图像编辑/生成模型Nano Banana，集成到Messages和Photos中，社区分析其架构可能类似于Hunyuan Image 3。

1.5B参数推理模型在AIME 2024/2025、HMMT 2025和LiveCodeBench V5等基准测试中超越更大模型，挑战了更大模型必然更优的观念。

包含10,000小时视频、来自2,153名工厂工人的10.8亿帧数据，在真实工厂环境中收集，采用Apache 2.0许可，旨在解决人形机器人数据稀缺问题。

开发者构建的MCP服务器利用Gemini File Search对代码库进行语义/代码搜索，简化端到端”读取代码库的代理”系统构建。

Together AI与Collinear的”TraitMix”生成人物驱动代理交互，并与Together Evals集成进行工作流级评估，支持模拟驱动的代理行为开发。

W&B LEET是直接在终端中运行的实时离线运行监控TUI，适用于无浏览器的隔离/集群工作流。

QwenEdit-2509 LoRA用于照片到动漫转换，在风格化任务上优于仅提示方法，模型已在HuggingFace发布。

使用Gemma 3 12B本地LLM观察用户屏幕并模拟Twitch聊天界面，需要pillow、mss和requests等Python库。

Olares One MiniPC配备NVIDIA RTX 5090 Mobile GPU、24GB VRAM、96GB DDR5 RAM，运行开源Olares OS，售价3,000美元。

包含350B+ tokens、69种语言的教育资源、69个分类器和每种语言30万+ EDU标注，适用于学术/教育应用。

基于LlamaCloud构建的人寿保险承保代理处理大量医疗文档和承运商指南，展示代理的大规模非结构化文档工作流原型。

即将发布的LM Studio 0.4.0将支持插件，允许与ChatGPT或Perplexity等外部LLM提供商集成。

使用SUPIR、FaithDiff和ControlUnion的AI图像修复和放大工具，基于Diffusers和Gradio UI构建。