ai_news_summary_2026-01-25

AINews - 2026-01-25

原文链接

📰 十大AI新闻要点

1. OpenEvidence完成120亿美元融资,估值一年内增长12倍

AI医疗公司OpenEvidence完成新一轮融资,估值达到120亿美元,较去年增长12倍。公司CEO称其产品已被美国40%的医生使用,去年年收入超过1亿美元,估值倍数高达120倍。


2. Anthropic发布Claude“宪法”并采用CC0许可

Anthropic公开发布了用于直接训练Claude模型的“宪法”文件,详细描述了期望的模型行为和价值观。该文件被定位为一份“活文件”,并采用CC0 1.0许可发布,以鼓励社区重用和改编。


3. Podium宣布其AI代理业务ARR超1亿美元,部署超1万个“AI员工”

客户互动平台Podium宣布其AI代理业务年经常性收入(ARR)已超过1亿美元,在约21个月内从零增长至此。公司已部署超过1万个名为“Jerry”的AI代理,将其定位为使用现有产品的“AI操作员”,以解决中小企业的人力限制问题。


4. Runway发布Gen-4.5图像转视频模型,强调叙事连贯性

Runway发布了新一代图像转视频模型Gen-4.5,重点提升了视频的叙事连贯性和一致性。早期采用者认为,“故事构建”能力是评估视频模型的最佳方法。


5. Runpod年经常性收入达到1.2亿美元,验证GPU云服务市场

AI云服务初创公司Runpod宣布其ARR已达到1.2亿美元。该公司四年前从一个Reddit帖子起步,其快速增长验证了面向开发者的“GPU云”是一个持久市场,而不仅仅是炒作周期的产物。


6. Cognition推出Devin Review代码审查工具,聚焦理解而非生成

Cognition推出了Devin Review,这是一个新的PR阅读界面,旨在通过重新按重要性排序差异、识别重复/复制代码、添加聊天层以及与GitHub评论集成来减少“代码混乱”。这标志着AI编程工具的重点正从代码生成转向代码审查和理解。


7. Google与可汗学院合作推出Gemini“写作教练”

Google宣布与可汗学院建立合作伙伴关系,首先推出基于Gemini的“写作教练”。该工具旨在指导学生进行起草和修改,而不是直接生成最终答案,体现了AI在教育中引导式辅助的新趋势。


8. xAI联合创始人Greg Yang因健康问题转为顾问角色

xAI联合创始人Greg Yang宣布,因被诊断出莱姆病并受慢性疲劳和免疫问题困扰,他将转为公司的顾问角色,以专注于个人健康恢复。这一消息引发了AI社区的广泛关注和支持。


9. Lightning AI与Voltage Park合并,加剧GPU基础设施竞争

Lightning AI与Voltage Park宣布合并,由Lightning AI的CEO William Falcon和前Voltage Park CEO Ozan Kaya领导新实体。此举被视为对Runpod等竞争对手的回应,标志着“托管GPU基础设施”领域的整合浪潮正在加速。


10. 社区评测平台LMArena视频竞技场正式上线

LMArena的视频竞技场(Video Arena)正式在网页端推出,允许用户在约15个前沿视频模型之间进行头对头的生成比较,并通过社区投票驱动排行榜。不过,平台目前限制每24小时仅可进行3次生成。


🛠️ 十大工具产品要点

1. AirLLM:通过逐层流式加载实现极低VRAM推理

AirLLM提出了一种顺序层加载(加载→计算→释放)的核心方法,可选压缩,提供类似Hugging Face的API。它声称能够在极低的VRAM下运行超大模型,例如在8GB VRAM上运行405B参数的Llama 3.1模型,但工程师需注意其吞吐量和延迟方面的限制。


2. Prefect Horizon:定位为连接代理与企业工具的“上下文层”平台

Prefect推出Horizon平台,将其定位为AI代理与企业工具/数据之间的“上下文层”接口。该平台提供托管部署、注册表/目录、带RBAC和审计日志的网关,以及面向业务用户的“代理化界面”,旨在解决MCP协议在组织级部署和治理方面的不足。


3. LangChain发布Agent Builder GA及合作伙伴模板库

LangChain宣布其Agent Builder功能正式发布(GA),并推出了一个与Tavily、PagerDuty、Box等域合作伙伴共同构建的模板库。此举旨在减少从提示词到可运行代理的摩擦,加速代理应用的开发。


4. APEX-Agents:针对Google Workspace长周期任务的代理基准测试

APEX-Agents是一个新的基准测试,用于评估AI代理在Google Workspace中执行“专业服务”类长周期任务的能力。早期Pass@1分数较低(Gemini 3 Flash High 24.0%,GPT-5.2 High 23.0%),表明当前“代理自主性”仍然脆弱。


5. GitHub Copilot CLI新增交互式提问工具

GitHub Copilot CLI新增了askUserQuestionTool工具,允许代理在遇到模糊指令(例如混乱的rebase操作)时向用户提出澄清性问题。这标志着CLI代理正从纯粹的自动补全向交互式、使用工具的方向演进。


6. Mixedbread.ai声称其1700万参数ColBERT模型在检索任务上击败80亿参数嵌入模型

Mixedbread.ai声称其开源的1700万参数ColBERT模型在LongEmbed基准测试中击败了80亿参数的嵌入模型,并且他们以低于50毫秒的p50延迟服务着超过10亿份文档。这体现了检索系统向细粒度、多向量系统发展的趋势。


7. Coderrr:一个免费开源的Claude Code替代品

开发者Akash构建并开源了Coderrr,这是一个模仿Claude Code功能的免费替代品。项目正在GitHub上寻求反馈和贡献,为代码生成工具生态提供了新的选择。


8. Inforno:基于OpenRouter和Ollama的开源桌面多模型聊天应用

Inforno是一款开源桌面应用程序,允许用户通过OpenRouter和Ollama与多个LLM进行并排聊天,并将聊天历史保存为.rno文件。该应用内置俄语支持,提供了管理多模型对话的新界面。


9. llama.cpp修复影响GLM-4.7-Flash-GGUF的路由/函数问题

开源推理引擎llama.cpp修复了一个影响GLM-4.7-Flash-GGUF模型的路由/函数问题。修复后,模型需要重新下载并根据Z.ai的模型卡参数进行配置,输出质量应得到显著改善。


10. Modular推出GPU Puzzles用于学习Mojo编程语言

Modular公司推出了一系列“GPU Puzzles”,作为新手学习Mojo编程语言的实践途径。谜题的难度取决于用户技能水平,但目前一些特定于NVIDIA或使用PyTorch互操作的谜题可能无法工作。