ai_news_summary_2026-01-25

AINews - 2026-01-25

原文链接

AI医疗公司OpenEvidence完成新一轮融资，估值达到120亿美元，较去年增长12倍。公司CEO称其产品已被美国40%的医生使用，去年年收入超过1亿美元，估值倍数高达120倍。

Anthropic公开发布了用于直接训练Claude模型的“宪法”文件，详细描述了期望的模型行为和价值观。该文件被定位为一份“活文件”，并采用CC0 1.0许可发布，以鼓励社区重用和改编。

客户互动平台Podium宣布其AI代理业务年经常性收入（ARR）已超过1亿美元，在约21个月内从零增长至此。公司已部署超过1万个名为“Jerry”的AI代理，将其定位为使用现有产品的“AI操作员”，以解决中小企业的人力限制问题。

Runway发布了新一代图像转视频模型Gen-4.5，重点提升了视频的叙事连贯性和一致性。早期采用者认为，“故事构建”能力是评估视频模型的最佳方法。

AI云服务初创公司Runpod宣布其ARR已达到1.2亿美元。该公司四年前从一个Reddit帖子起步，其快速增长验证了面向开发者的“GPU云”是一个持久市场，而不仅仅是炒作周期的产物。

Cognition推出了Devin Review，这是一个新的PR阅读界面，旨在通过重新按重要性排序差异、识别重复/复制代码、添加聊天层以及与GitHub评论集成来减少“代码混乱”。这标志着AI编程工具的重点正从代码生成转向代码审查和理解。

Google宣布与可汗学院建立合作伙伴关系，首先推出基于Gemini的“写作教练”。该工具旨在指导学生进行起草和修改，而不是直接生成最终答案，体现了AI在教育中引导式辅助的新趋势。

xAI联合创始人Greg Yang宣布，因被诊断出莱姆病并受慢性疲劳和免疫问题困扰，他将转为公司的顾问角色，以专注于个人健康恢复。这一消息引发了AI社区的广泛关注和支持。

Lightning AI与Voltage Park宣布合并，由Lightning AI的CEO William Falcon和前Voltage Park CEO Ozan Kaya领导新实体。此举被视为对Runpod等竞争对手的回应，标志着“托管GPU基础设施”领域的整合浪潮正在加速。

LMArena的视频竞技场（Video Arena）正式在网页端推出，允许用户在约15个前沿视频模型之间进行头对头的生成比较，并通过社区投票驱动排行榜。不过，平台目前限制每24小时仅可进行3次生成。

AirLLM提出了一种顺序层加载（加载→计算→释放）的核心方法，可选压缩，提供类似Hugging Face的API。它声称能够在极低的VRAM下运行超大模型，例如在8GB VRAM上运行405B参数的Llama 3.1模型，但工程师需注意其吞吐量和延迟方面的限制。

Prefect推出Horizon平台，将其定位为AI代理与企业工具/数据之间的“上下文层”接口。该平台提供托管部署、注册表/目录、带RBAC和审计日志的网关，以及面向业务用户的“代理化界面”，旨在解决MCP协议在组织级部署和治理方面的不足。

LangChain宣布其Agent Builder功能正式发布（GA），并推出了一个与Tavily、PagerDuty、Box等域合作伙伴共同构建的模板库。此举旨在减少从提示词到可运行代理的摩擦，加速代理应用的开发。

APEX-Agents是一个新的基准测试，用于评估AI代理在Google Workspace中执行“专业服务”类长周期任务的能力。早期Pass@1分数较低（Gemini 3 Flash High 24.0%，GPT-5.2 High 23.0%），表明当前“代理自主性”仍然脆弱。

GitHub Copilot CLI新增了askUserQuestionTool工具，允许代理在遇到模糊指令（例如混乱的rebase操作）时向用户提出澄清性问题。这标志着CLI代理正从纯粹的自动补全向交互式、使用工具的方向演进。

Mixedbread.ai声称其开源的1700万参数ColBERT模型在LongEmbed基准测试中击败了80亿参数的嵌入模型，并且他们以低于50毫秒的p50延迟服务着超过10亿份文档。这体现了检索系统向细粒度、多向量系统发展的趋势。

开发者Akash构建并开源了Coderrr，这是一个模仿Claude Code功能的免费替代品。项目正在GitHub上寻求反馈和贡献，为代码生成工具生态提供了新的选择。

Inforno是一款开源桌面应用程序，允许用户通过OpenRouter和Ollama与多个LLM进行并排聊天，并将聊天历史保存为.rno文件。该应用内置俄语支持，提供了管理多模型对话的新界面。

开源推理引擎llama.cpp修复了一个影响GLM-4.7-Flash-GGUF模型的路由/函数问题。修复后，模型需要重新下载并根据Z.ai的模型卡参数进行配置，输出质量应得到显著改善。

Modular公司推出了一系列“GPU Puzzles”，作为新手学习Mojo编程语言的实践途径。谜题的难度取决于用户技能水平，但目前一些特定于NVIDIA或使用PyTorch互操作的谜题可能无法工作。