ai_news_summary_2026-01-26

AINews - 2026-01-26

原文链接

📰 十大AI新闻要点

1. OpenEvidence完成120亿美元融资，估值一年内增长12倍

医疗AI公司OpenEvidence完成新一轮融资，估值达到120亿美元，是去年估值的12倍。公司CEO称其产品已被美国40%的医生使用，去年年收入超过1亿美元，这意味着其估值达到了年收入的120倍。

2. Anthropic发布Claude“宪法”并采用CC0许可

Anthropic发布了用于直接训练Claude模型的“宪法”，详细描述了期望的行为和价值观。该宪法被定位为一份“活文件”，并采用CC0 1.0许可发布，以鼓励社区的重用和改编。

3. Podium宣布其AI代理业务ARR超1亿美元，部署超1万个“AI员工”

商业软件公司Podium宣布其AI代理业务年经常性收入（ARR）已超过1亿美元，在约21个月内从0增长至此。公司已部署超过1万个名为“Jerry”的AI代理，旨在为中小企业提供端到端的自动化运营服务。

4. Runway发布Gen-4.5图像转视频模型，强调叙事连贯性

Runway发布了新一代图像转视频模型Gen-4.5，重点提升了视频的叙事连贯性和镜头控制能力。早期用户评价认为，构建“故事”的能力是评估视频模型的最佳方法。

5. Cognition推出Devin Review代码审查工具

AI编程公司Cognition推出了Devin Review，这是一个新的PR阅读界面，旨在通过重新排序重要变更、识别重复代码、添加聊天层并与GitHub评论集成来减少代码审查中的“草率”问题。用户可通过URL替换或CLI工具使用。

6. 谷歌Gemini与可汗学院合作推出“写作教练”

谷歌宣布与可汗学院建立合作伙伴关系，在Gemini应用中推出“写作教练”功能。该工具旨在指导学生完成起草和修改过程，而不是直接生成最终答案，标志着AI在教育领域应用的新方向。

7. Runpod年收入达1.2亿美元，验证GPU云服务商业模式

AI云基础设施初创公司Runpod宣布其年经常性收入（ARR）已达到1.2亿美元。该公司四年前从一个Reddit帖子起步，其快速增长验证了面向开发者的“GPU云”是一个持久且有利可图的细分市场。

8. xAI联合创始人Greg Yang因健康问题转为顾问角色

xAI联合创始人Greg Yang宣布，因被诊断出莱姆病并受慢性疲劳等症状困扰，他将从日常工作中退下，转为公司的顾问角色。这一消息引发了AI社区对其健康的广泛关注和支持。

9. Lightning AI与Voltage Park合并，加剧GPU基础设施竞争

AI开发平台Lightning AI与GPU云提供商Voltage Park宣布合并。合并后的实体由Lightning AI的William Falcon和Voltage Park的Ozan Kaya领导，被视为Runpod等公司的潜在竞争对手，标志着AI基础设施领域的整合加速。

10. 社区主导的AI模型评估平台LMArena文本对战投票数突破500万

开源评估平台LMArena宣布，其“文本竞技场”功能收到的社区对战投票总数已超过500万次。这一里程碑表明，大规模、实时的A/B测试正日益影响人们对前沿AI模型的认知和评估。

🛠️ 十大工具产品要点

1. AirLLM：实现极低VRAM需求的大模型推理

AirLLM提出了一种通过逐层顺序加载（加载->计算->释放）模型参数的方法，声称可以在仅4GB VRAM上运行700亿参数模型，甚至在8GB VRAM上“原则上可能”运行4050亿参数的Llama 3.1模型。它提供了类似Hugging Face的API，支持CPU/GPU和Linux/macOS。

2. Prefect Horizon：定位为AI代理的“上下文层”平台

工作流编排平台Prefect推出了Horizon，旨在解决企业级AI代理部署的治理问题。它超越了MCP协议，提供了托管部署、工具注册/目录、带RBAC和审计日志的网关，以及面向业务用户的“代理界面”。

3. LangChain发布Agent Builder GA及模板库

LangChain宣布其Agent Builder功能正式发布（GA），并推出了一个与Tavily、PagerDuty、Box等域合作伙伴共同构建的模板库。此举旨在减少从提示词到可运行代理的摩擦，加速代理应用的开发。

4. CopilotKit教程：构建全栈Deep Agent应用

CopilotKit发布了一个教程，演示如何构建一个完整的Deep Agent全栈应用，流程包括简历摄取、技能提取、集成网络搜索的子代理以及流式UI。该教程旨在解决当前AI代理生态中“缺失的UI/应用层”问题。

5. APEX-Agents：评估长周期专业服务任务的基准

APEX-Agents是一个新的基准测试，用于评估AI代理在Google Workspace环境中执行长周期“专业服务”任务的能力。早期Pass@1分数较低（如Gemini 3 Flash High为24.0%），表明当前“代理自主性”仍然脆弱。

6. Video Arena：在线视频模型对战平台上线

LMArena的视频模型对战平台“Video Arena”现已上线网页版。用户可以在约15个前沿视频生成模型之间进行头对头生成比较，并通过社区投票驱动排行榜。目前平台有每24小时3次生成的限制。

7. Inforno：支持多模型并排聊天的开源桌面应用

Inforno是一款开源桌面应用程序，利用OpenRouter和Ollama，允许用户与多个LLM并排聊天，并将聊天历史保存为.rno文件。该应用内置俄语支持，提供了灵活的多模型交互体验。

8. Coderrr：一个免费开源的Claude Code替代品

开发者Akash构建了Coderrr，这是一个免费开源的代码生成工具，旨在成为Claude Code的替代品。项目正在GitHub上寻求反馈和贡献，展示了社区对创新代码生成工具的持续探索。

9. MCP Inspector存在401错误重认证缺陷

模型上下文协议（MCP）的官方检查工具MCP Inspector被曝存在一个缺陷：在连接或工具调用过程中遇到401错误时无法重新进行身份验证。当前建议的解决方法是仅使用VS Code进行初始连接。

10. GitHub Copilot CLI新增交互式提问工具

GitHub Copilot CLI新增了一个askUserQuestionTool工具，允许AI在遇到模糊指令（例如混乱的代码变基）时向用户提出澄清性问题。这标志着CLI代理正从纯自动补全向交互式工具使用演进。