github_trending_2026-01-26

1. browser-use/browser-use

Browser-Use是一个开源AI浏览器自动化框架,旨在让网站对AI智能体可访问。它通过Python库和云端服务,使开发者能轻松构建执行网页任务的智能体,如填写表单、购物比价。其核心优势是低延迟、支持自定义工具,并提供优化的专用大模型以提升任务完成效率。


2. remotion-dev/remotion

Remotion 是一个基于 React 的框架,支持使用代码编程式创建视频。它允许开发者利用熟悉的 Web 技术(如 CSS、Canvas、SVG)和 React 组件化优势,通过变量、函数和 API 动态生成视频内容,适用于数据可视化、个性化视频生成等自动化场景。


3. VectifyAI/PageIndex

PageIndex是一个基于推理的RAG系统,无需向量数据库和文档分块。它通过构建文档的层次化树状索引,利用大语言模型进行推理式检索,模拟人类专家查阅复杂文档的思维过程。该系统在专业长文档分析中实现了高精度检索,特别适用于金融、法律等领域的文档问答场景。


4. Blaizzy/mlx-audio

基于苹果MLX框架的高效音频处理库,提供文本转语音、语音转文本及语音转换功能,专为Apple Silicon优化。支持多语言、语音克隆、量化推理及Web界面,适用于本地化语音应用开发。


5. OpenBMB/UltraRAG

UltraRAG v3 是一个基于模型上下文协议的低代码框架,用于构建复杂RAG流程。它将检索、生成等核心组件模块化为独立服务,开发者仅需YAML配置即可编排条件分支、循环等复杂逻辑,极大降低了研发门槛。其内置可视化IDE支持流程编排与调试,并能一键生成交互式对话应用,显著加速从算法研究到原型部署的全过程。


6. block/goose

Goose是一款本地化、可扩展的开源AI智能体,能自动化执行复杂开发任务。它超越代码建议,可自主完成项目构建、代码编写执行、调试及工作流编排,并支持任意LLM与多模型配置。适用于快速原型开发与工程流程管理,帮助开发者提升效率。


7. simstudioai/sim

Sim是一个开源AI智能体工作流平台,提供可视化画布快速构建和部署AI代理。支持集成向量数据库实现基于文档的智能问答,并内置Copilot辅助生成与调试。可云端使用或通过Docker本地部署,适合开发者快速搭建企业级AI应用。


8. microsoft/VibeVoice

微软开源的VibeVoice是一系列前沿语音AI模型,包含长语音识别与合成功能。其ASR模型可单次处理60分钟音频,输出带说话人、时间戳的结构化文本;TTS模型支持长达90分钟的多说话人对话合成。核心技术采用7.5Hz超低帧率语音分词器与下一代扩散模型,在保证音质的同时显著提升长序列处理效率,适用于播客、会议转录等长音频场景。


9. putyy/res-downloader

一款基于Go和Wails的跨平台资源下载工具,支持视频号、抖音、小红书等主流平台及m3u8、直播流的资源嗅探与下载。通过代理抓包技术简化操作,界面友好,适合需要便捷获取网络多媒体内容的普通用户和技术爱好者。


10. AI4Finance-Foundation/FinRobot

FinRobot是一个基于大语言模型的开源金融AI智能体平台,集成了感知、决策与执行工作流,支持自动化股票分析、报告生成与风险评估。其核心创新在于采用金融思维链技术,并构建了多源模型调度层,为专业投资分析与量化研究提供可扩展的解决方案。