Reddit ML - 2026-01-03
1. [D] 开源Qwen3-0.6B循环注意力机制:带可学习门控的双通道全局+局部注意力(含代码、权重与训练脚本)
作者为Qwen3-0.6B模型引入了一种名为“循环注意力”的架构调整,通过结合全局和局部注意力来提升性能。初步实验结果显示,其验证损失和困惑度均优于基线模型。相关代码和模型已开源。
作者: /u/Wittica | 发布于: 2026-01-02 12:05
2. [P] LEMMA:基于 Rust 的神经引导定理证明器,内置 220 余条数学规则
LEMMA是一个结合蒙特卡洛树搜索与神经策略网络的符号数学引擎,旨在通过神经引导提升传统符号求解器的搜索效率,并确保每一步变换都经过验证。
作者: /u/Federal_Ad1812 | 发布于: 2026-01-02 06:51
3. [讨论] 自荐专帖
这是一个用于社区自我推广的实验性帖子,鼓励发布个人项目、产品信息及合作需求,并需注明价格。禁止滥用和发布短链接。
作者: /u/AutoModerator | 发布于: 2026-01-02 03:15
4. 应用机器学习论文投稿推荐平台 [R]
作者开发了具有类人思维的象棋AI模型,寻求合适的学术会议或期刊(如IJCAI、TMLR)投稿。
作者: /u/Fantastic-Nerve-4056 | 发布于: 2026-01-02 17:54
5. 如何修剪视觉语言模型或大语言模型?
用户掌握深度学习模型剪枝基础,但不知如何对大模型(如VLM/LLM)进行操作,寻求相关知识与资源指导。
作者: /u/MinimumArtichoke5679 | 发布于: 2026-01-02 09:15
6. [D] WACV 2026 扩大参与奖学金结果公布
作者: /u/Forsaken-Order-7376 | 发布于: 2026-01-02 12:44
7. [R] 综述论文:具身智能大语言模型
介绍一篇关于自主性大语言模型的综述论文,探讨其推理、行动和交互能力如何相互促进,并展望未来研究方向。
作者: /u/pppeer | 发布于: 2026-01-02 12:25