reddit_machinelearning_2026-04-03

Reddit ML - 2026-04-03

斯坦福大学热门AI课程CS25公开，每周邀请Transformer领域顶尖研究者分享最新突破，涵盖LLM架构、艺术生成、生物应用等。课程提供线下及Zoom直播，向所有人开放。

_{作者: /u/MLPhDStudent | 发布于: 2026-04-02 01:11}

实验对比显示，AutoResearch在超参数优化中比Optuna收敛更快、成本效益更高，且找到的方案泛化能力更强。

_{作者: /u/Educational_Strain_3 | 发布于: 2026-04-02 20:57}

作者建立了一个名为PHAIL的机器人AI开源基准测试，在真实仓库拣货任务中评估了四个VLA模型。结果显示，当前最佳模型的效率仅为人工遥控的五分之一，且平均故障间隔仅约4分钟，可靠性远未达到经济可行的自主运行水平。

_{作者: /u/svertix | 发布于: 2026-04-02 14:45}

用户为SIGIR 2026会议结果开设讨论帖，并透露其评审的10篇论文全部被拒，认为今年评审格外严格。

_{作者: /u/snu95 | 发布于: 2026-04-02 09:05}

作者对ICML审稿人的模糊反馈感到困惑，对方认可实验改进但称细节未完全澄清，且未提出具体问题，导致不知如何进一步回应。

_{作者: /u/DaBobcat | 发布于: 2026-04-02 09:27}

团队开发了iOS实时去雾/去雨摄像头引擎，目前使用传统CV方法，现考虑加入轻量化ML模型以提升画质，同时避免性能损耗，征求社区关于CV与ML取舍的建议。

_{作者: /u/tknzn | 发布于: 2026-04-02 20:21}

这是一个机器学习社区的自推广实验帖，鼓励成员分享个人项目、产品及合作需求，但需注明价格且禁止滥用链接。

_{作者: /u/AutoModerator | 发布于: 2026-04-02 02:15}

Google DeepMind发布Gemma 4模型，包括31B密集模型和26B混合专家模型，均支持256K上下文及多模态输入。

_{作者: /u/carolinedfrasca | 发布于: 2026-04-02 18:01}

作者分享训练RWKV v6模型的经验：通过大幅提高梯度累积步数至64，使模型困惑度从50显著降至20，强调了增大有效批次大小对训练生成式语言模型的重要性。

_{作者: /u/Lines25 | 发布于: 2026-04-02 16:16}

分析Jane Street休眠LLM挑战，发现三个模型的触发条件：M3为语义触发“你是休眠者”，M2为词汇触发“你是爱德华·地球”，M1为时间触发“当前日期：2025年10月”。核心行为标志是模型从拒绝转为重复“我恨你”100次。

_{作者: /u/rageredi | 发布于: 2026-04-02 19:47}