hacker_news_top_comments_2025-08-08

Hacker News 高赞评论 - 2025-08-08

1. beeflet在”GPT-5”话题下的新评论

或许我们无法通过随机文本预测模型来模拟更高层次的智能。

我并非AI研究员，但有些朋友从事这个领域。他们并不担心基于大语言模型(LLM)的通用人工智能(AGI)，因为随着训练数据量的增加，其效果提升正在递减。这可能就是瓶颈所在。

人类智能与LLM有着显著差异：人类学习所需的样本量少得多，泛化能力却强得多。而LLM往往只是复述训练数据中已有解决方案，这些方案通常在训练数据中已被充分记录。

话虽如此，要实现彻底改变世界的AI，AGI并非必要条件。现有的AI/机器学习(ML)/监督学习(SL)技术中，可能存在着比通用智能更具影响力的应用场景。搜索引擎就是一个例子——能够从多领域复述知识的能力在这里反而是优势。

_{作者: beeflet | 发布于: 2025-08-07 18:17}

2. 高频用户在”GPT-5”话题下的新评论

经常有人提出，一旦某家AI公司达到通用人工智能(AGI)的门槛，就会甩开其他竞争者。但有趣的是，至少到目前为止趋势恰恰相反：随着时间的推移和模型性能的提升，各家公司的表现反而越来越接近。目前GPT-5、Claude Opus、Grok 4和Gemini 2.5 Pro看起来都相当出色（比如它们基本都能解决中等难度的数学和编程问题）。

作为用户，感觉这场竞赛从未像现在这样势均力敌。虽然外推可能不太明智，但这让我对之前盛行的”硬起飞/赢家通吃”思维模式产生了更多怀疑。

很想知道这些公司的研究员怎么看——你们预计未来几年竞争对手的AI产品会继续保持这种激烈竞争、差距缩小的态势，还是会拉开差距？

_{作者: highfrequency | 发布于: 2025-08-07 18:05}

3. mtlynch在”GPT-5”话题下的新评论

他们那个SWE基准测试图表是怎么回事？[0]

GPT-5非思考模式标着52.8%准确率，但o3显示的柱形短得多，却标注69.1%。而4o的柱形和o3完全一样，却标着30.8%…

[0] https://i.postimg.cc/DzkZZLry/y-axis.png

_{作者: mtlynch | 发布于: 2025-08-07 17:10}

4. DecoPerson在”发送一次性验证码比密码更糟糕”中的新评论

这种攻击模式是：

用户访问恶意网站并注册账号

恶意网站显示”我们已发送验证邮件，请输入6位验证码！邮件将由GOOD平台发出，因为他们是我们的登录合作伙伴”

恶意网站的机器人使用用户邮箱在GOOD平台发起”邮件一次性验证码登录”流程

GOOD平台向用户邮箱发送一次性登录验证码

用户极可能信任这封邮件，因为它来自GOOD平台 - 如果不是合法登录，GOOD怎么会发邮件呢？

用户在恶意网站输入验证码

恶意网站利用该验证码以用户身份登录GOOD平台，从而完全控制用户的GOOD账户

这就是为什么”邮件发送一次性验证码”是最容易被钓鱼的认证方式之一。要阻止用户犯这个错误实在太难了。

“点击邮件中的链接”稍好一些，因为会直接跳转到GOOD官网，而把这个链接转发给恶意网站更麻烦也更可疑。但如果某些主流邮件服务突然决定拦截你的登录邮件或其中的登录链接，就会导致大量用户无法登录。

通行密钥(Passkeys)才是未来方向。密码管理器对通行密钥的支持已经相当完善。我可以肯定地说，即使用户丢失手机导致所有通行密钥失效，也比当前密码系统面临的钓鱼问题好千万倍。我宁愿让老奶奶去银行重新验证身份，也不愿看到她被钓鱼后失去所有积蓄。

_{作者: DecoPerson | 发布于: 2025-08-07 03:37}

5. pentamassiv在”Ask HN: 你是否后悔过开源某个项目？”中的新评论

我是一个模拟键盘鼠标输入的库的维护者。这个项目不是我创建的，但我接手了维护工作并几乎重写了所有代码。最近我发现Anthropic在他们的Claude桌面版中集成了这个库，可能是用于某个尚未发布的”计算机使用”类功能。注意到他们正好在负责这个功能的团队有个空缺职位，我就去应聘了。几个月后收到了拒绝信，理由是团队没时间面试更多候选人了。代码是MIT协议的，所以一切都没问题。像Anthropic这样的公司使用我的代码是件好事，但如果能从中获得些好处就更好了。关于这个话题我写了篇更详细的博客：

https://grell.dev/blog/ai_rejection

_{作者: pentamassiv | 发布于: 2025-08-05 22:59}

6. cco在”OpenAI开源模型”中的新评论

我觉得大家都没抓住重点。

gpt-oss:20b可是全球前十的模型（在MMLU基准测试中仅次于Gemini-2.5-Pro），而我刚刚就在去年买的M3芯片Macbook Air上本地运行了它。

我一直在笔记本和手机（Pixel 9 Pro）上测试各种本地模型，原以为还要一两年才能达到这种水平。

但现实是，今天我们就做到了。一个近乎顶尖的模型，仅需电费成本（基本可以忽略不计）就能在我的笔记本上运行。不需要每月200美元的订阅费，也不会消耗大量资源。

这真的太让人震撼了。

_{作者: cco | 发布于: 2025-08-05 21:13}

7. kridsdale3在”Claude Opus 4.1”中的新评论

根据公历和地球轨道运行轨迹，八月才刚刚开始。

_{作者: kridsdale3 | 发布于: 2025-08-05 18:26}

8. pitpatagain在”Ozempic试验显示抗衰老效果”中的新评论

这项研究专门针对HIV相关脂肪代谢异常患者，这类症状与加速衰老有关。尚不清楚该研究结果对普通人群的意义。

_{作者: pitpatagain | 发布于: 2025-08-05 17:39}

9. simonw在”助我摆脱AI领域10倍工程师冒名顶替综合症的方法”中的新评论

我发现自己非常认同这篇文章的许多观点。

虽然我是AI辅助开发的坚定支持者，但那些声称能提升10倍效率的说法从未让我信服。根据我的估算，大语言模型(LLM)让我在编写代码这部分工作上效率提高了2-5倍，而编码本身只占我作为软件工程师工作的一小部分。

这与文章中的假设相差不远。文章中提到：

如果听说AI能让许多工程师在某些任务上提速20-50%，我不会感到惊讶。但软件开发瓶颈的本质意味着这不会转化为20%的整体效率提升，更不用说10倍提升了。

我认为这个估计还是偏保守的——真正懂得有效使用这些工具的工程师获得的提升应该不止0.2倍——但我确实认为软件开发中涉及的其他所有因素，使得10倍提升在大多数情况下都不切实际。

_{作者: simonw | 发布于: 2025-08-05 14:41}

10. modeless在《Genie 3：世界模型的新前沿》发表新评论

能在数分钟内保持一致性，还能实时运行720p分辨率？我没想到世界模型已经发展到这种程度了。

Genie 3的连贯性是一种涌现能力

所以这只是模型规模扩大的自然结果，而非架构刻意调整的产物？

编辑：这里有一些实际测试者的局限性评价：https://x.com/tejasdkulkarni/status/1952737669894574264

物理模拟仍是难点，在心理学经典直觉物理实验（积木塔）中会出现明显错误

社交和多智能体交互处理困难，1v1格斗游戏无法运行

长指令跟随和简单组合游戏逻辑失效（例如收集钥匙/点数后开门等）

动作空间有限

距离真正的游戏引擎还很遥远，但已清晰展现了未来图景

即便存在这些局限，这依然令人震撼。这让我意识到世界模型在机器人和现实AI中的应用可能远超预期。未来的机器人或许能在”梦境”中学习…

_{作者: modeless | 发布于: 2025-08-05 14:39}

11. rob74在”万事达推卸下架成人游戏责任”中的新评论

万事达卡的声明非常明确：

“简而言之，我们允许所有合法的交易通过我们的网络。”

但他们”规则5.12.7”却…没那么明确：

“商户不得向收单行提交，客户不得向交换系统提交任何非法交易，或根据本公司单方面判断可能损害本公司商誉或对商标产生负面影响的交易。”

所以现在到底是哪个标准？是所有合法交易（非常明确）还是仅限万事达主观认为不会”产生负面影响”的合法交易（含糊得要命）？

_{作者: rob74 | 发布于: 2025-08-04 15:15}

12. fxtentacle在”Perplexity使用隐蔽未声明的爬虫规避禁止抓取指令”话题中发表新评论

我觉得这个问题很难解决：

作为人类用户请求访问网站时，理应看到完整内容。这一点大家都有共识。

如果我选择让电脑上的软件在显示内容前进行修改（比如在用户代理里安装广告拦截器），这是我的自由选择，网站无权获知这种修改。多数用户认同这点，虽然有些网站会试图诱导你修改本地运行的软件。

更进一步说，当原始网页充斥着广告、JavaScript弹窗导致内容几乎无法使用时，如果我使用LLM来摘要内容，那么LLM代我访问网站的行为，在法律层面上与Firefox浏览器代我访问网站的行为有何本质区别？

_{作者: fxtentacle | 发布于: 2025-08-04 14:12}

13. Balgair在”求职者正躲避AI面试官”中的新评论

我曾经也经历过一次这种AI面试。就那一次。

事后感觉糟透了，我发誓这辈子再也不碰这种东西。

倒不是说这个”面试”有多糟糕。从一开始我就知道对面是AI。

问题是当我结束后才意识到，我居然对着一台电脑说了45分钟的话。而且不出所料，这家公司又玩失踪了（确实如此），而我永远也拿不回那45分钟了。这些时间本可以用来投其他工作、做饭、睡觉、锻炼或陪家人。但像个傻子一样，我白白对着机器人浪费了这些时间。

当然，也许公司会把这当作筛选”真人”的环节。但十有八九这不过是他们设置的又一道毫无意义的关卡。如果他们给你发AI”面试”，那跟要求你再多交一份作品集邮件没什么两样。纯粹是浪费时间。

_{作者: Balgair | 发布于: 2025-08-04 13:40}

14. cedws在”万事达推卸下架成人游戏责任”中的新评论

很高兴Visa和万事达的双头垄断终于受到关注了，这些公司不该被允许行使如此大的金融控制权。支付基础设施并非自由市场——如果它们拒绝你，你根本无法选择其他支付处理商，因为它们就是唯一的处理商。正因如此，当它们拒绝提供服务时，理应受到严格审查。

_{作者: cedws | 发布于: 2025-08-04 11:30}

15. ronbenton在”远程工作时不妨畅所欲言”中的新评论

“我看你这周才发了15条闲扯”

“15条不是最低要求吗？”

“是啊，如果你只想应付最低要求的话。但看看那边的Todd——他已经发了37条”

“既然你想让大家发37条，为什么不直接把这个设成最低标准呢”

_{作者: ronbenton | 发布于: 2025-08-03 14:39}

16. benreesman在”Lina Khan以Figma IPO为例证明并购审查必要性”中的新评论

这完全证明她是对的。如果你在乎市值？她是对的。如果你在乎员工薪酬？她是对的。如果你在乎消费者选择权，她也是对的。上市企业数量、初创公司潜在收购方增多、办公地点更加多元化——对，对，对，全都没错。

居然有人在Hacker News上搞游说，对一家初创公司以天价IPO让所有人发财这件事感到不满，这种想法简直荒谬至极。这跟网站首页标榜的价值观完全背道而驰。

_{作者: benreesman | 发布于: 2025-08-03 13:03}

17. dabedee在”莉娜·汗以Figma上市为例证并购审查必要性”中的新评论

我认为Figma的IPO证明了Khan（美国FTC主席）是对的。现在600亿美元的市场估值，远高于2023年Adobe开出的200亿美元收购价。当初交易被否决时，还有人批评监管过度干预。如今Figma员工实现了财务自由，设计工具市场保持了竞争活力，我们又多了一家重要的独立科技公司，而不是让Adobe再多一条产品线。这正是为什么我们需要监管机构敢于偶尔对科技巨头说”不”——竞争创造的价值远高于垄断整合。

_{作者: dabedee | 发布于: 2025-08-03 09:20}

18. PaulRobinson在”赫尔辛基全年交通事故零死亡”中的新评论

几年前我在赫尔辛基出差，和几个同事喝完酒（贵得离谱但相当不错）后走回酒店。那时已近午夜，我们碰巧遇到一台大型移动起重机停在人行道上挡住了去路。当我们小心地绕到马路上时，我那位芬兰同事开始抱怨说现场居然没设置锥筒或护栏来安全引导行人。我当时的反应很”伦敦人”：”估计他们就是临时干个活，没时间搞这些”。

但同事斩钉截铁地说：”这不可接受”，然后直接掏出手机报警。我们继续往前走时，警车已经赶到现场拦下了施工人员交涉。

那边对基础安全问题的重视程度真是我在其他地方从未见过的。当你做到这种程度时，自然就能享受到它带来的好处。

_{作者: PaulRobinson | 发布于: 2025-08-02 20:49}

19. fumar在”Telo MT1”中的新评论

这真是令人耳目一新。2017年后生产的现代皮卡都是些庞然大物，对行人构成极大威胁。厂商总吹嘘它们越野能力强、实用性强，但我看到的却是这些锃光瓦亮的车在市区街道上只载着一个人。

关于这款卡车的详细评测：
https://youtu.be/aEq-vTLimrQ?si=fS-UhjndoWuxwBip
https://youtu.be/1OgN_qctcGs?si=nEysWQHzafRpxfRp

_{作者: fumar | 发布于: 2025-08-02 18:25}

20. dv_dt在《如果AI解决了孤独问题，我们可能不喜欢自己变成的样子》中的新评论

虽然人们普遍归咎于社交媒体和手机，但经济因素也不容忽视。年轻一代的收入增长停滞不前，餐馆酒吧的消费价格却高得离谱。可供非正式聚会的公共空间也在萎缩——比如购物中心越来越少。

_{作者: dv_dt | 发布于: 2025-08-02 16:12}