hacker_news_top_comments_2025-08-09

Hacker News 高赞评论 - 2025-08-09

1. 牛肉在”GPT-5”话题下的新评论

或许我们无法通过随机文本预测模型来模拟更高层次的智能。

我并非AI研究员,但有些朋友从事这个领域。他们并不担心基于大语言模型(LLM)的通用人工智能(AGI),因为随着训练数据量的增加,其效果提升正在递减。这可能就是瓶颈所在。

人类智能与LLM有显著差异:人类只需少量样本就能学习,且泛化能力更强。而LLM往往只是复述训练数据中已有解决方案,这些方案通常在训练数据中已被充分记录。

不过话说回来,要实现彻底改变世界的AI,AGI并非必要条件。现有的AI/机器学习(ML)/监督学习(SL)技术中,可能有些应用比通用智能更具影响力。搜索引擎就是个例子——能够从多领域复述知识正是其优势所在。

作者: beeflet | 发布于: 2025-08-07 18:17


2. 高频用户在”GPT-5”话题下发表新评论

经常有人提出,一旦某家AI公司达到通用人工智能(AGI)的门槛,就会甩开其他竞争者。但有趣的是,至少到目前为止趋势恰恰相反:随着时间的推移和模型性能的提升,各家公司的表现反而越来越接近。目前GPT-5、Claude Opus、Grok 4和Gemini 2.5 Pro在各方面表现都很出色(比如它们基本都能解决中等难度的数学和编程问题)。

作为用户,感觉这场竞赛从未像现在这样势均力敌。虽然直接外推可能不太严谨,但这让我对之前盛行的”硬起飞/赢家通吃”思维模式产生了更多怀疑。

很想知道这些公司的研究人员怎么看——你们认为未来几年竞争对手之间的AI产品会继续保持这种激烈竞争和趋同态势,还是会逐渐拉开差距?

作者: highfrequency | 发布于: 2025-08-07 18:05


3. surround在”GPT-5”话题下的新评论

GPT-5的知识截止日期:2024年9月30日(发布前10个月)

相比之下:

Gemini 2.5 Pro的知识截止日期:2025年1月(发布前3个月)

Claude Opus 4.1的知识截止日期:2025年3月(发布前4个月)

https://platform.openai.com/docs/models/compare

https://deepmind.google/models/gemini/pro/

https://docs.anthropic.com/en/docs/about-claude/models/overview

作者: surround | 发布于: 2025-08-07 17:53


4. mtlynch在”GPT-5”话题下的新评论

他们那个SWE基准测试图表是怎么回事?[0]

GPT-5非思考模式标注的准确率是52.8%,但o3显示的柱状图却短得多,而它标注的是69.1%。4o的柱状图和o3完全一样,标注的却是30.8%…

[0] https://i.postimg.cc/DzkZZLry/y-axis.png

作者: mtlynch | 发布于: 2025-08-07 17:10


5. DecoPerson在”发送一次性验证码比密码更糟糕”中的新评论

这种攻击模式是:

  1. 用户访问恶意网站并注册账号

  2. 恶意网站提示:”我们已发送验证邮件,请输入6位验证码!邮件将由GOOD平台发出,因为他们是我们的登录合作伙伴。”

  3. 恶意网站的机器人使用用户邮箱在GOOD平台发起”邮件一次性验证码登录”流程

  4. GOOD平台向用户邮箱发送一次性登录验证码

  5. 用户极易信任这封邮件,因为确实来自GOOD平台——如果不是合法登录,GOOD怎么会发邮件呢?

  6. 用户在恶意网站输入验证码

  7. 攻击者利用该验证码以用户身份登录GOOD平台,完全控制用户账户

这就是为什么”邮件发送一次性验证码”是最容易被钓鱼的认证方式之一。用户实在太容易犯这个错误了。

“点击邮件中的链接”稍好一些,因为会直接跳转至GOOD官网,而把这个链接转发给恶意网站更麻烦、更可疑。但如果某些主流邮件服务突然屏蔽你的登录邮件或登录链接,大量用户就会立即无法登录。

通行密钥(Passkeys)才是正解。密码管理器对通行密钥的支持已经相当完善。我可以肯定地说,即使用户丢失手机导致所有通行密钥失效,也比当前密码系统的安全隐患好千万倍。我宁愿让老奶奶去银行重新验证身份,也不愿看到她的钱被钓鱼者盗走。

作者: DecoPerson | 发布于: 2025-08-07 03:37


6. pentamassiv在”Ask HN: 你是否后悔过开源某个项目?”中的新评论

我是一个模拟键盘鼠标输入的库的维护者。这个项目不是我发起的,但我接手了维护工作并几乎重写了所有代码。最近发现Anthropic公司正在Claude桌面版中集成这个库,可能是用于某个未发布的”计算机使用”类功能。我注意到他们正好在负责该实现的团队有个空缺职位,就申请了。几个月后收到了拒信,理由是团队没时间面试更多候选人了。代码采用MIT许可证,所以一切都没问题。像Anthropic这样的公司使用我的代码是件好事,但如果能从中获益就更好了。关于这个话题我写了篇更详细的博客:

https://grell.dev/blog/ai_rejection

作者: pentamassiv | 发布于: 2025-08-05 22:59


7. cco在”OpenAI的开源模型”中的新评论

我觉得大家都没抓住重点。

gpt-oss:20b可是全球前十的模型(在MMLU基准测试中仅次于Gemini-2.5-Pro),而我刚刚就在去年买的M3芯片Macbook Air上本地运行了它。

我一直在笔记本和手机(Pixel 9 Pro)上测试各种本地模型,原以为还要一两年才能达到这种水平。

但现实是,今天我们就做到了。一个近乎顶尖的模型,仅需耗费微不足道的电费就能在我的笔记本上运行。不需要每月200美元的订阅费,也不会消耗海量资源。

这真的太令人震撼了。

作者: cco | 发布于: 2025-08-05 21:13


8. kridsdale3在”Claude Opus 4.1”中的新评论

根据公历和地球轨道运行轨迹来看,八月才刚刚开始。

作者: kridsdale3 | 发布于: 2025-08-05 18:26


9. simonw在”助我摆脱AI 10倍工程师冒名顶替综合症的方法”中的新评论

我发现自己非常认同这篇文章的许多观点。

虽然我是AI辅助开发的坚定支持者,但那些声称能提升10倍效率的说法从未让我信服。根据我的估算,大语言模型(LLM)让我在编写代码这部分工作上效率提高了2-5倍,而编码本身只占我作为软件工程师工作的一小部分。

这与文章的假设相差不远。文章中提到:

如果听说AI能让许多工程师在某些任务上提速20-50%,我不会感到惊讶。但软件开发的瓶颈特性意味着这不会转化为20%的整体效率提升,更不用说10倍提升了。

我认为这个估计还是偏保守的——真正擅长使用这些工具的工程师获得的效率提升应该会超过0.2倍——但我确实认为软件开发中涉及的其他所有因素,使得10倍提升在大多数情况下都不切实际。

作者: simonw | 发布于: 2025-08-05 14:41


10. modeless在《Genie 3:世界模型的新前沿》中的新评论

能在数分钟内保持一致性,还能实时运行720p分辨率?我没想到世界模型已经发展到这种程度了。

Genie 3的一致性是其涌现能力

所以这只是模型规模扩大的自然结果,而非刻意架构调整的产物?

编辑补充:这里有一些实际测试者指出的局限性(链接保留):

  • 物理模拟仍是难点,在心理学经典直觉物理实验(积木塔)中会出现明显错误
  • 社交和多智能体交互难以处理,1v1格斗游戏无法运行
  • 长指令跟随和简单组合游戏逻辑会失效(例如收集钥匙/点数→开门等流程)
  • 动作空间有限
  • 距离真正的游戏引擎还很遥远,但这已清晰展现了未来图景

即便存在这些限制,这依然令人震撼。这让我意识到世界模型在机器人和现实世界AI中的应用潜力可能远超预期。未来的机器人或许能在”梦境”中学习…

作者: modeless | 发布于: 2025-08-05 14:39


11. rob74在”万事达推卸下架成人游戏责任”一文中发表新评论

万事达的声明非常明确:

“简而言之,我们允许所有合法的交易通过我们的网络。”

但他们”规则5.12.7”却…没那么明确:

“商户不得向收单行提交,客户不得向交换系统提交任何非法交易,或根据公司单方面判断可能损害公司商誉或对商标产生负面影响的交易。”

所以现在到底是哪个标准?是所有合法交易(非常明确)还是仅限万事达主观认为不会对其”产生负面影响”的合法交易(含糊得要命)?

作者: rob74 | 发布于: 2025-08-04 15:15


12. fxtentacle在”Perplexity使用隐蔽未声明的爬虫规避禁止抓取指令”话题中发表新评论

我觉得这个问题很难解决:

  1. 如果我作为人类用户请求访问一个网站,那么网站就应该显示内容。这一点大家都没异议。

  2. 如果我作为用户要求自己电脑上的软件在显示内容前先进行修改,比如在用户代理里安装广告拦截器,这是我的选择,网站不应该获知这个情况。大多数用户都认同这点,虽然有些网站会试图诱导你修改本地运行的软件。

  3. 现在如果我更进一步,因为原网页充斥着广告、JavaScript弹窗导致内容几乎无法使用,而改用LLM来总结内容,那么为什么LLM代表我访问网站的法律性质,就和我用Firefox浏览器代表我访问网站不同呢?

作者: fxtentacle | 发布于: 2025-08-04 14:12


13. Balgair在”求职者正避开AI面试官”中的新评论

我曾经也经历过一次AI面试。就那一次。

事后感觉糟透了,我发誓这辈子再也不碰这种东西。

倒不是说这场”面试”有多糟糕。从一开始我就知道对面是AI。

真正让我难受的是,当我完成面试后才意识到,自己居然对着一台电脑说了45分钟的话。而且不出所料,这家公司最后果然玩消失(确实如此),而我永远也拿不回那45分钟了。这些时间本可以用来投递其他工作、做饭、睡觉、锻炼或陪伴家人。但像个傻子一样,我白白对着机器人浪费了这些时间。

当然,公司可能会辩解这是筛选”真人”的环节。但十有八九这不过是他们设置的又一道毫无意义的关卡。给你发AI面试邀请,本质上和让你重复提交作品集一样无聊。纯粹是浪费时间。

作者: Balgair | 发布于: 2025-08-04 13:40


14. cedws在”万事达推卸下架成人游戏责任”中的新评论

很高兴Visa和万事达的双头垄断终于受到关注,这些公司不该被允许行使如此大的金融控制权。支付基础设施并非自由市场——当它们拒绝你时,你无法选择其他支付处理商,因为它们就是支付处理商本身。因此,当它们拒绝服务时,理应受到严格审查。

作者: cedws | 发布于: 2025-08-04 11:30


15. ronbenton在”远程工作时不妨畅所欲言”中的新评论

“我看你这周才发了15条闲扯”

“15条不是最低要求吗?”

“是啊,如果你只想应付最低要求的话。但看看那边的Todd——他已经发了37条”

“既然你想让大家发37条,干嘛不直接把这个设成最低标准?”

作者: ronbenton | 发布于: 2025-08-03 14:39


16. benreesman在”Lina Khan以Figma IPO为例证明并购审查必要性”中的新评论

这完全证明她是对的。如果你关心市值?她是对的。如果你关心员工薪酬?她是对的。如果你关心消费者选择,她也是对的。上市企业数量、初创公司潜在收购方增多、办公地点更加多元化——对,对,对,全都没错。

居然有人在Hacker News上搞游说,对一家初创公司以天价IPO让所有人发财这事感到不满,简直是《阴阳魔界》级别的荒谬。这跟网站首页标榜的价值观完全背道而驰。

作者: benreesman | 发布于: 2025-08-03 13:03


17. dabedee在”莉娜·汗以Figma上市为例证强调并购审查必要性”中的新评论

我认为Figma的IPO证明了Khan(美国反垄断官员)是对的。如今600亿美元的市场估值,远高于2023年Adobe开出的200亿美元收购价。当初交易被否决时,有人批评这是监管过度干预。现在Figma员工实现了财富自由,设计工具市场保持了竞争活力,我们又多了一家重要的独立科技公司,而不是让Adobe再多一条产品线。这正是为什么我们需要监管机构敢于偶尔对科技巨头说”不”——竞争创造的价值永远高于垄断整合。

作者: dabedee | 发布于: 2025-08-03 09:20


18. 保罗·罗宾森在”赫尔辛基全年交通事故零死亡”新闻下的新评论

几年前我在赫尔辛基出差,和几个同事喝完酒(贵得离谱但相当不错)后走回酒店。那时已近午夜,我们碰巧遇到一台大型移动起重机停在人行道上挡住了去路。当我们小心地绕到马路上时,我的一位芬兰同事开始抱怨说现场居然没设置锥筒或护栏来引导行人安全通行。我当时的反应很”伦敦”——“估计他们就干个快活儿,没时间搞这些”,毕竟在伦敦我们都习以为常了。

但这位同事坚决表示”这不可接受”,直接掏出手机报警。我们继续往前走时,警车已经赶到现场拦下了施工方谈话。

那里的人把基础安全措施做到极致,这种态度我在别处从未见过。而当你这么做时,自然就能享受到它带来的好处。

作者: PaulRobinson | 发布于: 2025-08-02 20:49


19. fumar在”Telo MT1”中的新评论

这真是令人耳目一新。2017年后生产的现代皮卡都是些庞然大物,对行人构成极大危险。它们常被吹捧为具备越野能力和高实用性,但我看到的却是这些一尘不染的大家伙在城市街道上只载着区区一个人。

关于这款卡车的精彩概览:
https://youtu.be/aEq-vTLimrQ?si=fS-UhjndoWuxwBip
https://youtu.be/1OgN_qctcGs?si=nEysWQHzafRpxfRp

作者: fumar | 发布于: 2025-08-02 18:25


20. dv_dt在”如果AI解决了孤独感,我们可能不喜欢自己变成的样子”中的新评论

虽然人们普遍归咎于社交媒体和手机,但经济因素也不容忽视。年轻一代的收入增长停滞,餐馆酒吧的消费却居高不下。可供非正式聚会的公共场所正在萎缩——比如购物中心越来越少。

作者: dv_dt | 发布于: 2025-08-02 16:12