《Web爱听》播客通过 AI 技术让英文技术播客说中文,带你无障碍听懂最新技术趋势。
节目信息
The Stack Overflow Podcast | 2026-02-27
原文播客:The Stack Overflow Podcast
原文链接:N/A
节目简介
Stack Overflow 和 Cloudflare 联手推出了一个全新的付费爬取模型(Pay-per-Crawl)。随着 AI 爬虫大量涌入,传统的”允许/屏蔽”已经不够用了——他们把 HTTP 402(Payment Required)变成了一通商务电话:机器人收到 402 后,要么自动触发付款流程,要么背后的人立刻主动来谈合作。这是一种将技术拦截升级为商业入口的新思路,而 “402 不是拒绝,而是有条件的同意” 这句话,让人眼前一亮。
本期要闻
1. AI 爬虫让老规则失效了
Stack Overflow 的 SRE 工程师乔什·尚介绍,过去的机器人主要是想打垮网站,防 DDoS 是核心任务。但 AI 时代不一样了——爬虫们开始伪装成正常流量,目的不是破坏,而是悄悄抓走数据。它们既不会让网站崩溃,又消耗服务器资源、拖垮广告收益,最关键的是——数据被拿走了,流量却没有回来。
Stack Overflow 曾靠 Excel 表格和人工黑名单来管理,但这显然是在”打地鼠”,根本扛不住规模化的 AI 爬虫攻势。
“这是一场持续的军备竞赛,面对的是那些不断尝试从你这里提取最多信息、同时伪装成合法流量的机器人。” —— 乔什·尚
2. Cloudflare 的工具:从屏蔽到分类再到收费
Cloudflare 副总裁威尔·艾伦解释了他们的核心理念:网站主应该拥有决定权——哪些机器人可以访问,哪些要限速,哪些要收费,哪些直接屏蔽。Cloudflare 提供了机器人分类系统和注册机制,让 Stack Overflow 能够系统化地识别每一类爬虫,而不是靠人工一条一条加黑名单。
珍妮丝·曼宁汉(Stack Overflow 战略产品负责人)说,用上 Cloudflare 的工具之后,感觉”像是能读懂我们的想法”——那些他们在 Excel 里手动标颜色分类的东西,系统直接帮他们做好了。
“你应该拥有决定权——不是说机器人好或坏,而是你自己说了算。” —— 威尔·艾伦
3. 402:把技术拦截变成商务邀请
Pay-per-Crawl 的核心操作其实很简单:在 Cloudflare 的 WAF 里打开一个开关,向特定爬虫返回 HTTP 402 状态码,而不是 403。
402 的含义是”需要付款”——这不是拒绝访问,而是一个带条件的邀请。机器人收到 402 之后:
- 程序化路径:自动触发支付协议(如 X402),机器对机器完成付款
- 商务路径:背后的工程师看到日志,直接联系 Stack Overflow 谈合作
乔什·尚注意到一个有趣现象:开启 Pay-per-Crawl 之后,原本每天收到大量 403 的那些爬虫,有一部分突然停止发送流量了——”几乎像是它们接收到了某种信号。”
“402 不是简单的拒绝,而是有条件的同意——欢迎来获取这些内容,只要这里存在某种支付行为。” —— 威尔·艾伦
4. 大数据授权之外的增量机会
Stack Overflow 已经在和 AI 实验室签全量数据授权合同,但那是一个需要法务、采购介入的漫长流程。Pay-per-Crawl 瞄准的是另一个市场:那些只需要部分内容、不想走大合同流程的用户。
珍妮丝·曼宁汉还提到,他们发现一些并不明显参与 AI 军备竞赛的公司,也对 Stack Overflow 的数据感兴趣——这是一个尚待探索的增量空间。
“他们可以仅抓取所需内容,而机器人通过合理支付来实现相应控制——这种差异化定价模式非常吸引人。” —— 珍妮丝·曼宁汉
金句摘录
“402 不是简单的拒绝,而是有条件的同意——欢迎来获取,只要存在某种支付行为。” —— 威尔·艾伦
“这是一场持续的军备竞赛,面对的是那些不断尝试提取最多信息、同时伪装成合法流量的机器人。” —— 乔什·尚
“当我们开始转向使用 Cloudflare 的工具时,感觉这些工具几乎就像是能读懂我们的想法。” —— 珍妮丝·曼宁汉
🤔 思考与启发
本期节目展现了一种把防御动作转化为商业机会的思维转变:
- 拦截不是终点,而是起点:403 是拒绝,402 是邀请。同样的技术动作,换一个状态码,性质完全不同。这种思维值得借鉴——你在保护自己的同时,能不能同时打开一扇门?
- 规模化必须依赖基础设施:Stack Overflow 曾靠 Excel 表格管理爬虫,这当然扛不住。Cloudflare 的价值在于把人工判断转化为系统规则,让小团队也能管理海量的机器人流量。依托基础设施而不是人力,是构建可扩展业务的关键。
- AI 正在重构互联网的商业逻辑:内容免费+广告变现的旧模式,在 AI 大量消费内容却不带来流量回流的情况下已经开始瓦解。数据授权、付费爬取、程序化支付协议(X402)——这些正在成为新的基础设施。
延伸思考:如果你是一个内容平台,面对 AI 爬虫你会怎么选择——屏蔽、收费,还是直接合作?402 背后的逻辑,是不是也适用于其他”被动防御”的场景?
关于主播
主播辛宝 Otto 目前在做《Web Worker – 前端程序员都爱听》播客,欢迎移步访问收听。

有时,这个状态码表明直到客户端付费之后请求才会被处理。402 状态码被创建最初目的是用于数字现金或微型支付系统,表明客户端请求的内容只有付费之后才能获取。目前还不存在标准的使用约定,不同的实体可以在不同的环境下使用。 https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Reference/Status/402