今天的热点从两个方向展开:一边是 AI 在网络安全领域的实战博弈,模型性能的较量被拿到显微镜下,另一边则是人们对技术社会的反思——从加密货币的荒谬现状到逃离算法农场的个体实践。这里是 Agili 的 Hacker Podcast。
普通大模型真能替代 Mythos 找漏洞吗?
测试暴露了当前模型的真实差距
有开发者搭建了一个漏洞挖掘基准,用 Mythos 曾发现的 9 个真实软件漏洞,来测试其他模型能不能在没有任何提示的情况下将其找出。这些漏洞都发生在模型知识截止日期之后,确保了测试的公正性。
结果很残酷。目前公开可用的最强模型最多只找到了 4 个(如 MiMo、GPT 5.5 Pro、Gemma 4 MoE),而 Mythos 找到了全部 9 个。这暗示 Mythos 在安全审计上的表现不是营销,而是存在可量化的优势。
谁行谁不行,以及为什么
表现意外出色的是 Qwen 3.6 27B,它击败了多个参数量大得多的商业模型,尽管速度偏慢。中国模型 MiMo 和 DeepSeek 也展现出与前沿模型正面竞争的实力,但成本低了一个数量级。Mistral Medium 则完全无法完成任务,很可能是安全护栏(Safety Guardrails)阻止了它进行安全审计。Gemini 系列模型在 Antigravity 命令行界面下甚至直接拒绝执行此类任务,逼得作者只能用 Google AI Studio 的 API 通道。
社区对 Mythos 的争议
关于 Mythos 的公开版本 Fable,评价两极分化。有人称它在空间推理和代码持久性上远超 Opus,能完成以前不可能做到的逆向工程;另一部分人则认为只是消耗了更多 Token,实际提升有限。一种主流猜测是,Mythos 可能只是个关掉了安全护栏的强大模型——这解释了为何警惕性高的商业模型无法复现,而开源模型反而更接近。
VibeThinker-3B:小模型在推理上挑战巨头
核心能力靠专项训练
VibeThinker-3B 是一个只有 30 亿参数的密集模型,基于 Qwen2.5-Coder-3B 基础模型训练。它采用了课程化监督微调、多域强化学习和离线自蒸馏流程,专注于可验证的推理任务,比如数学竞赛和编程题。在 AIME26(数学竞赛)上得分 94.3,在 LiveCodeBench v6 的编程测试中 Pass@1 达到 80.2,这些成绩已经匹配甚至超过了 DeepSeek V3.2 和 Gemini 3 Pro 等参数规模是其数百倍的旗舰模型。
结论与局限
论文提出,可验证推理能力可以被压缩进一个紧凑的“推理核心”,而开放域知识则需要更广的参数覆盖。社区测试也验证了这一点:它能解出 Mathematica 14.3 搞不定的微分方程,但在生成 SVG(矢量图形)时表现糟糕。模型不支持工具调用,Python 以外的语言能力也较弱。它的合理定位,是作为更大模型的推理模块,而不是一个能独立执行复杂任务的智能体。
还记得 memcached 吗?它依然是对付缓存腐化的良药
Redis 的问题不是技术,是人性
很多人习惯用 Redis 做缓存,但它的功能太丰富,导致团队不自觉地开始依赖它的持久性。开发者走的太远后,只要 Redis 在维护、迁移或宕机时数据丢失,整个应用就会崩溃。这本质上是没把“缓存”和“数据库”的边界说清楚,一旦业务逻辑和缓存缠绕在一起,运维负担就成了无底洞。
memcached 的纯粹与简单
memcached 被设计成一块纯粹的内存临时暂存区。它的客户端在服务端宕机时会直接返回空值,而不是导致应用报错,集群也不靠内置协议,由客户端根据键的哈希值自动分发请求。它不写磁盘,天然适合作为无状态组件被随意调度。
这并不是说 Redis 不好。如果你铁腕执行“每个键都要有过期时间、关闭持久化、配置好 allkeys-lru 淘汰策略”,Redis 一样能当好标准缓存。但一旦团队开始用 sorted set 做排行榜、把数据当成永不过期的持久存储,实际上就等于在维护两套系统。此时,memcached 的简陋反而成了一种制度性的保障。
Wall Street Journal 调查:Polymarket 用虚假致富视频吸引用户
所谓“赢家”是演的
根据《华尔街日报》的调查,Polymarket 通过付费创作者在社交媒体上大量散布欺骗性内容。一名大学生 George Makihara 发布的视频展示了他在平台上赢取巨额奖金的画面,从一月到五月中旬,他共下了 145 笔赌注,总额近 41 万美元。其中一笔赌注高达 10 万美元,内容是预测特朗普会说出“麦当劳”这个词。但调查指出,没有一笔交易是真实的,获利画面只是精心设计的虚构情节,目的是引诱真实用户入场。
“预测市场”还是赌博?
社区里很多人指出,这些平台其实就是打着市场幌子的赌场,绕开了监管。有用户分享了下载类似应用 Kalshi 的经历:几分钟内就能绑定信用卡存入资金,这种便捷性让人脊背发凉。平台还利用信贷消费和分期付款功能,用户可能瞬间陷入债务。也有人从机制上分辨,说预测市场是用户对赌而非与庄家对赌,但无法改变它最终从赌客口袋里抽成的事实。
Cyberdeck 复兴:回到模拟、重拾手艺
从“算法农场”里出走
人们厌倦了大科技公司千篇一律的无限信息流。有人重新拿起纸笔、MP3 播放器,甚至回归盗版,因为订阅制剥夺了所有权。这股情绪在数字世界的映射,是“cyberdeck”(赛博甲板)的复兴。它源自威廉·吉布森的科幻小说,原来是一种带着军事审美的手工计算机,现在却吸引了更多元的人群。新的创作者用旧工具箱、甚至首饰盒做外壳,风格从冷峻的军械转向温暖和个人化的表达,其中不少是女性和跨性别者。
工艺美术运动的历史回响
文章把这股潮流放进长线历史里看:中世纪的行会被资本主义当作市场障碍消灭;工业革命时的卢德分子砸毁机器,不是因为反技术,而是反对机器被用来剥削工人。再到后来的工艺美术运动,批判工业化让劳动失去尊严。这些线索最终指向同一个问题:技术没有原罪,问题在于谁掌握技术、用来干什么。今天我们处于“技术封建主义”,巨头用算法圈养用户。
是反抗还是新消费?
但社区的质疑很尖锐。有人指出,这些 cyberdeck 视频本身就在 TikTok 这种大平台上靠算法获取流量,本质上是“为流量而造”的反叛商品,算不上真正的反文化实践。也有人宽容地认为,就算只是数字 cosplay,只要能让更多人开始动手、思考自己和技术的关系,就是好事。真正的出路,可能是在现实世界建立互助关系,而不是完全依赖线上的表演。
“年龄验证”背后是全面监控的陷阱
推动者的意外同盟
当前各政府推动的“年龄验证”在网上引发警惕。一个奇怪的现象是,反科技巨头活动家和文化战争右翼居然成了大型科技公司的盟友。这些公司清楚,强制年龄验证将是政府变相教人们使用 VPN 的第一步,接下去的剧本就是直接禁止 VPN。无论你认为互联网对儿童有何伤害,其起点都是监控:算法靠监控数据推送极端内容。解决儿童网络伤害的第一步是保护儿童免受监控,但政府却在把隐私变成非法。
有没有保护隐私的替代方案?
讨论中,有观点提出并非一定是“24 小时精细跟踪”。完全可以设计一种政府签发的数字身份证,只包含“是否成年”这个属性而不泄露身份,网站只能看到这个属性。或者像英国已有的移民状态验证系统,发放一次性验证码。但这些方案也有共同风险:设备的公钥会成为稳定标识符,容易锁定开放式平台。反对者担心,政客们正利用“保护孩子”的窗口,快速通过全面身份验证的立法,而不是真心寻求尊重隐私的解决方案。
Plotnine:把 R 语言 ggplot2 的体验搬进 Python
Python 数据可视化的图形语法
Plotnine 是一个基于“图形语法”的 Python 可视化库,语法与 R 语言的 ggplot2 高度一致。用户可以一行代码出散点图,再通过不断叠加图层、调整颜色和主题,逐步打磨出符合出版要求的图表。官网用 Anscombe 四重奏这个经典数据集做了完整演示,清晰说明了“看图为什么比只看统计量重要”。
持续迭代与社区支持
Plotnine 由 Hassan Kibirige 开发,Posit 公司(Tidyverse 背后的公司)支持维护。作者在 Hacker News 上预告,下个版本 v0.16.0 将有新功能,目前可以通过 pip install --pre plotnine 体验。有人询问交互式图表,作者透露名为 ninejs 的新项目已经在做。社区对它的定位很明确:让数据科学家在 Python 脚本里也能享受 ggplot2 的自由度。用 + 号来配置图层在 Web 工程师眼里可能不习惯,但对数据和探索场景来说足够顺手。
OpenAI 推出 Daybreak:用 AI 加速漏洞发现与修复
从找漏洞到修漏洞的瓶颈转移
OpenAI 发布了 Daybreak 工具包,包含 Codex Security 插件、GPT-5.5-Cyber 模型、Daybreak Cyber Partner Program 和 Patch the Planet 开源合作计划。其背后的逻辑是:AI 已经能快速找到大量漏洞,但人工验证和修复完全跟不上。所以 Daybreak 把精力放在自动验证、补丁生成和部署上。
GPT-5.5-Cyber 在 CyberGym 基准(衡量模型在软件环境中复现已知漏洞的能力)上达到 85.6%,高于 Anthropic 的 Mythos 5 的 83.8%。Codex Security 插件自 3 月预览以来,已扫描超过 3000 万个提交,超过 50 万个发现被标记为已修复。
最先进的模型你用不了
一个引发巨大不满的点是:付费用户无法直接使用 GPT-5.5-Cyber 或 Anthropic 的 Mythos 来审计自己的软件。这些最先进的模型只对经过公司筛选的合作伙伴开放,形成了一个安全能力的“两级体系”。有观点认为,只有当开源模型追上这些尖端能力,安全才会实现平民化,而不会成为少数公司和政府手中的垄断工具。
加密货币 2026:欢迎来到“善地”
从总统发币到内幕交易的赌场
这篇文章对 2026 年加密货币行业的描述像是黑色幽默。美国总统亲自发行 Meme 币,白宫按持仓量排座次请大户吃饭;一家被联邦批准的交易所允许押注美军是否会刺杀外国领导人,且最大的一笔交易来自知晓计划的情报人员。文章借此指出,比特币和 Meme 币是自我指涉的零和游戏,价格不反映任何外部价值,只反映持有者找到下一个接盘者的信心。
预测市场成为内幕交易的合法外衣
基于 Polymarket 等平台的内幕交易已多次发生。有军人利用美军行动计划信息获利超过 40 万美元,还有匿名钱包在美军打击伊朗核设施前精准押中每一步细节,盈利近 250 万美元。平台从每一笔反向交易中抽水,监管机构 CFTC 却拥有合法权力却选择不作为。
稳定币与政治经济的闭环
通过 GENIUS 法案,私人稳定币被正式纳入美国货币体系。文章指出,物理美元通过地下市场和哈瓦拉汇款系统在发展中国家早已流通数十年,稳定币只是插入了一个不透明的中间人,把付费通道宣传成创新。上层则是规模惊人的游说机器:Fairshake 超级政治行动委员会筹集超 2.6 亿美元以打击批评加密货币的议员。特朗普家族的加密资产峰值超过 110 亿美元,形成了一个从散户身上抽水、部分转化为政策保护资金的闭环。
有真实需求,但规模被污染了
社区讨论里,有读者认同大部分批评,但坚持为稳定币辩护,认为它确实为缺乏美元账户的发展中国家工人提供了储蓄和跨境收款的手段。自己的朋友靠加密货币远程工作,避免了高额转账费,这是少有的正当用途。也有人觉得文章把买币等同于赌博过于激进,自己就是从加密货币开始,后来转向了正经的股票和 ETF。
YOLO26:去掉推理瓶颈的新版检测模型
去掉 NMS 和 DFL 模块带来的提速
Roboflow 发布了 YOLO26 系列,支持目标检测、实例分割和姿态估计等任务。它去掉了非极大值抑制(NMS)和分布焦距损失(DFL)两个过去的瓶颈模块。预测直接输出降低延迟,去除 DFL 后更容易在边缘和低功耗设备上部署。在 CPU 上,YOLO26-Nano 比 YOLO11-Nano 推理速度快了 43%。
局限与争议
YOLO26 只训练在 COCO 数据集的 80 个类别上,如果目标不在这 80 类之内就无法检测。一些长期用户表示,在自己特定的足球视频分析任务上,YOLO26 并没有比 v9 或 v11 表现更好。另外,Ultralytics 采用的 AGPL 许可证让 Frigate 这样的开源网络录像机系统无法集成它。对于需要细粒度分割或开放词汇检测的场景,社区推荐改用 SAM2 或 GroundingDINO。
相关链接:
- Will It Mythos?
- VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO
- In praise of memcached
- Polymarket has flooded social media with deceptive videos by paid creators
- Cyberdecks, going analog, and convivial technology
- What we call "age verification" is actually mass surveillance
- Plotnine
- OpenAI DayBreak – GPT-5.5-Cyber
- Crypto in 2026: Oh, This Is the Bad Place
- An Introduction to YOLO26
