Agili 的 Hacker Podcast 2026-06-20

Agili 的 Hacker Podcast 2026-06-20

NaN分钟 ·
播放数7
·
评论数0

Agili 的 Hacker Podcast 今日话题跨了数据压缩、排队论、城市绿化、神经科学、AI 模型比较,甚至还有把网站塞进 Favicon 的巧思和 3800 年前的分数表。这些讨论在 Hacker News 上争得细致,我们把关键信息和观点整理了出来。

数据压缩原理

所有压缩都是建模加编码

Matt Mahoney 在 2012 年发布的《Data Compression Explained》把数据压缩分解为两部分:模型估计每个符号的概率,编码器为高频符号分配较短码字。编码问题已有算术编码等最优解,但建模在一般意义下不可计算——最优建模等价于 Kolmogorov 复杂度,而 Kolmogorov 复杂度无法通过算法得出。所以压缩本质上是一个理解数据、预测数据的 AI 问题。

为什么通用最优压缩器不存在

Mahoney 用大量基准测试(Calgary Corpus、Hutter Prize 等)说明,LZ77、PPM、BWT、上下文混合等算法在压缩率、速度和内存上分布出一条帕累托边界,“没有万能压缩器”。压缩随机数据或者递归压缩本身就是死胡同。社区评论补充说,如今 Fabrice Bellard 等人用神经网络建模已经在压缩率上超过了传统榜单,但神经网络模型体积大、解压内存高,长期归档还缺纠错码。

LLM 与压缩的边界

有评论把大语言模型看成一个有损压缩模型:训练目标正是逼近数据的最短描述,配合算术编码甚至可以做无损文本压缩。但 tokenizer 只面向语言,换成字节级模型(如 ByT5、BLT)理论上能处理任意数据,实用化却被模型体积和版本兼容困住。这条路还远。

屏幕之外的色彩世界

青色为何是屏幕的盲区

人眼三种视锥细胞靠对比强度还原色彩,屏幕用红绿蓝控制这三种细胞,理论上覆盖大部分颜色,唯独青色大量落在 sRGB 三角形之外。LED 照明也恰好遗失这个区间:白光 LED 用蓝芯片加黄色荧光粉,青色掉进了光谱的深谷。

在真实世界捡回那些青与蓝

透过叶子看太阳,蓝光被吸收、红光部分被吸收,剩下纯粹的绿;水下光线多次过滤后的青蓝色,能把《蓝色星球》的画面衬得黯淡。孔雀眼斑周围的青色来自羽小枝的薄膜干涉,磨成粉末就成了深棕色;约 500 种鸟的颜色超出 sRGB。

最纯的颜色或许来自激光

城市绿灯其实是极其饱和的青绿色——NIST 标准有意选了这个色调让色盲也能区分红绿。激光接近单色,绿色激光因此成了科幻电影里代表“高级技术”的符号。作者说,520 纳米附近的颜色因为几何原因最难自然产生,所以绿色激光像是“最人工的颜色”。

负载均衡系统的惊人经济学

更多服务器居然降低延迟

一个看似反直觉的排队论结果:在同样的 80% 利用率下,服务器数量越多,请求排队概率越低,平均延迟迅速下降并趋近纯处理时间。5 台服务器时只有 3.6% 的请求需要排队,10 台时进一步降低。这对云服务账本是个好消息。

现实远比公式复杂

这个结论依赖 Poisson 到达和指数服务时间。真实流量往往有惊群效应和重尾分布,服务时间更接近对数正态分布,尾部延迟会被拉长。负载均衡器很多是随机分配的无状态模式,并不天然形成中央队列,需要额外参数来近似上述模型。此外请求如果不独立(比如多智能体 LLM 系统),合并的好处会被协调成本反转。

3-30-300:城市的绿色公平

从窗户能看见三棵树吗

“3-30-300”规则由 Cecil Konijnendijk 提出:每户要能看到至少三棵树,社区树冠覆盖率达到 30%,且距离公园不超过 300 米。一项涵盖 862 个欧洲城市的研究显示,只有约一半居民从窗户能看到三棵树,南欧城市尤其惨淡。

30% 树冠覆盖是最大挑战

达标区域集中在德国西部小城,整个欧洲只有约三分之一的人生活在这种环境中。全球八大城市中仅新加坡全部通过,热带气候和集中规划是主要原因。多名评论者提到,不同树种、树龄和位置带来的影响差别巨大,“30%”这个数字太粗了。

300 米公园与行动

300 米内公园的指标最容易实现,但超过这个距离公园使用率急剧下降。综合三项全部达标的欧洲人只有 14%。研究者给出的行动指南很直接:刨掉沥青,种树。

把网站存进 Favicon

像素就是字节

作者没有用隐写术藏数据,而是直接把 HTML 编码成 favicon 的 RGB 像素。每像素三字节,前面加 4 字节长度头,生成的 9×9 像素图标看起来像随机噪点。浏览器加载图标后,Canvas API 读出像素,解码成 UTF-8 文本,一个网站就这么“存在”了 favicon 里。

启动代码不可省略

favicon 只承载内容,解码需要的几行 JavaScript 仍然得单独提供。没有这段 bootstrap,它就是一张 PNG。功能上不实用,但作者在意的是测试“图标是一堆字节”这个边界。

更聪明的替代方案

评论里有人提出直接用 SVG favicon,标记本身就是文本,fetch 回来即可;还有人提到 PNG 的 tEXt 块可以塞任意数据,但那就没那么好玩了。一个极端的思路是让 index.html 和 favicon.png 指向同一个文件,省去一切额外步骤。

神经元局部蛋白质合成与记忆

推翻了四十年前的共识

神经科学家 Oswald Steward 在 1982 年发现神经元突触周围存在核糖体,说明蛋白质可以在突触本地合成,而不是只能从细胞体运输。当时没人相信,15 年后才被认真对待,直到 2026 年获得 Kavli 神经科学奖,这个时间跨度本身就说明基础学科验证之难。

局部合成如何支撑记忆

记忆依赖特定突触的强度变化,这需要新蛋白质。如果把数千个突触的蛋白都由细胞体统一运输,交通会崩溃。RNA 被提前送到每个突触附近,哪里需要就在哪里开工,这是突触可塑性的核心机制。脆性 X 综合征和阿尔茨海默病的早期表现也都和突触蛋白合成异常有关。

记忆只住在大脑里吗

有评论提到扁形虫被砍头后,新长出头部仍保留旧记忆;器官移植受者偶尔出现新偏好,虽然原因可能是药物或心理,但记忆未必是大脑的单极叙事。Steward 则把对话拉回原点:他相信理解大脑能给 AI 带来更多东西,而不是反过来。

规模越大幻觉越重?AI 模型的比较

开放模型正在拉平差距

GLM-5.2(753B 参数,MIT 许可)在 Artificial Analysis Intelligence Index 上仅比 GPT-5.5 低 4 分,而后者参数量保守估计在 1–2T。纯靠放大规模的智能收益已经明显趋平。

“不知道”也是一种能力

在 AA-Omniscience 基准上,DeepSeek V4 Pro(1.6T 参数)面对无解问题只有 6% 的概率承认不知道,幻觉率高达 94%。GLM-5.2 幻觉率 28%,GPT-5.5 则达 86%。用同一个编程陷阱测试,DeepSeek 花了近 4 分钟和 7.7k token 给出了结构完美的错误答案,GLM-5.2 只用 12 秒就指出了问题本身不成立。学会及时说“做不到”成了区分实用性的关键。

训练数据正在从公开转向定制

评论中有人透露,自己兼职为 AI 公司编写从不存在过的软件,专门针对模型弱项生成训练数据。Mercor 等服务商每天向签约专家支付 300 万美元,用评判标准驱动强化学习。规模竞赛已经从爬取网络文本变成了重金定制高质量数据。

以儿童之名:强制实名上网的滑坡

RTA 头部就能解决,但没人提

文章指出,要过滤成人内容,网站只需在响应中加入一个 RTA 头部,浏览器端即可根据家长控制决定是否展示。这个标准已经有十多年,成本近乎零。但政客绕过它,直奔集中化身份验证数据库——既能养活商业验证商,又能铺开全面追踪的框架。

实名制的扩展路径

立法者先以儿童保护为名强制成人网站年龄验证,再扩展到社交媒体,最后到达银行、聊天工具和游戏。一套统一身份系统建成后,任何“出格”言论都可能面临罚款或人肉搜索。文章也提到 Web Environment Integrity 和 Secure Boot 等技术有可能被用来限制只允许签名网站访问,连 Tor 也难逃。

评论的棱角

社区提供了几种不同思路:让使用第三方身份验证的公司对数据泄露承担毁灭性责任(每泄露一条罚 100 万美元);干脆把给未成年人联网设备定义为违法,将责任锁定在父母层面;也有人批评原文将互联网比作上膛的枪过于夸张。

CSS 版 Quake:用样式表跑游戏

CSSQuake 把 Quake 的 3D 渲染交给了 CSS 的 transform 属性,游戏逻辑仍由 TypeScript 完成。在 M1 Pro 的 Safari 上不太流畅,换成 Chrome 或 Firefox 就好很多,有用户跑到了 60 FPS。作者坦言没有做性能优化,因为 CSS 本来就不是游戏引擎。部分机制和原版有出入,比如电梯按钮要靠射击触发,敌人击毙后会飘在空中。项目用了 id Software 的共享版资源,和 cssDOOM 一样在探索 web 标准的极限。

3800 年前的分数表

只能用单位分数的阿姆斯纸草书

古埃及人表示分数时只能用单位分数(分子为 1 的分数)之和,且同一个单位分数不能用两次。例如 3/5 写成 1/2 + 1/10,而不是一个简单的 3/5。存世最古老的数学文献之一阿姆斯纸草书,主体就是 2/n 的表格。

为什么只有 2/n 表

作者 Mark Dominus 给出的解释是:有了这份表,任何分数都能通过二进制拆分和查表得出。把分子拆成 2 的幂次和,查表翻倍,合并重复项,再用 2/n 表消去重复,整套步骤完全是机械操作。19/20 最终可以化简为 [2,4,5]。所以阿姆斯不需要 3/n 或 4/n 的表,一张 2/n 表就足够。这种思路也和埃及人习惯的二进制乘法一致。


相关链接: