Agili 的 Hacker Podcast 2026-06-20

Agili 的 Hacker Podcast 今日话题跨了数据压缩、排队论、城市绿化、神经科学、AI 模型比较，甚至还有把网站塞进 Favicon 的巧思和 3800 年前的分数表。这些讨论在 Hacker News 上争得细致，我们把关键信息和观点整理了出来。

数据压缩原理

所有压缩都是建模加编码

Matt Mahoney 在 2012 年发布的《Data Compression Explained》把数据压缩分解为两部分：模型估计每个符号的概率，编码器为高频符号分配较短码字。编码问题已有算术编码等最优解，但建模在一般意义下不可计算——最优建模等价于 Kolmogorov 复杂度，而 Kolmogorov 复杂度无法通过算法得出。所以压缩本质上是一个理解数据、预测数据的 AI 问题。

为什么通用最优压缩器不存在

Mahoney 用大量基准测试（Calgary Corpus、Hutter Prize 等）说明，LZ77、PPM、BWT、上下文混合等算法在压缩率、速度和内存上分布出一条帕累托边界，“没有万能压缩器”。压缩随机数据或者递归压缩本身就是死胡同。社区评论补充说，如今 Fabrice Bellard 等人用神经网络建模已经在压缩率上超过了传统榜单，但神经网络模型体积大、解压内存高，长期归档还缺纠错码。

LLM 与压缩的边界

有评论把大语言模型看成一个有损压缩模型：训练目标正是逼近数据的最短描述，配合算术编码甚至可以做无损文本压缩。但 tokenizer 只面向语言，换成字节级模型（如 ByT5、BLT）理论上能处理任意数据，实用化却被模型体积和版本兼容困住。这条路还远。

屏幕之外的色彩世界

青色为何是屏幕的盲区

人眼三种视锥细胞靠对比强度还原色彩，屏幕用红绿蓝控制这三种细胞，理论上覆盖大部分颜色，唯独青色大量落在 sRGB 三角形之外。LED 照明也恰好遗失这个区间：白光 LED 用蓝芯片加黄色荧光粉，青色掉进了光谱的深谷。

在真实世界捡回那些青与蓝

透过叶子看太阳，蓝光被吸收、红光部分被吸收，剩下纯粹的绿；水下光线多次过滤后的青蓝色，能把《蓝色星球》的画面衬得黯淡。孔雀眼斑周围的青色来自羽小枝的薄膜干涉，磨成粉末就成了深棕色；约 500 种鸟的颜色超出 sRGB。

最纯的颜色或许来自激光

城市绿灯其实是极其饱和的青绿色——NIST 标准有意选了这个色调让色盲也能区分红绿。激光接近单色，绿色激光因此成了科幻电影里代表“高级技术”的符号。作者说，520 纳米附近的颜色因为几何原因最难自然产生，所以绿色激光像是“最人工的颜色”。

负载均衡系统的惊人经济学

现实远比公式复杂

这个结论依赖 Poisson 到达和指数服务时间。真实流量往往有惊群效应和重尾分布，服务时间更接近对数正态分布，尾部延迟会被拉长。负载均衡器很多是随机分配的无状态模式，并不天然形成中央队列，需要额外参数来近似上述模型。此外请求如果不独立（比如多智能体 LLM 系统），合并的好处会被协调成本反转。

3-30-300：城市的绿色公平

从窗户能看见三棵树吗

“3-30-300”规则由 Cecil Konijnendijk 提出：每户要能看到至少三棵树，社区树冠覆盖率达到 30%，且距离公园不超过 300 米。一项涵盖 862 个欧洲城市的研究显示，只有约一半居民从窗户能看到三棵树，南欧城市尤其惨淡。

30% 树冠覆盖是最大挑战

达标区域集中在德国西部小城，整个欧洲只有约三分之一的人生活在这种环境中。全球八大城市中仅新加坡全部通过，热带气候和集中规划是主要原因。多名评论者提到，不同树种、树龄和位置带来的影响差别巨大，“30%”这个数字太粗了。

300 米公园与行动

300 米内公园的指标最容易实现，但超过这个距离公园使用率急剧下降。综合三项全部达标的欧洲人只有 14%。研究者给出的行动指南很直接：刨掉沥青，种树。

把网站存进 Favicon

像素就是字节

作者没有用隐写术藏数据，而是直接把 HTML 编码成 favicon 的 RGB 像素。每像素三字节，前面加 4 字节长度头，生成的 9×9 像素图标看起来像随机噪点。浏览器加载图标后，Canvas API 读出像素，解码成 UTF-8 文本，一个网站就这么“存在”了 favicon 里。

启动代码不可省略

favicon 只承载内容，解码需要的几行 JavaScript 仍然得单独提供。没有这段 bootstrap，它就是一张 PNG。功能上不实用，但作者在意的是测试“图标是一堆字节”这个边界。

更聪明的替代方案

评论里有人提出直接用 SVG favicon，标记本身就是文本，fetch 回来即可；还有人提到 PNG 的 tEXt 块可以塞任意数据，但那就没那么好玩了。一个极端的思路是让 index.html 和 favicon.png 指向同一个文件，省去一切额外步骤。

神经元局部蛋白质合成与记忆

推翻了四十年前的共识

神经科学家 Oswald Steward 在 1982 年发现神经元突触周围存在核糖体，说明蛋白质可以在突触本地合成，而不是只能从细胞体运输。当时没人相信，15 年后才被认真对待，直到 2026 年获得 Kavli 神经科学奖，这个时间跨度本身就说明基础学科验证之难。

局部合成如何支撑记忆

记忆依赖特定突触的强度变化，这需要新蛋白质。如果把数千个突触的蛋白都由细胞体统一运输，交通会崩溃。RNA 被提前送到每个突触附近，哪里需要就在哪里开工，这是突触可塑性的核心机制。脆性 X 综合征和阿尔茨海默病的早期表现也都和突触蛋白合成异常有关。

记忆只住在大脑里吗

有评论提到扁形虫被砍头后，新长出头部仍保留旧记忆；器官移植受者偶尔出现新偏好，虽然原因可能是药物或心理，但记忆未必是大脑的单极叙事。Steward 则把对话拉回原点：他相信理解大脑能给 AI 带来更多东西，而不是反过来。

规模越大幻觉越重？AI 模型的比较

开放模型正在拉平差距

GLM-5.2（753B 参数，MIT 许可）在 Artificial Analysis Intelligence Index 上仅比 GPT-5.5 低 4 分，而后者参数量保守估计在 1–2T。纯靠放大规模的智能收益已经明显趋平。

“不知道”也是一种能力

在 AA-Omniscience 基准上，DeepSeek V4 Pro（1.6T 参数）面对无解问题只有 6% 的概率承认不知道，幻觉率高达 94%。GLM-5.2 幻觉率 28%，GPT-5.5 则达 86%。用同一个编程陷阱测试，DeepSeek 花了近 4 分钟和 7.7k token 给出了结构完美的错误答案，GLM-5.2 只用 12 秒就指出了问题本身不成立。学会及时说“做不到”成了区分实用性的关键。

训练数据正在从公开转向定制

评论中有人透露，自己兼职为 AI 公司编写从不存在过的软件，专门针对模型弱项生成训练数据。Mercor 等服务商每天向签约专家支付 300 万美元，用评判标准驱动强化学习。规模竞赛已经从爬取网络文本变成了重金定制高质量数据。

以儿童之名：强制实名上网的滑坡

RTA 头部就能解决，但没人提

文章指出，要过滤成人内容，网站只需在响应中加入一个 RTA 头部，浏览器端即可根据家长控制决定是否展示。这个标准已经有十多年，成本近乎零。但政客绕过它，直奔集中化身份验证数据库——既能养活商业验证商，又能铺开全面追踪的框架。

实名制的扩展路径

立法者先以儿童保护为名强制成人网站年龄验证，再扩展到社交媒体，最后到达银行、聊天工具和游戏。一套统一身份系统建成后，任何“出格”言论都可能面临罚款或人肉搜索。文章也提到 Web Environment Integrity 和 Secure Boot 等技术有可能被用来限制只允许签名网站访问，连 Tor 也难逃。

评论的棱角

社区提供了几种不同思路：让使用第三方身份验证的公司对数据泄露承担毁灭性责任（每泄露一条罚 100 万美元）；干脆把给未成年人联网设备定义为违法，将责任锁定在父母层面；也有人批评原文将互联网比作上膛的枪过于夸张。

CSS 版 Quake：用样式表跑游戏

CSSQuake 把 Quake 的 3D 渲染交给了 CSS 的 transform 属性，游戏逻辑仍由 TypeScript 完成。在 M1 Pro 的 Safari 上不太流畅，换成 Chrome 或 Firefox 就好很多，有用户跑到了 60 FPS。作者坦言没有做性能优化，因为 CSS 本来就不是游戏引擎。部分机制和原版有出入，比如电梯按钮要靠射击触发，敌人击毙后会飘在空中。项目用了 id Software 的共享版资源，和 cssDOOM 一样在探索 web 标准的极限。

3800 年前的分数表

只能用单位分数的阿姆斯纸草书

古埃及人表示分数时只能用单位分数（分子为 1 的分数）之和，且同一个单位分数不能用两次。例如 3/5 写成 1/2 + 1/10，而不是一个简单的 3/5。存世最古老的数学文献之一阿姆斯纸草书，主体就是 2/n 的表格。

为什么只有 2/n 表

作者 Mark Dominus 给出的解释是：有了这份表，任何分数都能通过二进制拆分和查表得出。把分子拆成 2 的幂次和，查表翻倍，合并重复项，再用 2/n 表消去重复，整套步骤完全是机械操作。19/20 最终可以化简为 [2,4,5]。所以阿姆斯不需要 3/n 或 4/n 的表，一张 2/n 表就足够。这种思路也和埃及人习惯的二进制乘法一致。

相关链接：