Agili 的 Hacker Podcast 今日话题跨了数据压缩、排队论、城市绿化、神经科学、AI 模型比较,甚至还有把网站塞进 Favicon 的巧思和 3800 年前的分数表。这些讨论在 Hacker News 上争得细致,我们把关键信息和观点整理了出来。
数据压缩原理
所有压缩都是建模加编码
Matt Mahoney 在 2012 年发布的《Data Compression Explained》把数据压缩分解为两部分:模型估计每个符号的概率,编码器为高频符号分配较短码字。编码问题已有算术编码等最优解,但建模在一般意义下不可计算——最优建模等价于 Kolmogorov 复杂度,而 Kolmogorov 复杂度无法通过算法得出。所以压缩本质上是一个理解数据、预测数据的 AI 问题。
为什么通用最优压缩器不存在
Mahoney 用大量基准测试(Calgary Corpus、Hutter Prize 等)说明,LZ77、PPM、BWT、上下文混合等算法在压缩率、速度和内存上分布出一条帕累托边界,“没有万能压缩器”。压缩随机数据或者递归压缩本身就是死胡同。社区评论补充说,如今 Fabrice Bellard 等人用神经网络建模已经在压缩率上超过了传统榜单,但神经网络模型体积大、解压内存高,长期归档还缺纠错码。
LLM 与压缩的边界
有评论把大语言模型看成一个有损压缩模型:训练目标正是逼近数据的最短描述,配合算术编码甚至可以做无损文本压缩。但 tokenizer 只面向语言,换成字节级模型(如 ByT5、BLT)理论上能处理任意数据,实用化却被模型体积和版本兼容困住。这条路还远。
屏幕之外的色彩世界
青色为何是屏幕的盲区
人眼三种视锥细胞靠对比强度还原色彩,屏幕用红绿蓝控制这三种细胞,理论上覆盖大部分颜色,唯独青色大量落在 sRGB 三角形之外。LED 照明也恰好遗失这个区间:白光 LED 用蓝芯片加黄色荧光粉,青色掉进了光谱的深谷。
在真实世界捡回那些青与蓝
透过叶子看太阳,蓝光被吸收、红光部分被吸收,剩下纯粹的绿;水下光线多次过滤后的青蓝色,能把《蓝色星球》的画面衬得黯淡。孔雀眼斑周围的青色来自羽小枝的薄膜干涉,磨成粉末就成了深棕色;约 500 种鸟的颜色超出 sRGB。
最纯的颜色或许来自激光
城市绿灯其实是极其饱和的青绿色——NIST 标准有意选了这个色调让色盲也能区分红绿。激光接近单色,绿色激光因此成了科幻电影里代表“高级技术”的符号。作者说,520 纳米附近的颜色因为几何原因最难自然产生,所以绿色激光像是“最人工的颜色”。
负载均衡系统的惊人经济学
更多服务器居然降低延迟
一个看似反直觉的排队论结果:在同样的 80% 利用率下,服务器数量越多,请求排队概率越低,平均延迟迅速下降并趋近纯处理时间。5 台服务器时只有 3.6% 的请求需要排队,10 台时进一步降低。这对云服务账本是个好消息。
现实远比公式复杂
这个结论依赖 Poisson 到达和指数服务时间。真实流量往往有惊群效应和重尾分布,服务时间更接近对数正态分布,尾部延迟会被拉长。负载均衡器很多是随机分配的无状态模式,并不天然形成中央队列,需要额外参数来近似上述模型。此外请求如果不独立(比如多智能体 LLM 系统),合并的好处会被协调成本反转。
3-30-300:城市的绿色公平
从窗户能看见三棵树吗
“3-30-300”规则由 Cecil Konijnendijk 提出:每户要能看到至少三棵树,社区树冠覆盖率达到 30%,且距离公园不超过 300 米。一项涵盖 862 个欧洲城市的研究显示,只有约一半居民从窗户能看到三棵树,南欧城市尤其惨淡。
30% 树冠覆盖是最大挑战
达标区域集中在德国西部小城,整个欧洲只有约三分之一的人生活在这种环境中。全球八大城市中仅新加坡全部通过,热带气候和集中规划是主要原因。多名评论者提到,不同树种、树龄和位置带来的影响差别巨大,“30%”这个数字太粗了。
300 米公园与行动
300 米内公园的指标最容易实现,但超过这个距离公园使用率急剧下降。综合三项全部达标的欧洲人只有 14%。研究者给出的行动指南很直接:刨掉沥青,种树。
把网站存进 Favicon
像素就是字节
作者没有用隐写术藏数据,而是直接把 HTML 编码成 favicon 的 RGB 像素。每像素三字节,前面加 4 字节长度头,生成的 9×9 像素图标看起来像随机噪点。浏览器加载图标后,Canvas API 读出像素,解码成 UTF-8 文本,一个网站就这么“存在”了 favicon 里。
启动代码不可省略
favicon 只承载内容,解码需要的几行 JavaScript 仍然得单独提供。没有这段 bootstrap,它就是一张 PNG。功能上不实用,但作者在意的是测试“图标是一堆字节”这个边界。
更聪明的替代方案
评论里有人提出直接用 SVG favicon,标记本身就是文本,fetch 回来即可;还有人提到 PNG 的 tEXt 块可以塞任意数据,但那就没那么好玩了。一个极端的思路是让 index.html 和 favicon.png 指向同一个文件,省去一切额外步骤。
神经元局部蛋白质合成与记忆
推翻了四十年前的共识
神经科学家 Oswald Steward 在 1982 年发现神经元突触周围存在核糖体,说明蛋白质可以在突触本地合成,而不是只能从细胞体运输。当时没人相信,15 年后才被认真对待,直到 2026 年获得 Kavli 神经科学奖,这个时间跨度本身就说明基础学科验证之难。
局部合成如何支撑记忆
记忆依赖特定突触的强度变化,这需要新蛋白质。如果把数千个突触的蛋白都由细胞体统一运输,交通会崩溃。RNA 被提前送到每个突触附近,哪里需要就在哪里开工,这是突触可塑性的核心机制。脆性 X 综合征和阿尔茨海默病的早期表现也都和突触蛋白合成异常有关。
记忆只住在大脑里吗
有评论提到扁形虫被砍头后,新长出头部仍保留旧记忆;器官移植受者偶尔出现新偏好,虽然原因可能是药物或心理,但记忆未必是大脑的单极叙事。Steward 则把对话拉回原点:他相信理解大脑能给 AI 带来更多东西,而不是反过来。
规模越大幻觉越重?AI 模型的比较
开放模型正在拉平差距
GLM-5.2(753B 参数,MIT 许可)在 Artificial Analysis Intelligence Index 上仅比 GPT-5.5 低 4 分,而后者参数量保守估计在 1–2T。纯靠放大规模的智能收益已经明显趋平。
“不知道”也是一种能力
在 AA-Omniscience 基准上,DeepSeek V4 Pro(1.6T 参数)面对无解问题只有 6% 的概率承认不知道,幻觉率高达 94%。GLM-5.2 幻觉率 28%,GPT-5.5 则达 86%。用同一个编程陷阱测试,DeepSeek 花了近 4 分钟和 7.7k token 给出了结构完美的错误答案,GLM-5.2 只用 12 秒就指出了问题本身不成立。学会及时说“做不到”成了区分实用性的关键。
训练数据正在从公开转向定制
评论中有人透露,自己兼职为 AI 公司编写从不存在过的软件,专门针对模型弱项生成训练数据。Mercor 等服务商每天向签约专家支付 300 万美元,用评判标准驱动强化学习。规模竞赛已经从爬取网络文本变成了重金定制高质量数据。
以儿童之名:强制实名上网的滑坡
RTA 头部就能解决,但没人提
文章指出,要过滤成人内容,网站只需在响应中加入一个 RTA 头部,浏览器端即可根据家长控制决定是否展示。这个标准已经有十多年,成本近乎零。但政客绕过它,直奔集中化身份验证数据库——既能养活商业验证商,又能铺开全面追踪的框架。
实名制的扩展路径
立法者先以儿童保护为名强制成人网站年龄验证,再扩展到社交媒体,最后到达银行、聊天工具和游戏。一套统一身份系统建成后,任何“出格”言论都可能面临罚款或人肉搜索。文章也提到 Web Environment Integrity 和 Secure Boot 等技术有可能被用来限制只允许签名网站访问,连 Tor 也难逃。
评论的棱角
社区提供了几种不同思路:让使用第三方身份验证的公司对数据泄露承担毁灭性责任(每泄露一条罚 100 万美元);干脆把给未成年人联网设备定义为违法,将责任锁定在父母层面;也有人批评原文将互联网比作上膛的枪过于夸张。
CSS 版 Quake:用样式表跑游戏
CSSQuake 把 Quake 的 3D 渲染交给了 CSS 的 transform 属性,游戏逻辑仍由 TypeScript 完成。在 M1 Pro 的 Safari 上不太流畅,换成 Chrome 或 Firefox 就好很多,有用户跑到了 60 FPS。作者坦言没有做性能优化,因为 CSS 本来就不是游戏引擎。部分机制和原版有出入,比如电梯按钮要靠射击触发,敌人击毙后会飘在空中。项目用了 id Software 的共享版资源,和 cssDOOM 一样在探索 web 标准的极限。
3800 年前的分数表
只能用单位分数的阿姆斯纸草书
古埃及人表示分数时只能用单位分数(分子为 1 的分数)之和,且同一个单位分数不能用两次。例如 3/5 写成 1/2 + 1/10,而不是一个简单的 3/5。存世最古老的数学文献之一阿姆斯纸草书,主体就是 2/n 的表格。
为什么只有 2/n 表
作者 Mark Dominus 给出的解释是:有了这份表,任何分数都能通过二进制拆分和查表得出。把分子拆成 2 的幂次和,查表翻倍,合并重复项,再用 2/n 表消去重复,整套步骤完全是机械操作。19/20 最终可以化简为 [2,4,5]。所以阿姆斯不需要 3/n 或 4/n 的表,一张 2/n 表就足够。这种思路也和埃及人习惯的二进制乘法一致。
相关链接:
- Data Compression Explained (2012)
- Where to Find the Colors Your Screen Can't Show You
- Surprising economics of load-balanced systems
- Can you see three trees?
- I Stored a Website in a Favicon
- The discovery that changed how scientists think about memory
- GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2
- Think of the children: How to force real ID for all internet traffic (2023)
- CSSQuake
- Egyptian Fractions (2006)
