这是一期临时加更的杂谈节目,聊一聊我最近感兴趣的话题。
大模型时代,我们每天都在跟 Token 打交道,不知道大家最近养虾“烧掉”了多少 Token。清华大学杨斌教授建议将其翻译为“模元”,《人民日报》倾向于“词元”,而币圈管它叫“代币”,网络领域中管它叫“令牌”,同传们则干脆拒绝翻译,反正说 Token 大家也都懂。
为什么这个看起来平平无奇的单词,竟然让语言学家、计算机大佬和翻译官们集体“抓耳挠腮”?本期节目将带你深度复盘 Token 的前世今生,拆解这场关于中文语义边界的“大乱斗”。
- 01:40 为什么杨斌教授的一篇论文,让 Token 的翻译再次成为焦点?
- 06:06 “词元”是不是已经被官方钦定为 Token 的标准译法了?
- 09:45 AI大模型语境下的 Token 到底指的是什么东西?“词元”所表达的意思现在还够用吗?
- 15:00 Token 的前世今生,它到底有多少种不同的意思?
- 24:45 关于 Token 的中文翻译,到底有哪些具体的流派和可能性?哪种译法是更好的选择?
- 34:45 哪种译法最终胜出的可能性最大?最终胜出的译法一定就是最好的吗?
本频道开场白:EP.0 初来乍到,主播先来混个脸熟
