

第四盏茶·算法围城,求生之流量平权的觉醒新纪元本期《量子茶馆儿》与《创新壬》惊喜联动 🎉,是区别于技术串讲的“曲艺杂谈”,感兴趣的同学欢迎收听订阅,蹲技术串讲的同学可以期待下一期~ 后续量子茶馆儿将设置两个系列,“日话”&“夜话”,日话专注技术串讲,夜话专注感受交流,大家按需消费~ 本期夜话系列第一集,是凌晨12点的真实茶馆儿局,期望可以在这个系列,陪大家一起见天地,见众生。💜 【📝本期采样】 我们站在时代的关键节点,背靠的是平权期望与众生意志,面向的是人文觉醒与大海星辰。 【📝联动Intro】 《创新壬》 关注创新,促进能量交互与流动。 主理人: @Yolie 擅长卖公司 前36氪战略创新,战略✖️FA复合型经验,从创业的视角帮好的公司拿到一笔好钱。 @小李Rosie 擅长卖业务 大企业创新服务商,多年一线经验,善用资源整合为公司连接好机会。 【📝Catalog】 00:00:10 流量变革、分发机制、各方角色心态探讨: 回顾互联网发展历程,从一代互联网QQ空间/百度空间,到二代微博微信淘宝,到三代抖音小红书,流量形式、效果在发生变化,但是流量的技术核心抽象相对一致。 这其中,抖音、小红书等平台有不同的user story,在解决不同场景的不同用户预期。同时流量分发base在广告、搜索、推荐三个方向的技术上,有同有异。 所以在技术逻辑相对一致的前提下,微观视角入局做博主的机会在不同时间窗口内,数据收益/经济效率也有不同表现。流量分发背后的技术决定了千千万万个“博主”的成本,也就是“流量的定价”,而这些“价码”由谁而定,可能是可以从以下分析反推的:资本、技术算法、用户、企业主这四个核心角色对流量技术结果依次的态度。 00:26:59 算法推荐下用户与创作者的体验及思考 用户使用产品时人的兴趣是被满足还是塑造,不同用户对算法服务感受不同。例如生产者因流量焦虑内容变窄,而平台已有/将继续有算法调整守护生产者不持续“被收缩”。同时,消费者有两极分化的现象,工业界在做降低偏见、优化分类等努力,届时用户希望有自主选择权 。 00:34:22 关于 ASR 技术及 AI 发展历程与早期应用场景的探讨: ASR技术整体可以宏观拆分为data Infra和model Infra。AI发展从金融领域判断是否逾期、ASR判断用户喜好等,会将行为加工为0和1的标签。有监督的二分类(或多分类)的offlinetraining落地到决策、推荐等场景,后从offlinelearning过渡到onlinelearning也就是千人千面/feed,过程中为了用户体验优化,其实细化的优化有很多(原文没有展开讲,例如双塔模型升级到三塔模型、KV到Graph、排序召回后的策略强干预等等,这部分如果感兴趣,留言给我们,后续可以在日话系列单独串讲)。 00:35:49 机器学习中的特征分类及对用户行为影响: 机器学习的对象是特征(feature),包括个人资料如性别、年纪,历史行为如点赞评论,还有通用特征如天气、时间,以及设备或网络类特征如是否连 Wifi 等。比如不同类型播客收听时间的差异代表着不同用户画像的喜欢与时间分配的区别。 00:37:54 数据隐私安全、监听及算法推荐问题: 从 feature 话题上升到隐私安全问题,这里要说明的是数据安全已从混沌走向标准,虽仍有问题但整体风险可控。例如监听问题确实存在但非恶意且可关闭,整体可以解决给开放心态的用户提供更有效的算法服务,给关注隐私的用户提供更定制的数据城墙。 00:41:15 搜索推荐与人&人匹配: 互联网内容和人&人匹配存在问题。内容消费用排序算法较合适,人&人匹配却困难重重。如招聘中错配现象严重,当前方法存在不平等、玄学的问题。 大模型时代有机会解决,中美都有创业团队已在尝试,大模型对内容理解本身的技术架构导致了平权的第一次可行性,推理可以不再通过用户与平台绑定的时长与数据深度来定义排名,而只是关注用户的需求、个性本身。 同时,技术迭代也要&也会,平衡技术平权和商业效率,从用户基础、需求频率、单价三个坐标来探讨这个新领域的商业空间。 01:00:26 商业变现、竞争格局及发展前景 按“躺”和“卷”将人群分类探讨需求,不同人群都有相关需求且商业变现空间大。 如今创业公司发展快,大厂后发跟进,同时从竞争格局的角度,指出toc应用创业公司虽获取流量不如大厂内部引流有成本优势,但凭口碑传播也可能发展更快,值得尝试 。 01:08:47 探讨终局:科技是让我们更自由还是更被动? 技术是把双刃剑,影响力大时需被正能量的人使用。大模型发展带来便捷的同时黑产攻防强度也在提升。 所以正确的人、正确的用途都很重要。 【我们站在时代的关键节点,背靠的是平权期望与众生意志,面向的是人文觉醒与大海星辰。】 【📝下期预告】 AIAgent技术串讲,我们“日话系列”见。 【📝Comment】 💡招全栈工程师,感兴趣评论/私信 💡欢迎关注《创新壬》!
第三盏茶·语音大模型/TTS/GenAudio的前世今生欢迎大家~这里是量子茶馆儿,一个致力于将业内优雅的技术设计艺术沉淀为画册的频道。 我们会在这里邀请国内外前沿技术圈的优质嘉宾,为大家观察市场/讲解paper/拆解产品/指南避坑,希望大家能在这个频道感受到我们对优质技术内容的分享诚意。🧡 以下是本茶馆儿第三期内容:语音AI/TTS/GenAudio的前世今生 【📝嘉宾】 Camille,哈工大学士,美国加州大学圣迭戈分校(UCSD)计算机科学硕士,深耕语音算法领域近十年,技术路径覆盖从传统语音技术到前沿的大模型语音交互。曾主导创业团队核心语音算法研发,后加入全球科技巨头推动语音识别引擎向深度学习转型成为行业标杆。目前聚焦游戏行业,创新性地推动语音大模型技术在游戏产业中的落地。 【📝Catalog】 02:24- 11:24 * 语音在多模态中的现状、特点、应用困境与潜力 语音与文本、图像等模态相比发展滞后,在关注度、论文数量和顶会分布上存在差距。但语音赛道垂直,用户忠诚,有发展空间。它在工业应用中似“配角”,原因包括生产方式和消费心态等,不过语音接收信息方式温和,应用场景丰富,值得看好。 11:24-16:03 * 语音合成算法范式及相关概念介绍 介绍语音合成相关知识,从传统语音合成讲起,涉及音频信号采样、梅尔频谱图、强制对齐等概念,阐述大模型语音合成的编码、解码过程,包括将语音抽象成类文本信号及后续转换等内容 。 16:03-21:08 * 语音算法常见名词、训练范式及流程介绍 介绍语音算法常见名词,如 LLM、tokenizer、decoder 等。另,从传统和大模型两方面阐述语音算法训练范式。传统训练繁琐,人工介入多;大模型对人工标注依赖小,需大量多样数据,训练分编码器、文本 LLM、解码器等阶段,最后可能涉及 SFT 以适配不同风格。 21:08-33:26 * 文本与语音的数字化表达及相关技术探讨 声音与文本的区别及表达。先介绍文本早期量化思路的局限,后发展为连续型小数等。语音处理先切帧,再通过聚类算法转成token。以及探讨语音的特点,如语音转的token可与文本的基座放在一起。 33:26-43:59 * 语音生成在工业界的探讨:数据、标准与应用 云模型的训练方式,包括传统和大模型训练方式。探讨语音生成在工业界的想象,从刺激数据资源变化、算法标准进化、畅想未来应用三个方向展开。重点讨论了语音数据行业现状、标注量化标准、控制及评价标准等,认为应用和算法会共同推动标准制定。 43:59-55:23 * 探讨算法优化后语音在工业应用等方面的想象与发展 讨论算法优化后工业应用想象,涉及语音在人声生成、音效音乐等方面的应用,认为语音未来可期,还提及技术发展速度及对声音赛道算法工程师和应用者的期望。 【📝本期Chat采样】 “... 其实也就几个月的时间, Deepseek 就摇身一变,在国际市场变成了一个非常好的领袖,所以一方面我们为无国界的技术发展感到骄傲,另一方面其实我们也更开心地看到在国内有更有意思的算法应用跟进展,随着这些算法的成长,我们的应用其实有更多可玩的空间,未来其实是非常非常有趣且先进的。 很多事情它在垂直的领域,可能相对在人群里没有那么的有名气,或者说舆论声量没有那么大,但这不排除它是本身价值非常高,壁垒非常深,且非常刚需的一个存在。 所以我们就是也期望通过这样一期播客给做声音赛道的算法同学一些信心,希望大家能在这个领域深耕得更好,然后给我们这些做应用Tier的人更多机会去玩出更有意思的东西,也期望大家对跨模态模型的关注度越来越高,让大家在各自的领域都发光。” 【📝本期寄语】 越垂直的技术越需要耐力与韧性,舆论声量不代表技术的质量/重量。 文本在前发展的越扎实,多模态在后发展的越有章可依。 Shout out to 所有(暂时)在聚光灯外的,垂直领域<持·续·深·耕> 的技术er们: 我们终将,“穿越’逆境‘,抵达繁星。” 🌟✨ 【📝下期预告】 LLM时代,我们都在什么应用上,氪了哪些金?
第二盏茶·Deepseek算法串讲(下)训练策略浅析欢迎大家~这里是量子茶馆儿,一个致力于将业内优雅的技术设计艺术沉淀为画册的频道。 我们会在这里邀请国内外前沿技术圈的优质嘉宾,为大家观察市场/讲解paper/拆解产品/指南避坑,希望大家能在这个频道感受到我们对优质技术内容的分享诚意。🧡 以下是本茶馆儿第二期内容:deepseek算法串讲(下)· 训练策略浅析 【📝 嘉宾】 赵博士毕业于清华大学自动化系cfins(智能与网络化系统研究中心),是国内最早做强化学习与神经网络结合的博士实验室,和MIT,Stanford、以及强化学习之父sutton,都有持续的深度的密切合作。目前在国内一线大模型公司进行大语言模型的训练以及优化的算法工作,有非常成熟的学术背景以及工业应用经验。 【📝 Catalog】 本期核心讨论DeepSeek大模型训练的技术路径,包括V3与R1两大模型的创新实践,以及相关的训练策略和关键发现。 02:23-16:30 * V3模型训练:预训练:准备了约14.7T个token的训练语料,混合多种语言及大量数学和编程语料以构建通用能力。 Post Training:包括SFT和强化学习IL,SFT阶段加入大量逻辑推理数据并混合非推理数据,强化学习侧重数学逻辑学习,采用rule based和model based两类reward model。 16:30-29:57 * R1模型训练:R1 Zero:跳过V3的SFT阶段,直接在base模型上用强化学习训练,得到推理能力强但过程不可读的模型,出现问题越难推理越长、模型自发反思等现象。 R1:经过两次SFT和两次强化学习,先训练推理数据生成模型,用其生成数据并筛选后进行SFT,再引入更多样性任务和model based reward进行强化学习,最终得到r one模型。 29:57-46:23 * 训练策略的影响:算法SOP的突破:R1的出现使算法圈对预训练模型接SFT和RLHF的传统流程有了更开放的心态。 对训练数据的信心:证明模型扩写可行,提升了对训练数据量和纯做扩写类模型的信心。 46:23-48:59 * 未公开的秘密们:训练数据生成模型的种子数据构造、数据配比; 以及 reject sampling 筛选数据的标准; 其他: * 关键概念:蒸馏:用teacher model输出的数据训练student model,特定任务上student model甚至可能超越teacher model。 拒绝采样:对生成的推理数据进行筛选,以保证训练数据的可靠性。 【📝 下期预告】 下期我们将带大家进入语音大模型领域,学习语音模型的基本配置、语音的训练范式、语音的应用场景。 我们不见不散~🧡
第一盏茶 · Deepseek算法串讲(上) · 模型架构浅析欢迎大家~这里是量子茶馆儿,一个致力于将业内优雅的技术设计艺术沉淀为画册的频道。 我们会在这里邀请国内外前沿技术圈的优质嘉宾,为大家观察市场/讲解paper/拆解产品/指南避坑,希望大家能在这个频道感受到我们对优质技术内容的分享诚意。🧡 以下是本茶馆儿第一期内容:deepseek算法串讲(上)· 模型架构浅析 【📝 嘉宾】 赵博士毕业于清华大学自动化系cfins(智能与网络化系统研究中心),是国内最早做强化学习与神经网络结合的博士实验室,和MIT,Stanford、以及强化学习之父sutton,都有持续的深度的密切合作。目前在国内一线大模型公司进行大语言模型的训练以及优化的算法工作,有非常成熟的学术背景以及工业应用经验。 【📝 Catalog】 01:23-02:57 [粗讲] · 大模型分层架构简介 05:15-07:32 [粗讲] · 硬件: * V3 - 2048块H800 GPU 08:21-09:23 [粗讲] · 硬件加速: * 3FS(day5): 分布式文件系统,针对模型训练和推理的大数据吞吐/并发优化,解决训练常见的IO瓶颈 * DeepGEMM(day4): FP8下的底层矩阵优化,最底层计算加速 * FlashMLA(day1): MLA的加速库,GPU内核层面,也能使A100/V100老GPU达到H100性能 09:23-10:40 [粗讲] · 训练框架&推理框架: HAI-LLM deepseek 自研 * DeepEP(day2): 优化MoE模型多专家通信 * DualPipe & Expert-Parallel Load Balancer:DualPipe:双向调度,减少GPU空闲;EPLB: MoE下:平衡各个expert的GPU负载,减少通信 * cross-node all-to-all 通信内核(尚未开源,ptx编写) (-- 是以上基建侧的细化投入,换来了下面在模型侧高效做更多探索的从容 -- ) [精讲] · 模型结构: 14:00-24:49 1. 常见名词简介 * 1.1 什么是语言模型:预测一句话在当前时刻的下一个字是哪个字的模型。 * 1.2 什么是transformer:对一个语言序列做的数据映射变形,输入是一句语言序列token,输出是转换之后的数学表征,中间的变形过程就是transformer,初期可以将其理解为selfattention+FFN的组合。 * 1.3 什么是self-attention:计算一句话中某个词与上下文之间的相似度。 * 1.4什么是 FFN:将sa后的内容在全连接层做一次变换,变成隐空间的表征。 * 1.5 什么是MOE:mixture of expert,原有含义是在业务系统里对多模型做一次路由,每次预测是路由到某一个模型上进行inference,而大模型的MOE的区别在于是token粒度的moe,优势在于每一次token预测并不需要激活全局网络,只需要激活某一/几个专家网络,参数量远低于全局参数量,进而使得推理性能能到优化。 24:49-60:22 1. 模型结构的创新: * 2.1 MLA(从self-attention到multihead self-attention再到multhead latent selfattention,递进式的深水区运用) 24:49-34:56 * 2.1.1「水深10m」self-attention:数据建模上下文理解的方式,既一句话的每个单词与这句话的其他单词的计算一下相关性,既数据建模QKV。假设一句话N个单词,每个单词有D个向量表征,那么输入序列=N*D。每个单词都变换成三个矩阵空间,分别是Query/KEY/Value,每个单词都会拿自己的QKV矩阵去问其他单词跟谁最像,这个判断是不是最像的数据方法就是用提问单词的query与被提问单词的key做点乘计算,结果越大越像,越小越不像。这样每个单词都会通过归一化拿到一个与其他单词的相似度的数学衡量。训练时越像就取value(语义)多一点,反之少一点。在知道了像与不像之后,会希望对每个value再补充一些“带上像与不像的关系”的数学表征,也就是最后对每一个单词的语义(value)通过其他N-1个单词的语义(value)做加权的求和作为一个新的表征,权重就是与N-1的各词的QK点乘结果。 34:56-37:38 * 2.1.2「水深100m」multihead self-attention:区别于2.1.1,这里的一句话的一个单词要与其他N-1个单词计算多组QKV,原因类比视频标签索引,在检索视频时如果把tag分为视频风格、视频年代、视频题材等维度让搜索质量更好更准,这就是多个子空间的Query/Key/Value的作用。 37:38-41:37 * 2.1.3「水深1000m」multihead latent self-attention:区别于2.1.2,在多个子空间得到Q/K之后,对其矩阵结果做一次压缩。假设一个单词是1024个维度,计算QK分别是512个维度,权重矩阵就是512*1024,query和key的点乘是512*512,这个维度还是有优化空间的,通过把512*512加入一个MLP全连接网络压缩成128维,这样计算量降低到128*128,存储空间也得到优化,这里的128压缩结果空间就叫latentspace。同时除了计算效率优化,还有效果上的考量。比如人类理解图像,1080p的图像每一个像素点都是有丰富的rgb信息的,但是某个像素产生波动时其实对人类的图像理解是毫无影响的,所以这里的信息是冗余的,为了去掉这些从语义理解的冗余信息,也是隐空间的另一个关键假设。 41:37-45:59 * 2.2 MTP,Multi token prediction。区别于gpt系列的模型应用next token prediction,用一句话的前五个字预测第六个字是什么。而改进点在于用前五个字预测下面五个字而不是下面一个字。 45:49-60:22 * 2.3 load balancer:为了避免损失函数可能会造成的某单一expert过忙而其他expert没有效率最大化,或某单一expert过忙导致单一expert的学习能力成为了模型全局能力的上限的效果问题规避这两类问题,引入了load-balancing的设计。 2.3.1. 不使用损失函数的load-balancing设计:在moe的路由阶段引入超参,例当某专家的负载大就把超参调小,反之调大,那么就可以通过反馈机制进行全局均衡的实施。 补充说明:用损失函数可以类比为老板每天打烊后看账单,发现A厨师累死、B厨师闲死,于是在工资单扣钱惩罚,老板检查并扣钱的这一系列行为就是损失函数的作用。而新方法的逻辑类比为,智能监控:大堂经理实时看监控(动态跟踪每个专家的负载)+ 即时调度:新客人进门时,直接把订单塞给最闲的厨师(路由算法动态分配)+ 预防过载:给忙碌的厨师自动挂「暂停接单」牌(硬性约束最大负载),这样做的好处就是a.避免「事后惩罚」的延迟反应(损失函数要等反向传播才生效)b.防止损失函数互相打架(主任务loss和均衡loss产生冲突)c.像滴滴派单系统一样实时最优分配,进而优化计算开销(不需要计算后再反向检查的二次计算、通过最大化并行提高利用率、通过不攒够一定数量再分类而是单一分配的方式降低内存占用)。 * 2.3.2. batch level 到 sequence level:语言模型里的batch是一系列的话,batchlevel是指多样本之间使用专家更均衡,例如batchsize=256,就意味着256句话的每一句都均衡的分发给各个专家进行学习,这样的问题是在某句话内的内容分发给各个专家是不均衡的,所以就有了更细粒度的优化,每句话里的各个token分发给各专家时也做了一次balance。 【📝 下期预告】 deepseek的训练设计,pretrain/posttrain/ahamoment!!! 欢迎订阅 💌 ,我们下期不见不散!!!