李小C_eKWK的个人播客

7已订阅

李小C_eKWK的个人播客

数据科学

单集更新

节目详情

《因果侦探》- Vol.11 (下)：天上掉下个“免费实验”？用断点回归（RDD）拿捏死板的业务规则！
【本期简介】 Vol.11 (下)：天上掉下个“免费实验”？用断点回归（RDD）拿捏死板的业务规则！上一期我们好不容易理清了工具变量（IV）的逻辑，你是不是准备自己写两行代码，手动把预测结果塞进第二阶段的回归里，然后光荣下班？快住手！这么做不仅会让你算错标准误，还可能制造出比不用工具变量还要可怕的偏差！老老实实用调包才是保命之道。但现实中更让人头疼的是，老板经常拍脑袋定一个“一刀切”的死板规定——比如“账户余额大于5000块的人才送高级信用卡，少于5000的绝对不给”。压根没做A/B测试，这历史数据是不是就彻底废了？绝不！本期节目，两位数字侦探将带你“白嫖”因果推断界最性感、最迷人的天然实验——断点回归设计（RDD）！ 🎧 在这期节目里，你将听到这些让你拍案叫绝的实战大招： * 💣 手工算回归的“自杀陷阱”：为什么千万别自己手算两阶段最小二乘法（2SLS）？揪出那个让你方差爆炸、标准误失效的统计学内鬼。 * 🎁 天上掉馅饼的“断点（RDD）”：老板定的死板门槛，凭什么成了分析师眼里的黄金 A/B 测试？教你用 4999 元和 5001 元这两块钱的差异，在局部制造完美的随机对照组。 * 🌫️ 当断点遇上“叛逆用户”（模糊断点）：过了门槛客户也不领情激活？没关系！教你把业务阈值直接转化为天然的“工具变量”，用概率的跳跃幅度算出真实的因果效应。 * ☠️ 因果推断的致命克星（簇聚现象/Bunching）：高能预警！如果客户收到了风声，为了“薅羊毛”刻意往账户里存钱凑门槛怎么办？教你画一张简单的直方分布图，让那些人为操纵规则的“羊毛党”原形毕露，保住你的模型底线。如果没有A/B测试的命，那就得学会在死板规则的缝隙里“找”实验！这期教你在杂乱历史数据中“白嫖”因果效应的终极指南，千万不能错过。戴上耳机，我们继续破案！
13分钟 · 3个月前
19
0
《因果侦探》Vol.11 (上)：当用户“不听话”，祭出经济学神兵“工具变量”！
【本期简介】 Vol.11 (上)：A/B测试遭遇“叛逆”用户？祭出经济学神兵“工具变量”！前几期我们设计了各种精妙的实验，但它们都建立在一个极其美好的“童话假设”上：你让用户干嘛，用户就干嘛。但现实是骨感的！你精心挑选了一半用户发送“优质信用卡”邀请，结果一多半人直接扔进了垃圾箱；更气人的是，你没发邀请的对照组里，居然有几个土豪托关系硬是给自己办了一张卡！分配了不等于接受，这就是所有数据分析师的终极噩梦——“非遵从性”（Noncompliance）。用户不按套路出牌，两组数据彻底乱套，这A/B测试还能做吗？绝不认输！本期节目，两位数字侦探将带你打破完美的实验幻想，掏出经济学中最伟大的发明之一——工具变量（Instrumental Variables, IV），教你在混乱的人性中，精准切出真实的因果效应！ 🎧 在这期节目里，你将听到这些颠覆常识的实战干货： * 🤡 实验里的人类图鉴（四类人法则）：“乖宝宝”、“总是接受者”、“永不接受者”还是“对抗者”？做分析前，先教你看透这四种大相径庭的用户心理！ * ☠️ 天真比较的死穴：直接拿“办了卡”和“没办卡”的人对比？快住手！小心算出大得离谱的假数据，把土豪本身的消费力当成了你的业绩！ * 🎲 寻找“上帝的骰子”（工具变量 IV）：什么是合格的工具变量？带你通关它的“四大约束”，像拿手术刀一样剔除隐藏的混淆因子。 * 🪄 化腐朽为神奇的除法（LATE）：被稀释的“意向效应（ITT）”太低老板不满意？教你一个极其优美的魔法公式，只要除以一个“遵从率”，瞬间放大还原出产品真实的商业价值！如果你的业务也经常遇到用户“不听话”、“钻空子”或者“白嫖”，这期教你对付“叛逆用户”的终极防身指南，你千万不能错过！戴上耳机，我们开始在乱麻中破案！
14分钟 · 3个月前
15
0
《因果侦探》-Vol.10 (下)：全公司只在一个城市运营？在时间线里“反复横跳”的终极魔法！
【本期简介】 Vol.10 (下)：全公司只在一个城市运营？在时间线里“反复横跳”的终极魔法！上一期我们还在全国的版图里挑挑拣拣，这一期直接跌入地狱难度：假设你的公司是个初创的外卖或打车平台，满打满算只在一个城市运营（N=1）！没有其他城市做对照（合成控制法直接瘫痪），同一个城市里的骑手和用户还会互相抢单污染（A/B测试全部失效）。空间维度的路被彻底堵死，难道数据分析师只能举手投降？绝不！上帝关上了空间的门，因果侦探带你跳窗进入**“时间维度”**。本期节目，我们将带你玩一场高智商的时间捉迷藏，祭出解决单体网络效应的终极杀招——回溯实验（Switchback Experiment）！ 🎧 在这期节目里，你将听到这些突破物理限制的黑科技： * ⏱️ 在时间线里“反复横跳”：空间切不开？那就在时间上切！教你如何通过按小时“开启-关闭-开启”策略，硬生生从一个城市里榨出因果效应。 * 👻 捕捉时间的幽灵（延滞效应）：上一秒涨价招来的骑手，下一秒降价了还没走怎么办？揪出破坏实验的“后遗症”，测算这只幽灵到底会徘徊几个小时。 * 🗑️ 极其“败家”的 IPW 魔法：为了重塑纯粹的因果宇宙，我们竟然要狠心扔掉 80% 的数据？！看逆倾向性加权如何在时间序列中大海捞针，算出无偏结果。 * 🎲 不要一直抛硬币（最优回溯设计）：丢掉的数据太多导致方差原地爆炸、被老板痛骂？别慌！教你一个天才般的设计：只需微调抛硬币的时间间隔，不用改一行模型代码，方差瞬间暴降！如果你所在的公司涉及外卖、打车、本地生活等存在极强“双边网络效应”的业务，这期教你在绝境中“逆天改命”的时间魔法绝对是你的必修课。戴上耳机，我们开始时间穿梭！
13分钟 · 3个月前
9
0
《因果侦探》-Vol.10 (上)：用合成控制“逆向”手捏完美实验
【本期简介】 Vol.10 (上)：A/B测试穷途末路？用合成控制“逆向”手捏完美实验！做了那么久的“事后诸葛亮”，这一期，我们要开始主动出击了！作为数据打工人，你是不是经常遇到这种让人吐血的业务场景：老板要你在全国投一波广告，你想做 A/B 测试，但发现根本没法把用户彻底切开（因为存在网络效应或者跨渠道污染）。好不容易想到把“城市”作为实验单位，套用公式一算——好家伙，需要4万个城市才能测出显著性，可全中国满打满算才几百个市！连随机实验这条“黄金标准”都走进了死胡同，难道因果推断要就此终结了吗？绝不！本期节目，两位数字侦探将带你完成从“被动分析”到“主动设计”的华丽转身。我们将祭出第9章“合成控制法”的逆向高阶玩法，教你在预算极其有限的情况下，花小钱办大事！ 🎧 在这期节目里，你将听到这些颠覆常识的实验黑魔法： * 🌍 把个体变成城市（地理实验）：当用户之间互相污染时，教你如何升维打击，用“城市隔离”保住实验的纯洁性。 * 🎯 合成控制的“反向操作”：别再随机瞎选试点城市了！教你如何用有限的预算（比如只挑5个城市），精准拼凑出一个能完美代表“全国平均水平”的超级处理组。 * 盲盒📦 大力出奇迹的“盲盒算法”（随机搜索）：面对复杂的 L0 范数数学约束解不出最优解？工程师教你用最朴素的“抽盲盒”策略（Random Search），简单粗暴地揪出最佳城市组合。 * 🦖 警惕“巨无霸”的绑架：为什么跑实验前，必须狠心把“北上广深”或者“圣保罗”这种超大城市关进小黑屋？如果你的公司经常面临大促、线下广告投放、全局策略调整等无法进行传统 A/B 测试的场景，这期“天才级”的实验设计指南你千万不能错过！戴上耳机，我们开始做因果推断界的造物主！
23分钟 · 3个月前
13
0
《因果侦探》-Vol.9 (下)：只有一个样本怎么算P值？因果推断界的“复仇者联盟”震撼登场！
【本期简介】 Vol.9 (下)：只有一个样本怎么算P值？因果推断界的“复仇者联盟”震撼登场！上一期我们化身“科学怪人”，成功用其他城市拼凑出了一个完美的“虚拟圣保罗”，算出了15%的业绩增长。你正准备拿着报告去邀功，老板却冷冷地抛出一个灵魂拷问：“只有一个城市做活动（N=1），你怎么证明这15%不是碰巧的随机波动？你的 P 值是多少？” 哑口无言了吗？在传统的统计学里，没有样本量就没法算方差，更别提显著性了。难道孤本数据注定无法被证明吗？绝不！本期节目，两位数字侦探将带你进入合成控制法的“高阶斗法”阶段。我们将打破常规，教你在绝境中强行自证，并请出目前面板数据分析的最强王者！ 🎧 在这期节目里，你将听到这些颠覆常识的高阶玩法： * 💊 没病吃药的“安慰剂检验”：N=1 算不出 P 值？教你给其他没做活动的城市统统喂下“假药”，只要咱们的城市在平行宇宙里是个鹤立鸡群的“显眼包”，显著性就有了！ * ✂️ 手撕过拟合（去偏合成控制）：历史拟合得太完美？小心掉进噪音的陷阱！手把手教你像做“模拟考”一样切分数据，挤出模型里隐藏的偏差水分。 * 🦸‍♂️ 因果推断的“复仇者联盟”（SDID）：平行趋势不完美（DID失效）+ 找不到完美对照（SC失效）怎么办？祭出终极缝合怪——合成双重差分法！融合两家之长，打造地表最强容错率。如果你不仅想算出 ROI，还想在老板的质疑面前拥有无懈可击的“统计学防弹衣”，这期进阶版“自证指南”你千万不能错过！戴上耳机，我们开始高阶炼金！
16分钟 · 3个月前
8
0
《因果侦探》-Vol.9 (上)：全国只有一个城市做活动？化身“科学怪人”手捏一个平行宇宙！
【本期简介】 Vol.9 (上)：全国只有一个城市做活动？化身“科学怪人”手捏一个平行宇宙！上一期我们刚用双重差分（DID）在面板数据里大杀四方，觉得时间线尽在掌握。但现实往往更残酷：老板一拍脑袋，决定只在“圣保罗”这一个巨型城市搞一场盛大的独家营销。没有其他城市搞活动，更要命的是，圣保罗太特别了，没有任何一个城市的增长趋势跟它是平行的！遇到这种 N=1 的“孤本”数据，A/B测试做不了，DID因为找不到对照组直接瘫痪。难道数据分析师只能两手一摊，告诉老板“算不出ROI”了吗？绝不！本期节目，两位数字侦探将带你走进因果推断的“炼金实验室”，祭出解决单一处理单元的究极魔法——合成控制法（Synthetic Control）。既然现实中找不到完美的对照组，那我们就亲手“捏”一个出来！ 🎧 在这期节目里，你将听到这些硬核又反直觉的黑魔法： * 🧪 数据界的“科学怪人”：找不到完美的对照城市？教你像调鸡尾酒一样，用其他城市的数据，精准拼凑出一个在平行宇宙里没搞活动的“虚拟圣保罗”。 * 🙃 颠覆认知的“水平回归”：别再死板地用特征预测结果了！带你把数据矩阵来个大翻转，用“其他城市”作为变量，强行拟合“目标城市”。 * 🚫 别用普通回归搞破坏：为什么简单的线性回归会算出荒谬的“负权重”？手把手教你给模型加上“封印”（优化约束），彻底告别胡说八道的外推。 * ⏱️ 数据分析师的偷懒神技：为了让对照组更像，还得费劲去匹配GDP、人口和文化？告诉你一个实战秘密：只要历史数据足够长，一条销量曲线就能包打天下！如果你的公司经常搞“独家城市试点”、“单一门店升级”或者“全国唯一首发”，这期教你“无中生有”的造物指南，你绝对不能错过！穿上白大褂，戴上耳机，我们开始炼金！
19分钟 · 3个月前
8
0
《因果侦探》-Vol.8 (下)：诺奖级神兵“双重差分 (DID)”带你手捏平行宇宙！
【本期简介】 Vol.8 (下)：活动分批上线模型就翻车？手把手教你破解 DID 的“致命Bug”！上一期学完“双重差分（DID）”，你是不是觉得自己手里拿着一把神级锤子，看什么业务数据都像钉子？别高兴得太早！现实世界里的钉子往往是歪的。如果两组数据的趋势在干预前就有点“分道扬镳”怎么办？更要命的是，如果业务方不按套路出牌，活动是“分批上线”的（北京5月上，上海6月上，广州7月上），你还能直接用标准模型算吗？高能预警：如果你把这种“交错”的数据直接扔进经典的 DID 模型里，你算出来的业务效果很可能是完全相反的（正效果算成负的）！本期节目，两位数字侦探将带你走入因果推断学术界最“血雨腥风”的前沿阵地，教你在不完美的现实中极地自救！ 🎧 在这期节目里，你将听到这些硬核救命指南： * 🛡️ 给平行趋势上个“双保险”（DR-DID）：趋势不完美只能放弃？教你融合倾向性评分与回归模型，哪怕对世界的运行规律只猜对了一半，也能精准算出真实效应！ * ☠️ 分批上线的终极噩梦（交错采用）：为什么别人都在涨，你的模型却算出负收益？带你手撕传统双向固定效应（TWFE）的底裤，揪出乱点鸳鸯谱的“负权重”内鬼。 * 🔪 手术刀级的时间拆解术（同期组分析）：别再把数据熬成一锅粥了！教你按时间切分“同期组”，只找“清白”的城市做对照，完美还原因果效应。 * 📈 让效果“动”起来（动态效应）：别只给老板一个冷冰冰的平均数。教你画出效果随时间爬坡的“事件研究图”，讲述更有商业价值的增长故事。如果你的公司经常做按城市试点、按批次灰度上线的业务动作，这期帮你避开大坑的“保命指南”你千万千万不能错过！戴上耳机，我们开始 Debug 复杂的时间线！
19分钟 · 3个月前
11
0
《因果侦探》-Vol.7：给机器学习装上“因果大脑”！元学习器大揭秘
【本期简介】 Vol.7：给机器学习装上“因果大脑”！元学习器大揭秘上一期我们终于懂了要算“对谁有效”（CATE）。但是，当你一顿操作猛如虎，发现现实中的用户特征多达几十上百个时，如果全靠手工在回归方程里敲“乘号”（交互项），键盘都要敲冒烟了！更何况，现实世界的商业规律根本不是简单的直线关系啊！作为数据打工人，你肯定在想：既然 XGBoost、LightGBM 这些机器学习大杀器这么牛，我能不能直接把数据喂给它们，让 AI 自己去悟出因果规律？本期节目，我们将带你跨越传统统计学的鸿沟，正式拥抱现代 AI！我们将祭出因果推断领域的前沿黑科技——元学习器（Meta-learners）。它不是一个新算法，而是一个神奇的“外挂框架包”，能让你手头那些只会做预测的模型，瞬间觉醒“因果推断”的超能力！ 🎧 在这期节目里，你将听到这些硬核反转： * 🤖 最符合直觉的翻车陷阱（S学习器）：把“发没发券”当成普通特征直接喂给机器学习？快住手！聪明又“偷懒”的算法会触发“正则化偏差”，直接把你的策略当成噪音给扔掉！ * ⚔️ 左手画圆右手画方（T学习器 & X学习器）：拆分处理组和对照组建模型就能万事大吉？教你如何用神妙的交叉插补法，拯救小样本数据被算法无情“修剪”的命运。 * 👑 因果推断的终极形态（R学习器 / DML）：还记得第4章那个手撕黑盒的 FWL 定理吗？当它插上 AI 的翅膀，进化成双重机器学习（Double ML），高维特征和连续干预（如定价）将面临真正的降维打击！ * 📏 给 AI 当阅卷老师：没有真实因果标签（Ground Truth），我们怎么评判哪个机器学习模型更好？继续祭出我们的神仙工具“累积增益曲线”，在黑暗中选出最强王者。如果你想让你的因果分析摆脱老旧的线性方程，真正拥有处理海量大数据的工业级能力，这期“AI 升级指南”你千万别错过！戴上耳机，我们开始给模型“换脑”！
18分钟 · 3个月前
11
0
《因果侦探》-Vol.8 (上)：诺奖级神兵“双重差分 (DID)”带你手捏平行宇宙！
【本期简介】 Vol.8 (上)：做不了A/B测试？诺奖级神兵“双重差分 (DID)”带你手捏平行宇宙！前几期我们一直在各种算法里“降维打击”，但它们都有一个美好的前提：要么你能做完美的随机A/B测试，要么你手里掌握了所有关键的用户特征。但现实往往很骨感。如果老板让你去三个城市投线下广告牌，你怎么评估转化率？你没法把同一个城市劈成两半做实验，也拿不到每个路人的收入数据。难道这种时候，数据分析师只能靠“拍脑袋”来算 ROI 了吗？绝不！本期节目，两位数字侦探将带你进入宏观政策评估和线下营销的一座超级金矿——面板数据（Panel Data）。我们将祭出曾斩获诺贝尔经济学奖的因果推断大杀器：双重差分法（DID）！看因果推断学家如何利用时间的流逝，硬生生“拼凑”出那个从未发生过的平行宇宙！ 🎧 在这期节目里，你将听到这些硬核干货： * 💥 两次减法的暴力美学：无法随机分组？没关系！教你用最基础的加减法，精妙地剔除城市基因差异和宏观时间趋势，榨出纯粹的因果效应。 * 🪄 一行代码的“黑洞”（双向固定效应 TWFE）：不管城市叫什么、人口多少、文化怎样，只要特征不随时间变化，一行代码全给你控制住！ * ☠️ DID 的阿喀琉斯之踵（平行趋势）：双重差分不是万能灵药！如果两组数据在干预前没有像铁轨一样平行，你算出的结果全是垃圾。跑模型前，教你怎么画图“验明正身”。 * 🤡 别再用 P 值骗自己（聚类标准误）：为什么你跑出来的结果极其显著，却大概率是假的假阳性？揪出“序列相关”这个内鬼，撕开统计学里的盲目自信。如果你的业务涉及线下投放、宏观策略或城市级别的试点，这期教你“凭空造对照组”的硬核指南绝对不能错过！戴上耳机，我们一起进入因果的平行宇宙！
18分钟 · 3个月前
7
0
<因果侦探>-第六章（下）：效应异质性
【本期简介】 Vol.6：平均值已死！别再把营销预算浪费在“铁粉”身上了前几期我们费了九牛二虎之力，终于算出了一个完美的“平均处理效应（ATE）”。你拿着报告兴冲冲地跑去跟老板说：“全场发8折券，平均留存率能提升10%！” 结果财务找上门了：“我们亏麻了！你们把打折券全发给了那些本来就会原价购买的老客户！” 欢迎来到因果推断商业变现的最深水区——个性化决策（精准营销）！在这个世界里，“平均有效”是一句废话。商业竞争的本质是：到底对谁有效？本期节目，两位数字侦探将带你打破“一刀切”的平均思维，手把手教你把好钢用在刀刃上。 🎧 在这期节目里，你将听到这些颠覆认知的实战干货： * 🎯 告别“大锅饭”：为什么算出了整体有效还是会亏钱？教你完成从 ATE 到 CATE（条件平均处理效应）的终极思维跃迁。 * 🤡 传统预测模型的致命陷阱：用机器学习预测出“最可能购买”的人发优惠券？大错特错！教你区分“好客户”与“容易被说服的客户”，彻底停止给铁粉送羊毛。 * 🪄 回归方程里的“魔法乘号”：原来只需要在代码里加一个小小的交互项，普通的线性模型就能秒变“千人千面”的精准营销利器。 * 📈 没有标准答案的试卷怎么打分？：个人的真实因果效应永远无法被观测（没有 Ground Truth），我们该怎么向老板证明模型是准的？手把手教你画出决定因果模型生死的“神仙曲线”——累积增益曲线！如果你的公司正在做老客召回、发券打折、或者动态定价，这期含金量极高的“搞钱”指南你千万不能错过。带上你的防偏见眼镜，我们开始给用户“号脉”了！
15分钟 · 3个月前
7
0
<因果侦探>-第六章（上）：效应异质性
【本期简介】 Vol.6：平均值已死！别再把营销预算浪费在“铁粉”身上了前几期我们费了九牛二虎之力，终于算出了一个完美的“平均处理效应（ATE）”。你拿着报告兴冲冲地跑去跟老板说：“全场发8折券，平均留存率能提升10%！” 结果财务找上门了：“我们亏麻了！你们把打折券全发给了那些本来就会原价购买的老客户！” 欢迎来到因果推断商业变现的最深水区——个性化决策（精准营销）！在这个世界里，“平均有效”是一句废话。商业竞争的本质是：到底对谁有效？本期节目，两位数字侦探将带你打破“一刀切”的平均思维，手把手教你把好钢用在刀刃上。 🎧 在这期节目里，你将听到这些颠覆认知的实战干货： * 🎯 告别“大锅饭”：为什么算出了整体有效还是会亏钱？教你完成从 ATE 到 CATE（条件平均处理效应）的终极思维跃迁。 * 🤡 传统预测模型的致命陷阱：用机器学习预测出“最可能购买”的人发优惠券？大错特错！教你区分“好客户”与“容易被说服的客户”，彻底停止给铁粉送羊毛。 * 🪄 回归方程里的“魔法乘号”：原来只需要在代码里加一个小小的交互项，普通的线性模型就能秒变“千人千面”的精准营销利器。 * 📈 没有标准答案的试卷怎么打分？：个人的真实因果效应永远无法被观测（没有 Ground Truth），我们该怎么向老板证明模型是准的？手把手教你画出决定因果模型生死的“神仙曲线”——累积增益曲线！如果你的公司正在做老客召回、发券打折、或者动态定价，这期含金量极高的“搞钱”指南你千万不能错过。带上你的防偏见眼镜，我们开始给用户“号脉”了！
18分钟 · 3个月前
14
0
《因果侦探》-第五章（上）：倾向性得分
上一期刚夸完线性回归，这期遇到几十个甚至上百个特征（年龄、收入、部门、历史绩效……），模型是不是直接“维度爆炸”当场卡死了？在多维空间里找两个相似的人，简直比大海捞针还难！别慌！本期节目，我们将请出因果推断界的超级网红、解决高维灾难的究极武器——倾向性评分（Propensity Score）。看因果推断学家如何像造物主一样，不预测结果，只预测“概率”，硬生生把错综复杂的现实数据，扭曲成一个绝对公平的平行宇宙！ 🎧 在这期节目里，你将听到这些高能反转： * 🪄 降维打击的魔法：别再死磕几十个特征了！教你如何用逻辑回归把海量维度压缩成一个 0 到 1 之间的“魔法数字”。 * 💔 “门当户对”的相亲陷阱：老板最爱听的 1对1 匹配法（PSM）其实是个大坑？告诉你为什么随便丢弃匹配不上的数据是分析师的大忌！ * 🌌 重塑数据宇宙（IPW）：什么？这人不该买居然买了？！教你用“逆倾向性加权”就地克隆罕见样本，凭空捏造出一个完全没有偏见的“伪群体”。 * 🛡️ 稳赚不赔的“双保险”：线性回归和IPW不知道该选谁？祭出因果领域的究极防弹衣——双重稳健估计（DR）！哪怕你对这个世界的运行规律只猜对了一半，你算出来的ROI依然是无懈可击的！如果你正被成堆的特征变量搞得焦头烂额，这期“降维魔法”绝对能让你豁然开朗。准备好重塑你的数据宇宙了吗？戴上耳机，见证奇迹！
17分钟 · 3个月前
6
0
<因果侦探>-第五章（下）：倾向性得分
上一期刚夸完线性回归，这期遇到几十个甚至上百个特征（年龄、收入、部门、历史绩效……），模型是不是直接“维度爆炸”当场卡死了？在多维空间里找两个相似的人，简直比大海捞针还难！别慌！本期节目，我们将请出因果推断界的超级网红、解决高维灾难的究极武器——倾向性评分（Propensity Score）。看因果推断学家如何像造物主一样，不预测结果，只预测“概率”，硬生生把错综复杂的现实数据，扭曲成一个绝对公平的平行宇宙！ 🎧 在这期节目里，你将听到这些高能反转： * 🪄 降维打击的魔法：别再死磕几十个特征了！教你如何用逻辑回归把海量维度压缩成一个 0 到 1 之间的“魔法数字”。 * 💔 “门当户对”的相亲陷阱：老板最爱听的 1对1 匹配法（PSM）其实是个大坑？告诉你为什么随便丢弃匹配不上的数据是分析师的大忌！ * 🌌 重塑数据宇宙（IPW）：什么？这人不该买居然买了？！教你用“逆倾向性加权”就地克隆罕见样本，凭空捏造出一个完全没有偏见的“伪群体”。 * 🛡️ 稳赚不赔的“双保险”：线性回归和IPW不知道该选谁？祭出因果领域的究极防弹衣——双重稳健估计（DR）！哪怕你对这个世界的运行规律只猜对了一半，你算出来的ROI依然是无懈可击的！如果你正被成堆的特征变量搞得焦头烂额，这期“降维魔法”绝对能让你豁然开朗。准备好重塑你的数据宇宙了吗？戴上耳机，见证奇迹！
20分钟 · 3个月前
5
0
《因果侦探》-第四章：线性回归的不合理有效性
【本期简介】 Vol.4 (下)：回归的“暗黑面”，为什么特征加得越多，模型死得越快？上一期我们把线性回归捧上了天，觉得它是剔除偏见的神器。但这期，我们要来揭它的短了！作为数据打工人，你是不是经常有一种“火力不足恐惧症”——习惯性地把数据库里能找到的字段，一股脑儿全塞进模型里当控制变量，觉得“特征越多，模型越准”？赶紧住手！你的模型可能已经被你亲手喂了“毒药”！本期节目，我们将带你直面线性回归极其危险的“暗黑属性”。不搞懂这些，你的因果推断随时会变成一场灾难！ 🎧 在这期节目里，你将听到这些颠覆常识的真相： * 👻 极其危险的“脑补”绝技（外推陷阱）：当低收入和高收入人群的数据断层时，回归不仅不会报错，还会理直气壮地强行帮你“画饼”延展！教你如何破解模型非线性的谎言。 * ⚖️ 回归竟然是个“偏心眼”（方差加权）：你以为算出来的是所有人的平均效应？大错特错！回归根本不在乎哪组人数多，它只偏爱那些“上下横跳、方差最大”的极端群体。小心你的结论被一小撮人彻底带偏！ * 💻 一招拯救内存溢出（去均值魔法）：想要控制 10 万个城市或者 100 万个用户的分类变量？别再傻傻建虚拟变量把服务器跑崩了！一个简单的数学小动作，教你优雅绕过内存地狱。 * ☠️ 揪出模型里的“毒药”（噪声诱导控制）：高能预警！有一种看似人畜无害的“中性特征”，一旦加进模型，不仅不能去偏，还会瞬间吸干处理变量的方差，让你的标准误和 P 值原地爆炸！听完这期，你绝对不敢再闭着眼睛敲 Y ~ T + X1 + X2... 了。准备好打破你的建模常识了吗？戴上耳机，我们继续破案！
16分钟 · 3个月前
5
1
《因果侦探》-第四章（上）：线性回归的不合理有效性
【本期简介】 Vol.4 (上)：老掉牙的线性回归，凭什么是因果推断的“扫地僧”？当你刚学完画因果图，兴冲冲地想要在数据里“控制”用户的收入、年龄、信用分等一大堆混淆因子时，是不是发现数据被切得稀碎，有些格子里连个人影都没有？恭喜你，你撞上了传说中的“维度灾难”。这种时候该怎么办？本期节目，我们将带你重新认识数据科学界最古老、也最被低估的“上古神器”——线性回归 (Linear Regression)。别以为它只是刚入门时学的那个平平无奇的 y = wx + b。在因果推断的世界里，它不仅是一台强大的“降维机器”，更是一把能精准剔除偏见的数学手术刀！ 🎧 在这期节目里，你会听到： * 🪄 变魔术的“加号”：为什么在代码里仅仅多加一个变量，原本“信用卡额度越高、违约率越低”的荒谬结论，瞬间就反转成了真相？ * 🔪 手撕算法黑盒（FWL定理）：别再只当个无情的“调包侠”！我们将为你拆解计量经济学皇冠上的明珠——弗里希-沃-洛弗尔定理（FWL）。带你直击底层，看回归是如何通过纯手工的“去偏”和“去噪”三步走，把脏数据洗得干干净净！ * 🤫 A/B测试的隐藏大招：既然已经做好了完美的随机实验（没有混淆因子），为啥大佬们还要把数据扔进回归模型里？教你用回归“吸走”方差噪音，拯救你那些怎么测都不显著的 P 值！如果你一直觉得模型是个黑盒，或者常常被多维数据搞得焦头烂额，这期硬核又好玩的回归大揭秘，你千万不能错过！带好你的防偏见眼镜，我们开始破案！
22分钟 · 3个月前
12
0

告别“拍脑袋决策”，轻松破译商业因果定律！在这个跑模型不稀奇的年代，你算出打折能涨销量，老板却问“给谁打折不亏本？”；想做A/B测试，业务却说“全国齐上没对照组”；发了优惠券，用户还不领情！“相关不等于因果”，怎么在烂数据里揪出真实的“因果效应”？《因果侦探》是为你定制的数据科学“脱口秀”。没有催眠的公式，只有两位“数字侦探”的日常互怼，把烧脑算法变成一个个职场破案故事。【你将听到】 🔍 画图定生死：加错变量结论全反？教你避开对撞因子大坑。 - 告别平均主义：别给铁粉发羊毛！用元学习器玩转精准营销。 - 无中生有的对照组：A/B测试做不了？用双重差分和合成控制拼凑平行宇宙。 - 白嫖大自然的实验：用户不听话？巧用断点设计和工具变量找真相。无论你是被折磨的分析师、背KPI的营销人，还是单纯好奇的吃瓜群众，戴上因果的放大镜，跟我们一起看透数据背后的真相！欢迎订阅！