JC58 | 我们被数字欺骗了吗?聊聊大众传播中的数据误导各站停车 | Local FM

JC58 | 我们被数字欺骗了吗?聊聊大众传播中的数据误导

56分钟 ·
播放数4875
·
评论数44

“用数据说话”是互联网时代的通用思维方式。有人说数据不会骗人,真的是这样吗?大众传播中的数据误导,常出现在热搜、爆款文章标题里,它们简单直给,吸引眼球,挑起我们激烈的情绪反应。我们都曾经或正在被这些东西蒙蔽,却往往毫无察觉,甚至乐在其中。

可是,这些数字的来源真的可靠吗?就算数据是真实的,它的计算方法与形成方式,也有可能埋藏着许多陷阱,甚至会导向截然相反的结论。我们参考《拆穿数据胡扯》这本工具书,借助丰富的案例,一起试图辨析数字背后的认知规律。相关不等于因果,归因可能失焦,而作为指标的数据更可能骗人。希望本期的讨论,能帮助你在这个信息爆炸的数字化时代,更好地处理信息、形成观念。

| 谈话人

蛋妞、小盒子

| 时间轴

Part1.丰富的案例

03:28 作为标题和概念的数字,如何在传播里影响我们的观念?

07:25 躲在数字与数据之下的新派胡扯,比靠修辞的老派胡扯更隐蔽、更有害

10:00 案例1:现代汉语中有70%的词汇来自日语……吗?

15:46 案例2:“棉花糖实验”的启示——「相关」不等于「因果」

20:04 案例3:男医生和女医生谁更容易导致患者死亡?——关注度与归因误导

26:44 案例4:修墙与灭鼠;古德哈特定律:指标变成了目标,就不再是一个好的指标

31:13 案例5:大学排名为什么经常上下浮动?

38:03 案例6:留学生回国比例高达85%?

42:29 案例7:高中升学率与死刑执行率;辛普森悖论:总体结论和部分结论居然相反?

Part2.识别的方法

47:16 关注信息来源,思考几个问题:

  • A.谁告诉我的?
  • B.他是怎么知道的?
  • C.他为什么要对我说这个?

49:57 不存在绝对准确的信源,仍然需要多方对比

53:56 思考题:续作的评分会比前作更高or更低?

| 参考书目

《拆穿数据胡扯:信息驱动世界的生存指南》,[美]卡尔·伯格斯特龙 / [美]杰文·韦斯特,中信出版社,2022年

展开Show Notes
置顶
💡欢迎大家分享生活工作中各种「数字误导」的案例,以及你是如何应对这种问题的?我们将在评论区中选出2位听友赠出由中信出版集团出品的《拆穿数据胡扯》各1册。
另外,添加小助手localfm2021,加入听友群,也有抽奖赠书活动。

相关单集:
JC20 | 中文70%词汇来自日语吗?浅谈中日的“语词漫游”
JC44 | 信息过载时代,「热搜」如何影响我们的情绪?
39:16 我在米国在混一个合同工工作,惭愧
现身说法一下我对米国留学生就业的想法:
1. 很多专业几乎无法留美,譬如金融之类。米国的政策解释起来很复杂但简单说他们更愿意要理工科,其中计算机相对找。我来美国前是工科,强行转了计算机。我见到个别米国博士毕业(有学昆虫的,有GIS的)出来找不到工作,最后强行再读一个计算机硕士的。
2. 大公司竞争激烈,小公司不给配套的政策。我毕业那会准备不足不敢面大公司,专门找东北部本地小公司面试,有一家中型企业已经给我口头offer,后来知道我不是米国人随即撤回。
3. 前几年川普在任期间反移民,公司需要付更多钱和法务才能招外国人,雪上加霜。
4. 绝大部分留学生还是学生思维,没人脉又不够灵活,米国找工作时间线又卡得很死。你如果不是特别努力or天生优秀,那么在读书短短两年时间内找工这事不比国内找工简单。而所谓的灵活方法(譬如像我这样做合同工,还有些违x手段),也有待遇低和赌的成分,就看你造化了。
5. 哪怕你最终找到了,没几年还要抽签(工作签证),我听过有那种简历开挂的天之骄子就是抽不中的。
蛋妞_各站停车FM
:
恭喜你中奖了,感谢你认真评论🎉!获得《拆穿数据胡扯》1本!请添加小助手账号localfm2021,备注「抽奖」,提供收货信息🥳 如果人在海外,可以提供国内的收货地址,或者你愿意把机会让给其它听友也可以。
黑色小卤蛋:再次强调,我说的这是普通人,不包括名校天选之人。
3条回复
数据的欺骗性,要观察数据样本的大小,样本来源的是否科学可信任。小样本的数据,基本上都是任人打扮的花姑娘。

同时,不同角度的数据可能还会有截然相反的结果。不同计算方法的数据可能会出现截然相反的结果。不同参照物的数据可能给人截然相反的数据感受。

不用造假,真实的数据都有这么多坑。推荐大家阅读《后真相时代》。可以看看别人做宣传工作,怎么把数据玩熟。
蛋妞_各站停车FM
:
谢谢补充!那本也很值得一读。可能真正客观的数字只有在数学里了,一旦落实到社科领域就也偏差
最后的问题很有意思。我简单说一下我的一个思路。一个电影rating的问题 可以看成是一个离散型的概率分布(0 1 2 3 4 5) 取值。这部电影是“续作”可以认为是一个prior 先验分布。这个简化成第一部的评分分布。为了共轭 那么可以简化成dirichlet prior用来model前一部的影响,data observe likelihood是一个multi dimensional的分布,那么就可以模拟一下后验分布,这个后验应该是续作的评分分布了。可以简化用”mode”来做最后续作的分数。一点小想法。见笑了
小盒子_各站停车FM
:
以前在github上看到过有人写了一个算法来爬IMDB评分网站上的数据,结论是续作比前作低分的趋势更明显……当然这也和这几年新作疲软、狗尾续貂卖情怀的环境有关(比如黑客帝国4
丫丫鱼的日日听:太强了。现在估计爬不了啥了吧……
编号2538
编号2538
2022.10.16
我举几个例子,是我一时想到的几种常见的数据误导。

一是过分乐观的数据。比如中国体育行业2025年将达到五万亿规模的估算(国务院46号文件),背后假设2013年至2020年行业年增长率为16%,2021年至2025年年增长率为10%。类似对市场规模的夸大,各行各业皆有。

也有相反的情况。有些美国和澳大利亚的养老院看似连年亏损,实则可能通过关联交易把利润转移至监管较宽松的行业 -- 例如向房东支付租金,或者外包餐饮服务给第三方,几家公司实际的老板自然是一人 (Tax Avoidance by For-profit Aged Care Companies 2018)。

有的数据则少了背景信息。一些人认为,澳大利亚原住民在押期间死亡(death in custody)是警察过度执法或系统性种族歧视的恶果。卫报的一篇深度报道开宗明义:“At least 474 Aboriginal and Torres Strait Islander people have died in custody since...1991”。但按照比例来看,从2003-04年开始,原住民在押期间的死亡率便一直低于非原住民。据澳大利亚犯罪学研究所的数据(2018-19年),原住民的死亡率为每100名囚犯0.13,非原住民为0.23。

话说回来,以上的数据也只冰山一角,还需更多的数据和背景构成全貌,这里就按此不表了。
蛋妞_各站停车FM
:
恭喜你中奖了,感谢你认真评论🎉!获得《拆穿数据胡扯》1本!请添加小助手账号localfm2021,备注「抽奖」,提供收货信息🥳
蛋妞_各站停车FM
:
谢谢补充。第一种非常常见,把当下的增长推演到未来,前几年对电影票房的乐观也是如此,但是现在的状况都已经说明问题了
3条回复
你的逃宝
你的逃宝
2022.10.19
16:02 “相关”不等于“因果”
图南_
图南_
2022.10.16
06:57 最近发现对于不同词语,每个人的定义都是不一样的,大家在沟通过程中只是一个意义协商的过程,慢慢开始觉得文本中单独的数据或许也不能单独的去看,而是要去思考这些数据的有效性和信度,这一期来得超及时。 听到这儿先总结一下,超级同意了解文本中的数字传达信息的单面性是防御性,洞察数据将会给人带来的认知改变是攻击性。这
小盒子_各站停车FM
:
"效度"(Validity)和"信度"(Reliability)是分析科学实验的两个维度,尤其是各种心理学实验
catos
catos
2022.10.19
46:38 这也许就是数字时代偏听和兼听的现状吧。阅读者既要主观希望去做到,又要客观上能够获得全部(准确的)数据信息。难度不低。
蛋妞_各站停车FM
:
正是如此
某戴同学
某戴同学
2022.10.16
数据最客观,但处理过的数据却可能最胡扯
lemon_kR1h
lemon_kR1h
2022.11.17
以前填志愿的时候就是根据学校排名来填的,但我根本没有考虑排名的依据是啥,导致现在……
歸鄉
歸鄉
2022.10.18
最近刚好在看这本书!
是阿紫
是阿紫
2022.10.18
53:16 真话不全说 假话全不说
编号2538
编号2538
2022.10.16
再补充一段对数字人文的评价。

“This information often tells us more about the software platform collecting the information and the apparatus that we're using than the actual content that we are concerned with...”

Strange Bedfellows: Digital Humanities, Internet Art, and the Weird Internet,值得一读。
宇宙CM
宇宙CM
2022.10.16
数字=事实=科学?扯!太需要信息健康啦!
小盒子_各站停车FM
:
划等号,需谨慎~
宇宙CM:对√
这些论文真的没有考虑/控制到其他变量吗?感觉不应该吧,这么显而易见的影响因素编辑也不会无视啊,想求原文!
蛋妞_各站停车FM
:
第一是时间比较早,方法论上还不完善。第二是变量不可能完全都控制,相关因素可以是无穷多的
Anna丁
Anna丁
2022.10.16
这期终于来了👌👌
JACKIE启
JACKIE启
2022.10.16
这个话题值得深入探讨
从容抢一
HD861198n
HD861198n
2023.1.15
30:56 目标侵蚀
马戏牧师
马戏牧师
2023.1.14
55:50 非常干货,非常好👌🏻