#60. 大数据的关键技术——数据仓库牛油果烤面包

#60. 大数据的关键技术——数据仓库

47分钟 ·
播放数3966
·
评论数21

“数据仓库”是一种数据库系统。我们现在经常说的“大数据”很多时候正是在“数据仓库”这种系统中进行查询和分析。这一集节目,我们来聊一聊数据仓库是什么、它的历史、它的关键技术,以及相关系统。

主播:斯图亚特、Sean Wang、Cat Chen
剪辑:王立冰

时间线

  • 01:34 什么是数据仓库
  • 12:26 数据仓库的技术
  • 36:29 ETL :抽取(Extract)、转置(Transform)、载入(Load)
  • 43:06 数据仓库和机器学习

本期内容

什么是数据仓库

  • 两套数据库系统:运营系统和数据仓库
  • 数据仓库的历史
  • 互联网公司引领的数据仓库潮流数据仓库的技术
  • 里程碑论文: Mike Stonebraker: "One size fits all": an idea whose time has come and gone (2005)
  • 列存储
  • 和运营系统技术特点的差别
  • MapReduce及其争议。
  • Hive开启的Hadoop生态系统中的SQL
  • 几大云数据仓库系统(Redshift、BigQuery,Azure,Snowflake)ETL :抽取(Extract)、转置(Transform)、载入(Load)
  • 如何把数据载入数据仓库
  • 数据清洗和数据整合
  • HTAP(Hybrid transactional/analytical processing)数据仓库和机器学习

播客邮件地址
host@avocadotoast.live

相关链接

  • Bill Inmon 1970年代提出这个单词? en.wikipedia.org
  • In 1988, IBM researchers Barry Devlin and Paul Murphy coined the term information warehouse, and IT shops began building experimental data warehouses. In 1991, W.H. "Bill" Inmon made data warehouses practical when he published a how-to guide, Building the Data Warehouse (John Wiley & Sons). web.archive.org
  • Mike Stonebraker的里程碑论文: Michael Stonebraker and Ugur Cetintemel. 2005. "One Size Fits All": An Idea Whose Time Has Come and Gone. In Proceedings of the 21st International Conference on Data Engineering (ICDE '05).
  • 两位数据库大佬David Dewitt and Mike Stonebraker对MapReduce的批评: ”MapReduce: A major step backwards” homes.cs.washington.edu

封面图片:
Image by Pexels from Pixabay

片头片尾音乐
Exzel Music Publishing (freemusicpublicdomain.com)
Licensed under Creative Commons: By Attribution 3.0
creativecommons.org
Courante 1st Cello Suite

展开Show Notes
白穆
白穆
2020.12.11
非常喜欢这几期,包括之前那期存储相关的。希望可以多出点类似的节目呀
vindy
:
感谢喜欢!我们会持续录制硬核技术节目哒~也非常欢迎留言反馈😊
Kay_GvEi
Kay_GvEi
2021.1.01
36:29 1. IBM sql service
2. Google Map Reduce
3. Hadoop
4. 云厂 - redshift,snowflake和云厂硬刚

小楼023
小楼023
2020.12.14
喜欢你们的节目
avocadotoast
avocadotoast
2020.12.10
请问怎么加听众群呢
斯图亚特
:
TG群 https://t.me/avocadotoastlisteners 微信群可以先加我 stuart983
JL_oLzW:Stuart大佬是计算机专业背景吗?想做数据库方向,请问研究生读数据科学还是计算机?
3条回复
deledeleda
deledeleda
2020.12.10
假装听的很明白的留痕( :∇:)
斯图亚特
:
谢谢关注。能不能给一点反馈,哪一部分需要讲的更明白一点?
HD58094j
HD58094j
2020.12.10
请问怎么加微信群啊?怎么联系到主播😂
斯图亚特
:
TG群 https://t.me/avocadotoastlisteners 微信群可以先加我 stuart983
segfault
segfault
2021.10.20
是不是可以出一期关于Lakehouse的节目了
虎耳Robin
虎耳Robin
2021.8.19
主要是现在单点读写和聚合查询很难共存在一个数据库。
有的就是单加个列式存储模式。
葛瑞葛瑞
葛瑞葛瑞
2020.12.10
讲得好!
HD291054x
HD291054x
2024.2.27
讲得非常好!对于分析师来说正好听得懂!
22:19 数据的数据
受益匪浅,讲的很清楚~
喜欢你们的节目
nskz
nskz
2021.1.29
学习到很多!
JERRYJAZZY
JERRYJAZZY
2021.1.22
很赞,支持