S6E06 硅谷徐老师|对话Databricks联合创始人Reynold Xin:380 亿美元估值背后的长期主义What's Next|科技早知道

S6E06 硅谷徐老师|对话Databricks联合创始人Reynold Xin:380 亿美元估值背后的长期主义

79分钟 ·
播放数10543
·
评论数67

Databricks 为什么是 Howie 眼里今后十年最优秀的那一批大数据公司?作为被 Bloomberg 等媒体评为 2022 年最值得期待 IPO 的公司之一,Databricks 的投资人名单聚集了亚马逊、谷歌、Salesforce、摩根士丹利、贝莱德、T. Rowe Price、Fidelity、A16Z 等主要厂商和顶级基金,不少投资人认为,上市后的 Databricks 将对齐目前市场估值 760 亿美元的 Snowflake,成为未来全球最有影响力的大数据厂商。

本期节目,主播 徐皞 邀请 Databricks 联合创始人 Reynold Xin 辛湜,从创立初期讲起,深度分享大数据明星公司如何从小项目完成蜕变。Databricks 是怎么在十年前就确定自己的产品与商业模式,为什么不走定制化项目,为什么坚决走「云」?在后期从 1 到 100 的发展中,又是如何应对亚马逊微软等超级巨头的挑战?Snowflake 和 Databricks 如何看待彼此?为什么 Lake House 会是一个好赛道?Reynold 分享给 A16Z 等风投机构的独门人才招聘秘籍是什么?随着行业越来越成熟,大数据产业的下一个发展周期还会有哪些机遇?听完 Reynold的分享,可能我们每个人都会逐渐理解,为什么对大数据和人工智能的创业者和从业人员来说,长期主义非常必要。

本期人物
徐皞,硅谷连续创业者、高管、投资人、斯坦福商学院客座讲师,「科技早知道」主播,推特账号(@H0wie_Xu),公众号(硅谷云)
Reynold Xin,Databricks 联合创始人

主要话题
03:03 Databricks 卖周边、会议门票的收入比实际产品还要多?
07:39 为什么创业早期就决定针对「云」?
16:21 从 2008 年、2009 年看,并不知道属于「云」的未来什么会到
26:26 为什么在开源上亚马逊竞争不过 Databricks ?
33:29 Databricks 业务暴增的转折点是什么?
43:51 为什么说未来是「湖仓一体」?
52:26 Reynold 关于管理、招聘以及创业的方法论和心得
01:09:53 大数据与人工智能的下一个机遇在哪里?SaaS 模式还能如何探索?

延伸阅读

  • TechCrunch 关于 Databricks 实现高速增长并达到 380亿美元估值的报道:As Databricks reaches $800M ARR, a fresh look at its last private valuation
  • Databricks 关于 Lake House 的解释:What Is a Lakehouse?
  • Databricks:2013 年成立于美国旧金山的大数据独角兽,公司雏形诞生于 Apache Spark,通过开源 SaaS 模式服务企业客户,合作对象包括微软、谷歌、阿里巴巴等互联网巨头;初期面对的竞争对手包括行业巨头 Hortonworks、Cloudarea、亚马逊,后期的主要竞争对手包括同为独角兽的 Snowflake,2021 年 8 月完成 16 亿美元的 H 轮融资,估值 380 亿美元。
  • Docker:跟 Databricks 类似的大数据公司,2019-2021 年曾面临较大经营困境,近期刚完成 1.05亿美元由 Bain Capital 领投的C轮融资,最新估值 21 亿美元。
  • Apache Spark:比较主流的开源大数据处理框架,由加州大学伯克利分校的 AMP Lab 开发,可以独立部署也可以部署在 Hadoop 集群中,与 MapReduce 类似但速度更快。
  • Data Warehouse:数据仓,用于报告的数据分析的系统,BI 的核心组件,通常为业务人员使用,通常会与数据科学家常用的 Data Lake (数据湖)比较。

往期节目

使用音乐
I Can't Get Enough - Love Beans

幕后制作
监制:刘灿
后期:Luke、Jack
运营:Yao
封面设计:饭团

关于节目
原「硅谷早知道」,全新改版后为「What's Next|科技早知道」。放眼全球,聚焦科技发展,关注商业格局变化。

关于我们
声动活泼的宗旨是「用声音碰撞世界」,致力于为人们提供源源不断的思考养料。

欢迎加入声动胡同小社区!
也许你知道「声动活泼」办公室在北京二环内的胡同里,事实上我们也有一个线上的「声动胡同小社区」。成为社区会员,你可以收到一周不少于三次的来自「声动小邮筒」的邮件,同时还可以参加我们各种各样的线上和线下活动,或者是一些有趣的游戏。

点击这里即可了解社区氛围。我们期待你加入这个虚拟胡同社区来支持我们,并和我们一起亲近交流,和有趣的人进行「碰撞」,收获新知、友谊并看见更大的世界。

国内用户(年付):加入声动胡同小社区
海外用户(月付):加入声动胡同小社区
期待你的加入!

Special Guest: Reynold Xin.

展开Show Notes
KaylaKK
KaylaKK
2022.4.07
好喜欢这期!无论是Howie的提问还是Reynold的回答都非常干货。开篇的databricks三个选择就非常有意思,从hindsight来说都选对了,但是确实能看长远选方向是非常有挑战的事情。datalake解释非常清楚,特别是由于权限不一致导致得出不一致结论的痛点是之前没有想过的角度。希望有更多类似的嘉宾对谈~
硅谷徐老师:Also a bit like Apple vs Android😂
cacoschphou:00:00 嗯嗯!
4条回复
liancheng
liancheng
2022.4.07
Reynold 没提到的是 Above the Clouds: A Berkeley View of Cloud Computing 这篇论文的一作正是 Spark SQL 和 Delta Lake 的作者 Michael Armbrust。
丁教Diane
:
评论区太强了
segfault:活捉某乎大v🥳
3条回复
我贴一个听众给我在微信朋友圈的留言。我个人并不一定完全同意他的观点,但对于所有对数据软件有兴趣的同学可以琢磨一下:

全部听完了,非常精彩[强] 我觉的Databricks主要转折点不是云化,而是因为Hadoop时代的告终和去Hive的趋势,例如Facebook去年全部结束了Hive,EMR和HDinsight都是云化的,但基于Hadoop开始的,Cloudera也一样。从产品生命周期,Spark本身也在慢慢成熟或消退,另一方面由于Flink和dbt等更实时或敏捷的工具的出现,还包括现在许多场景(数据湖)从ETL转向了ELT,第二个T用Spark好像有点慢了或不灵活,一般会用Presto等。Databricks由Spark起家,目前它应该是其最大收入,但我觉得Databricks估值大涨,应该与Snowflake近年的高估值和BI向AI的趋势二方面更加相关,也就意味着与Databricks两个新概念更相关:基于DeltaLake的Lakehouse和针对MLOps的MLFlow,如果将来能对这二方面深入聊聊,也蛮有意思[微笑]
很喜欢的一个访谈,明显能感受到Howie和Reynold都是切切实实的创业者,都是趟着坑走到今天的,非常实在的把趟坑的经历和心得分享给了大家。做toB的生意,只有躬身其中了才能知道什么是错、什么是对,纸上得来终觉浅。我个人非常赞同湖仓一体的发展判断,数据价值的发挥需要平衡好数据的准确性、时效性、完备性,数据价值终要用于优化运营,而运营一定是个实时动态的过程。解决好这些问题需要从一个复杂架构的视角去看待问题,而不仅仅是一个技术产品,是一个技术体系。在云时代,如果搭建好这样的技术体系,就是最好的壁垒。
肉圆花卷
肉圆花卷
2022.4.07
真是为了这期节目 下载小宇宙app 这期太牛了
good_luck
good_luck
2022.4.06
可以可以 多来几个这个系列
丁教Diane
:
可以可以
大家好我是小朋友:捕捉Diane
zzmxqsm
zzmxqsm
2022.4.07
26:33 Amazon 不招特别好的 engineer 😂😂😂
cacoschphou::-)
yetingsky:国内也是这样,国内的这波 data infra 领域的创业潮也把不少国内大厂和云计算厂商的优秀工程师挖走了
再贴一个评论供大家参考:

“很喜欢的一个访谈,明显能感受到Howie和Reynold都是切切实实的创业者,都是趟着坑走到今天的,非常实在的把趟坑的经历和心得分享给了大家。做toB的生意,只有躬身其中了才能知道什么是错、什么是对,纸上得来终觉浅。我个人非常赞同湖仓一体的发展判断,数据价值的发挥需要平衡好数据的准确性、时效性、完备性,数据价值终要用于优化运营,而运营一定是个实时动态的过程。解决好这些问题需要从一个复杂架构的视角去看待问题,而不仅仅是一个技术产品,是一个技术体系。在云时代,如果搭建好这样的技术体系,就是最好的壁垒。”
HD760166x
HD760166x
2022.4.07
我觉得主持人个人解读有点过多
硅谷徐老师:我觉得你的观察是正确的。 1)有一些Databricks的观点不代表是业界的标准答案,照搬可能会误人,所以我会凭自己的创业经验去评论或者解读一下。 我是连续创业者包括上市公司和并购,所以的确是加了一些个人观点。 😂 2)我们的讨论是完全即兴的,Reynold事先不知道我会问什么(但他的回答依然如此精彩!!),我也不一定知道他的回答,有些观点需要一点时间消化才去评论,的确有时一边思考,一边评论。以后可以评论精简一些。谢谢你的宝贵意见👍😄。
cacoschphou::-()Howie跟Reynold很熟,所以会有很多自己的理解吧,希望大家对付出时间和热情的主播多一些理解
3条回复
pp体操
pp体操
2022.4.06
嘉宾太强大了
Amkwtl
Amkwtl
2022.4.06
这期很强
LeslieHuang
LeslieHuang
2022.4.08
这期很好,全程认真听完
Wayway
Wayway
2022.4.07
硬核的讨论!对于数据库和数据湖还没有搞清楚的我来说,率先去自学了一通!如何利用好获得的大数据,是一个特别有价值的方向🧭!
丁教Diane
:
感觉可以绕口令了,东边来了个数据库,西边来个个数据湖
Wayway:确实!这个时候,用英语就友好一些🤣
segfault
segfault
2022.4.07
databricks员工飘过~reynold真大佬🐮🍺
cacoschphou:捕捉成功hh
Yaoyao2020
Yaoyao2020
2022.4.06
来了
bluedavy
bluedavy
2022.11.30
很诚恳和真心的一个对话,我目前正在国内做 ToB 基础软件创业,听完后的感受:
1. Reynold对数据架构的演进方向是很有判断和自己的观点的,这个奠定了在这个领域Databricks的领先性,这个也是我觉得现在国内很多做数据方向基础软件创业的人欠缺的,但这又是基础软件创业的基础,中国版本的xxx我觉得可能是存在,但对很多离开大公司创业的技术人员,意义不大,毕竟这样的人多数的梦想都是打造一个被全球很多人用的东西,改变相应的技术领域;
2. 大环境对创业公司很重要,像Databricks,之所以可以坚定做相对长远的方向,是在之前的大环境中,投资圈对创业公司的包容度是高很多的,现在,基本是都是要创业公司很快的验证产品的商业可行性,这个是现在ToB创业超级难的地方,我们回头去看目前还比较成功的一些ToB基础软件的公司,其实在商业化之前都是经历了超过3年以上的产品打造期,所以在现在的大环境下用什么样的策略,去既达成长远想做的,短期又能保证好现金流的,会是一个无比关键的问题;
3. 对话里讲到的大公司例如aws和他们的竞争,他们的优势是大公司不可能全部都做,这点是我一直很认同的,大公司因为ROI还有其他很多原因,会面临要决定到底做什么/不做什么这个巨大的挑战,这是使得创业公司有机会在一些领域和大公司竞争的关键,也是创业公司要想清楚的一个关键问题。
lpbest
lpbest
2022.5.18
两个问题想请教下。
1,reynold提到databricks运营1200万台虚拟机,这接近百万级别物理服务器的规模了。觉得这个数字有点恐怖,甚至都不太敢相信!什么样的客户群体跑什么样的业务会消耗这么大量的资源?
2,renold讲湖仓统一架构时候提到从业务角度看,42:40左右,分裂的架构中,不同团队有不同数据权限,会导致最后分析结果上不一致的问题。这里有些疑问,不同团队的权限不同这是数据管理问题,与是否统一架构没有必然关系吧,那采用湖仓统一架构也解决不了啊。我的理解,在分裂架构,湖和仓中的数据版本不一致,导致分析结果有差别,与权限关系不大?
Shenglan
Shenglan
2022.5.01
这一期太有水平了!主持人提问非常有水平,问得都很在点子上。嘉宾回答毫不含糊,非常真诚且有态度。双方默契十足,仿佛知己促膝长谈,回味无穷啊!
HD770559z
HD770559z
2022.4.07
那篇预测未来是云的论文哪里可以读啊?
liancheng:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf
purefun
purefun
2022.4.07
29:04 Databricks 每天在三大云上跑着 1200 万台虚拟机!