Vol.84 数据不再是“后台的沉默基石”:OceanBase 与 00 后开发者眼中的 AI 变局屠龙之术

Vol.84 数据不再是“后台的沉默基石”:OceanBase 与 00 后开发者眼中的 AI 变局

74分钟 ·
播放数3884
·
评论数11

这一轮AI爆发,过程中大家无数次提及核心的三要素:算法、算力和数据;

当前这个时点,基于transformer的算法基础,无限堆叠算力的大叙事下,数据的重要性边际提升了。

  • 预训练数据的接近枯竭
  • 大模型合成数据的使用方法与效果评估
  • 后训练强化学习的激励模型构建
  • 训练过程中的数据清洗和工程实践
  • 未来可能范式- online learning对于数据以及数据处理的新要求
  • ……

以上这些问题其实一直都是过去几年乃至可见的未来几年,

所有大模型厂商都需要去持续解决的症结所在;

那么到底该如何看待数据之于AI,

此前业界默认承担后台基石功能的数据库系统在今天的新技术发展范式下如何演变?

为了了解清楚这些问题,我今天有幸请到了国内连续多年在行也内领先的蚂蚁集团旗下开源数据库OceanBase的CTO-日照,

以及最近刚刚结束的2025 年全国大学生计算机系统能力大赛暨第五届 OceanBase 数据库大赛冠军和亚军队伍的选手一起聊了聊。

关于OceanBase: mp.weixin.qq.com 

关于全国大学生计算机系统能力大赛: mp.weixin.qq.com 

【对话嘉宾】

  • OceanBase CTO:日照
  • 本届数据库大赛冠军队伍北京邮电大学编程高手团队:吴同学
  • 本届数据库大赛亚军队伍华东师范大学抽空就干团队:杨同学

(想加粉丝群的请先+微信:rosicky311)

下面正片开始……

【时间点】

00:20 去年11月我写的PPT-大模型厂商在解决什么问题:记忆、激励模型、Benchmark

00:52 26年偏共识的趋势:自主学习

01:37 大家都说是工程的胜利,那么“工程”到底是什么?

02:25 嘉宾介绍

第一部分:AI 的瓶颈,正在变成数据问题

03:46 数据的重要性在边际增强,这个结论现在可以下吗?

05:00 25年开始,私有数据与大模型结合成为很多企业面临的问题

06:03 echo去年MIT那份所谓95%企业投入AI没有获得成效的报告

07:25 预训练的数据真的挖掘完了吗?

08:21 Google年底模型能力超强,其实更多还是靠的预训练,为什么?

09:31 泛的数据工程这件事情在整个模型训练过程中的边际地位得到了提升

10:14 数据其实一直以来对于所有科技/互联网公司都是在核心位置

11:07 结构化到非结构化之后,对于数据库软件提出的新要求是什么?

12:11 语言-多模态- coding,到底是平行的三桌还是其实是一桌?

第二部分:比赛复盘---为什么今年一定要把 AI相关内容放进数据库比赛?

14:43 数据是瓶颈,那么到底卡点在哪里?

16:24 趋势的变化,也体现在了大赛5年历程中考题的变化上

18:09 今年决赛题目:混合搜索+RAG

20:58 组队、参加比赛、解题、答辩的全过程

23:51 参赛过程中遇到的难题

26:48 数据库在新时代一定会更加“开放”

27:59 “幻觉”的问题,能不能解决?或者说是否需要100%解决?

32:23 技术趋势与出题的匹配程度

33:37 5年比赛做下来,参赛选手的画像发生了什么样的变化?

34:36 年轻一代如何看待vibe coding

36:56 AI coding能力越来越强,原来的”手艺人“怎么办呢?

38:40 大厂内部如何看待AI coding

39:45 AI coding工具引发的数据安全问题

第三部分:技术探讨---自主学习与开源生态

40:47 想要实现online learning/自主学习,是不是更多的还是数据问题?

42:44 传统数据库-向量数据库-新的尝试,其实也是在匹配这个技术趋势

44:22 开源生态的崛起在这一轮AI浪潮中更加明显

45:49 如果用一个关键词概括25年中国AI行业发展,开源可能是很多人会选择的答案

46:35 我们为什么在开源这个领域突然这么强?

47:25 OceanBase从蚂蚁内部项目到独立成商业公司的过程

48:22 OceanBase产品初心:做世界级的数据库

第四部分:未来与结语---从“炼丹师”到“造世主”

49:18 问学计算机的年轻人,如何看待AI浪潮带来的影响?

50:22 吴同学是学安全的,AI时代的“安全”定义被无限放大了

53:06 杨同学之前只会后端,现在前端也要写了

54:05 OceanBase比赛的初衷

55:54 数据库人才的画像变化

56:37 两位过来人对于更年轻的学弟学妹有什么建议?

57:07 是否还要学计算机/coding?

59:00 其实企业内部用AI好的人之前也是写代码写的好的人

1:00:21 北邮在互联网行业的特殊性

1:01:35 AI PPT能力的提升已经让我感觉到压力了

1:03:52 对26年的期待

1:04:47 绕不开的Agent元年以及要元几年的讨论

1:06:54 目前看哪些场景/行业,AI的落地趋势更快一些?

1:10:18 只有在技术大爆发的时候才有“黑客松”

1:10:44 AI4S的期待

1:11:49 26年期待出现什么变化/里程碑

音乐:AI音乐工具天谱乐生成

【播客简介】

屠龙之术是一档关注科技、互联网、风险投资的播客,

主播庄明浩是一个游走在互联网和风险投资行业的边缘人士。

其工作多年所积累的认知似乎都成为了某种意义上的”屠龙之术“……

或许某天再有新的“龙”出现的时候,就是这档播客停更之时。

展开Show Notes
主播的ID“屠龙之术”本身就充满了浪漫主义色彩。听完这期节目,我感觉这种情怀在技术圈特别普遍——我们花费数年去钻研一门可能瞬间被淘汰的技术,这种坚持看起来很傻,但又很伟大。就像OceanBase团队坚持做自研数据库一样,这种“笨功夫”往往是技术突破的基石。这期节目虽然聊的是最前沿的AI和数据库,但内核却是非常传统的——对技术的执着和对工匠精神的致敬。在这个追求速成的时代,听到这样一档沉下心来聊底层技术的播客,真的是一种享受。希望这档节目不要等到“龙”出现的那天就停更,因为我们需要这样的声音来记录这个时代的技术变迁。
生而为猫奴:怎么AI味有点重呢😂
喜欢吃牛筋丸的杰哥:没有呀,这个评论是我想了好久,才写出来的呀😘🫶🫰🌹❤️
对着“编程高手”和“抽空就干”这俩团队名笑了半天,一代人有一代人的中二魂。
庄明浩
:
年轻人
好厉害的年轻人
花小撒
花小撒
5天前
哎呀,又是午夜屠龙版
来了来了!
1:00:46 确实,在脉脉官方播客里,其 CEO 提到目前国内市场 AI 人才北邮排第二,第一是清华,当时那个晚点聊文科生主播表示了出奇的惊讶。北邮被小看忽视也是怪北邮自己不争气,40 年前时代红利,北邮和外经贸都是堪比清北的,甚至一些中小城市学霸出于就业考虑都是选北邮外经贸而放弃清北,可是现在,北邮高考分数低于北航 40 分,和北理工一样了。 之所以国内现在 AI 市场人才能排第二,也有一点是拜其他优秀兄弟学校高材生去硅谷了
LA鹏鹏
LA鹏鹏
5天前
00:00 沙发占了,开听!
Jay_mXE9
Jay_mXE9
5天前
来听