01.叫板李彦宏、Llama 3发布,什么是大模型的开源闭源之争?

01.叫板李彦宏、Llama 3发布,什么是大模型的开源闭源之争?

58分钟 ·
播放数2216
·
评论数21

打捞时代碎片,文字对抗时间。

《商业漫谈》是一档关注科技、商业、人文三岔口的访谈节目,也是我的一份时代侧写笔记。

——————————

今天要聊的话题是大模型的开源闭源之争如果你是非技术人士,先别着急撤离,本期播客的60分钟将会带你厘清:当下热议的大模型开源、闭源之争究竟指的是什么?大模型的开源究竟是怎么个「开」法?为什么开源是一种精神,充满了理想主义的乌托邦味道?

这期节目还有一个有趣的背景:

1.【大佬「吵架」在不久前的百度create大会上,李彦宏曾放出观点:开源模型的能力会被闭源远远甩在身后。一时间,周鸿祎、傅盛等创业者纷纷表达了反对的观点。

2.【开源「顶配」 Llama3 发布】紧接着,在北京时间3月15日凌晨2点,大洋彼岸,Meta的开源大模型 Llama3 发布,它被视作全球开源大模型的「顶配」,也是国内众多大模型的「奶妈」——许多模型都是基于 Llama3 预训练而来。Llama3 的发布,标志着开源模型的能力已经来到了新的高度。

看起来,李彦宏被打脸了。但事实真的如此吗?

本期节目,我邀请了全球最大的开源 AI 社区 Huggingface 的中国区负责人王铁震,他将从技术的角度为我们还原:开源在全球创新、以及在中国的发展历史。还有,在当下火热的 AI 浪潮中,开源、闭源的选择对大模型创业者来说,究竟意味着什么?

想了解更全面的笔记欢迎移步公众号「卫诗婕 商业漫谈」,这是我全职独立写作后的第一篇「作业」,之后也会持续更新,期待你的关注~

联络:即刻-卫诗婕  微博-卫诗婕

有关主播:卫诗婕,独立商业作者,曾任《极客公园》执行总编,早年任职于《人物》、GQ报道、字节跳动。代表作:《ofo的终场战事》《罗永浩:薛定谔的理想主义》《朱一旦的枯燥生活》底稿对话CEO系列《下一站,沙特》等。作品曾获金字节奖年度新锐作者、网易非虚构文学奖年度作者、全球真实故事奖中文报道十佳。

本期内容 shownotes :

02:53 从谷歌到Hugging Face,开源的氛围更有激情和活力

04:43 一个开源项目要经历的轨迹

06:41 科普:到底什么是开源?

07:55 字幕组是中国最早的开源形式

09:44 开源项目中的角色分工:maintainer、contributor和使用者

12:30 开源,AI 发展的加速器

15:48 历史上,大模型是第一次出现开源和闭源「齐头并进」

19:02 过去 8 个月,开源大模型的能力直逼闭源,为什么?

21:23 创业者们「叫板」李彦宏,大模型的开源闭源之争

23:50 开源闭源可以互相转化,这道光谱非常宽

31:44 此「开源」不同于彼「开源」,open source 和 open access

35:19 开发者如何在开源模型上训一个垂类模型?

38:00 Hugging Face社区里的开发者现状

40:47 微调(SFT)和继续预训练(Continuous Pre-Training)的成本

47:00 Llama 3 为什么要有三个版本,如何选择参数?

54:49 谈趋势:模型会先变大、再变小

55:07 开源的人才分布在全球各地,像硅谷这类人才高地还会存在吗?

有任何听后感,欢迎在留言区反馈和分享行业内趋势&资讯,感谢~

展开Show Notes
投票
已结束
5人参与
开源模型VS闭源模型,你更看好哪种形式的发展?
看结果
王强_Andy
王强_Andy
2024.4.30
第一个节目呀 赞
卫诗婕
:
😄
HD721536e
HD721536e
2024.4.29
支持卫老师!!一个小时 干货满满 配合公众号的文章食用 学习到了很多~期待之后的更新!!会持续关注的❤️
卫诗婕
:
感谢🙏
22:05 过往20年的互联网史是开源的历史,没有开源,我们做不出任何东西,比如SAP,Oracle闭源那些东西,华为还不是靠PG开源数据库来研发出号称自由研发的数据库…但以过往看未来是刻舟求剑,各位大佬的观点只是他们的私心,他们自己公司的利益。拥有最多GPU卡的三巨头之一百度当然寄希望于闭源,而其他手里没有GPU的创业公司都要求开源,不然他们什么也做不了。 在大模型这一轮技术升级中,开源的优势发挥不出来,他们讲的集众家之智力优势,因为没有卡,因为每一个改进都需要卡来训练才能得到反馈真正提高,这使得即使有想法也无法及时验证和反馈。不像过去你有想法就很容易编码实现了。最后澄清一点,貌似很多支持开源的人没搞明白,大模型所谓的开源,是训练代码和参数的开源,是推理代码的开源,不包含找来几千上万张卡训练的过程。由此,再多智慧的脑袋也发挥不了……
晨萱I语迟者说:32:03 主播讲的这个观点是对的,搞开源的人只能拿来代码,甚至别人训练好的,之后他只能在这上面微调或者embedding或者prompt engineering。这些提升都是鲁迅笔下的“研究回字的第四种写法”,只要别人又升级了,就白费,比如国内这些最腰要领先的,也许用llama2上面调了很多。可是llama3出来了,号称13B的比llama2的70B的还好。那让国内这些头部大模型们怎么继续吹?拿llama3再化几千万重新训练一遍?
晨萱I语迟者说:嘉宾说的权重就是指参数
3条回复
thirdparty
thirdparty
2024.6.26
25:34 这块提到的hf的模型是哪个?求链接
到底什么是权重
香放
香放
2024.5.07
感谢。
甜包包
甜包包
2024.4.28
非常适合小白!
艾米酱
艾米酱
2024.4.27
好棒!!❤️
HD772294o
HD772294o
2024.4.27
今年所有人都在学习大模型,虽然开源闭源对于我们这些技术小白来说真的很艰深,但仔细啃下来还是理解了不少原理和概念。感谢主播!❤️
无糖_RYDx
无糖_RYDx
2024.4.27
支持卫老师用心继续作出好作品!期待每一期~
50:14 先小数据集试所有想法与实现feature,再汇总一起做最后的训练,这就是为什么只有拥有成千上万张卡的巨头能干而小创公司干不了的原因。据OpenAI公开的信息,这个反复试的成本超过最后那次万张卡持续月余的训练成型
游民Enzo
游民Enzo
2024.4.26
get到一个新的认识:开源和闭源是一条光谱。
荒诞鹿
荒诞鹿
2024.4.26
棒棒
卫诗婕
:
❤️
姜旭2024
姜旭2024
2024.4.26
来个沙发🛋️
卫诗婕
:
❤️