10.小公司有必要训练自己的AI大模型吗？如何训练AI大模型？

银河早餐铺

80分钟 ·2年前

1056

本期嘉宾是我们第3期聊GPT4-o的算法大神Lao，本期我们帮助一些小白或者新入行业的公司，普世和加深一些大模型训练相关的知识，也希望通过这些帮助一些公司避免模型训练时候的踩坑。

【shownotes:】

01:22 大模型的基本概念？

04:50 包子对于大模型的理解

14:30 探讨智能=‘压缩’

20:00 模型训练的几种模式，高效微调PEFT，全参微调SFT的区别和比喻解释

32:50 做大模型需要哪些准备？

39:30 模型训练的链路知识和概念

49:20 一个有经验的算法的最大价值是什么

52:20 算法角度来看，GPU的各种差别？

56:40 英伟达GPU为什么成为现在的主力

01:13:15 如何评估一个模型的优劣

01:16:50 企业做模型训练之前的2个忠告

01:19:00 模型训练相关是一个庞大的知识体系，知识锚点下的自学更重要

【关于主播】

包子：

AI商业应用专家/总工程师，互联网连续创业者，爱好思考和认知。

全网ID：包子阿巴阿巴

修饼：

科普博主，出版科普读物《迷你物理学》，AI短片创作者。

全网ID（公众号、抖音、视频号、即刻、B 站等）：修饼/修饼想当然

【关于我们】

从AI商业化视角，聊聊AI能不能把所有行业重新做一遍。

聊聊ai领域的新发现、新机会、新认知。

出发，一起看看未来~

【听友交流】

微信号：Edward_y

展开Show Notes

投票

2024.7.12

笑死了一堆术语很多人根本听不懂的

韩胖纸

2024.7.13

敲黑板，划重点：能用提示词做的一定不要用RAG，能用RAG做的一定不要用PEFT，能用PEFT做的一定不要用EFT，能用SFT做的一定不要用PT，这是个大漏斗，每一个选择都是巨大的成本

购物_U9JB

2025.11.30

包子错误太多了。那个丛寒整体还行，没什么明显错误。而且丛寒明显听出来包子的错误，还得替他遮掩。

兎bug

2024.11.04

13:04 压缩：贪心算法，链路回归，softmax，argmax

兎bug

2024.11.04

01:39 token by token，bert，transformer，ner，encoder，encoder.

银河系丽人

2024.10.24

1:03:26 确实太多术语了完全听不懂

Paddington

2024.10.23

男主播讲的太好了吧！爱了爱了

Paddington

2024.10.23

做这个方向的pm发现说的太对了，蒸馏压缩代表一个分支哈哈哈先控制成本

Dao_er

2024.9.11

23:29 大模型把输入的自然语言进行embedding是为了升维进行更好的运算，而不是降维，包括现在核心的内容不是压缩，恰恰相反，现在大量的扩充训练集就是为了让一个词能扩充不同的语义，又压缩又蒸馏的，不太熟悉的领域还是让技术来讲吧🥶

02Hero

2024.9.04

transformer输入文字的时候哪有压缩？

戎戎在小宇宙

2024.8.07

28:16 国内的大模型其实是大应用

施玮

2024.8.01

妈呀，太硬核了，要重听

播客剪辑Vocut小助手

2024.7.13

👍

打开小宇宙查看更多精彩评论