EP11 [深度答疑]听完比90%的人更了解OpenAI O1的技术

EP11 [深度答疑]听完比90%的人更了解OpenAI O1的技术

16分钟 ·
播放数1426
·
评论数15

“还能看到GPT5吗?O1在推理过程中有实时搜索吗? 是否代表了一个全新的训练方向?” 收集了7个挺有意义的O1问题, 并第一次尝试录制FAQ来深入解答这些疑惑。希望通过这期播客能帮助大家更好地理解O1模型.

如果小伙伴们有任何新的问题或想法, 以及这种FAQ的形式是否有帮助, 随时可以在评论区留言告诉我们呀~

Timeline

  • 03:20 O1模型用来做数据反哺, 是否可行
  • 05:00 O1是否代表了一个全新的训练方向? 是否有可能取代GPT系列? 我们还能看不到GPT5吗
  • 06:14 O1使用的强化学习RL与之前训练ChatGPT的RLHF有何异同, 这次有什么新创新
  • 07:43 O1模的出现会被prompt engineer彻底取代, 未来应用种人工设计Prompt的角色会如何变化
  • 08:43 O1的COT和传统的COT(思维链)有啥区别, 有很多怀疑说O1只是特化了Agent/不会是4O微调的agent吧
  • 11:09 O1在推理过程中是否真正实现了(inference time search)实时搜索, 如果是, 具体是如何实现的
  • 14:21 相比之前的模型,O1在减少幻觉方面有改进

相关概念以及定义:

System 1 vs System 2

  • System 1:快速、直觉的思考方式,类似大多数语言模型的直接输出
  • System 2:慢速、深度的思考方式,O1模型采用的方法,会生成内部思维链
  1. 数据反哺
             利用模型生成的数据来增强训练数据集,从而提高模型性能的技术
  2. 强化学习(Reinforcement Learning, RL)
             一种机器学习方法,通过与环境交互并从反馈中学习,以最大化累积奖励
  3. RLHF (Reinforcement Learning from Human Feedback)
             利用人类反馈来指导强化学习过程的方法,通常用于训练语言模型
  4. Prompt Engineering
             设计和优化输入提示,以引导AI模型产生期望输出的技术
  5. COT (Chain of Thought)
             一种推理技术,让模型逐步展示解决问题的思考过程,而不是直接给出答案
  6. Inference Time Search
             在模型推理过程中实时进行搜索或优化的技术,用于提高输出质量
  7. 蒙特卡洛树搜索(Monte Carlo Tree Search)
  8. 是一种用于某些决策过程的启发式搜索算法,最著名的应用是在棋类游戏软件中
    幻觉(Hallucination)
             AI模型生成看似合理但实际上不准确或虚构的信息的现象
展开Show Notes
RK7
RK7
2024.11.04
01:24 版本号 9.11 比 9.8 大?我是产品经理你别骗我。
晓晓赵
:
可以搜一下python 3.11和3.8,哪个版本新 哪个版本旧
晓晓赵
:
微信就不是好例子,它的minor号就没有两位的,只有patch有两位。即使拿patch的两位比,也是3.9.11>3.9.9 链接:https://weixin.qq.com/cgi-bin/readtemplate?lang=zh_CN&t=weixin_faq_list&head=true
7条回复
HD301109d
HD301109d
2024.9.25
点赞👍好喜欢这种直摆干货不扯其他的东西的技术向解读
晓晓赵
:
谢谢反馈和支持🥰 有小伙伴的喜欢, 我们会坚持出技术干货系列滴~
RK7
RK7
2024.11.04
10:20 COT 不代表不需要标注,而代表标注方向转为思维。
晓晓赵
:
原话是说O1是一种自动化的COT的生成,并不是说所有COT的生成都是自动化的
智能饭
智能饭
2024.10.18
o1分析很到位,很赞
晓晓赵
:
谢谢小伙伴的鼓励!😊
oO魂
oO魂
2024.10.08
01:05 这都多久以前的问题了?