Vol 0 | Karpathy带你深入探索ChatGPT等大语言模型

Vol 0 | Karpathy带你深入探索ChatGPT等大语言模型

7分钟 ·
播放数4
·
评论数0

本期节目,Andrej Karpathy 将带您深入理解ChatGPT等大型语言模型(LLMs)的构建、运作机制、核心能力、固有局限未来发展趋势

1. LLM的训练三阶段LLM的训练是一个多阶段过程,从海量数据中学习复杂模式:

  • 预训练(Pre-training)目的:构建“基础模型”。模型从海量互联网文本数据(如Common Crawl, FineWeb,高达44TB,约15万亿个标记/token)中学习知识和统计模式。
    过程:数据经过URL过滤、文本提取、语言过滤(例如,超过65%为英语)、去重和个人身份信息(PII)移除等严格处理。
    核心任务:预测文本序列中下一个出现的“标记”(token)。标记是文本的最小数字单位,GPT-4使用约10万个不同标记。
    产物:一个“互联网文档模拟器”,能生成类似互联网文档统计特性的文本。
  • 监督式微调(Supervised Fine-Tuning, SFT)目的:将基础模型转化为能够与人类对话并充当“助手”的模型。
    数据:通过人类标注者(遵循“乐于助人、真实、无害”等指导原则)创建或辅助生成(LLM本身也参与)的对话数据集进行训练。
    特点:计算成本远低于预训练,但数据质量至关重要。模型模仿人类标注者的行为和“个性”。
  • 强化学习(Reinforcement Learning, RL)目的:进一步提升模型推理、问题解决和规划能力,使其能够发现新的“思考策略”。
    过程:模型针对提示生成多个解决方案(“尝试”),然后通过外部评估(如与正确答案比较,或使用“奖励模型”模拟人类偏好)判断质量,表现好的方案会被“强化”。
    优势:在可验证领域(如数学、编程)显著提升准确性,并能学习生成“思维链”(chain of thought),即逐步推导解决复杂问题。
    RLHF(人类反馈强化学习):适用于不可验证领域(如创意写作)。但训练出的“奖励模型”可能被“游戏”或欺骗,限制了RLHF的长期效果。

2. LLM的特点和局限性(“LLM心理学”)

  • 知识的性质:LLM参数中的知识是模糊的“回忆”,而上下文窗口中的信息则是模型可直接访问的“工作记忆”。
  • “瑞士奶酪模型”:LLM在许多领域表现出色,但可能在看似简单、随机的特定任务上(如简单数学比较、计数或字符级操作)“犯蠢”,存在“漏洞”。
  • 幻觉(Hallucinations):模型可能“编造”事实。通过在训练中加入“我不知道”的回答示例或引入工具使用(如网络搜索)可以缓解。
  • 思考方式:模型需要“标记”才能“思考”。一次性处理大量计算会降低准确性。让模型逐步推导使用外部工具(如代码解释器)效果更好。
  • 非人格化:LLM没有持续的自我意识或记忆;每次对话都是一个从头开始的独立实例。模型的身份信息(如“我由OpenAI开发”)通常是通过特定训练数据或系统消息“硬编码”进去的。

3. 有效使用LLM的建议

  • 将LLM视为工具箱中的工具,而非无所不能的专家。
  • 始终检查并验证LLM生成的内容,尤其是在事实性或关键任务中。
  • 提供充足上下文:对于需要精确回忆的信息,最好直接将其粘贴到提示中,作为模型的工作记忆。
  • 引导思考过程:鼓励模型分步思考,而非直接给出最终答案。
  • 利用工具:对于精确的计算、计数或字符操作等任务,请求模型使用代码解释器或网络搜索等工具。

4. LLM的未来发展趋势

  • 多模态:模型将能原生处理和生成文本、音频和图像等多种形式的数据。
  • 智能体(Agents):模型将能执行更长时间、更复杂的任务链,并能与用户互动以报告进展和纠正错误。
  • 普适与无形:LLM将更紧密地集成到各种工具和日常生活中,甚至能替用户执行计算机操作。
  • 测试时学习(Test-time training):模型在推理阶段进行参数更新的研究。

5. 如何获取和使用LLM

  • 专有模型:通过提供商官方网站访问(如OpenAI的ChatGPT、Google的Gemini)。
  • 开源模型:通过推理服务商(如Together.ai)或自行下载权重并在本地运行(如DeepSeek、Llama),较小的模型可在个人电脑上运行(如LM Studio)。