这段视频来自 Andrej Karpathy 的频道 👨🏫,旨在展示大型语言模型 (LLMs) 的实际应用和他的个人使用经验,作为之前理论视频的补充。原始视频链接:www.youtube.com
从本质上说,LLMs 可以被看作是一个巨大的、压缩了互联网知识的“zip 文件” 🧠。它们通过预测下一个词来工作,用户和模型在一个“上下文窗口”中共同构建对话,而每次“新聊天”都会重置这个工作记忆。
最基础的互动方式是输入和输出文本 💬,它们擅长各种写作任务、提供建议和回答基于训练知识的问题。使用时需要注意模型的知识截止日期和可能出现的“胡思乱想”,重要信息最好核实,并在切换话题时开启“新聊天”以提高效率和准确性 ✍️⚠️。同时,了解正在使用的模型版本和付费层级也很重要,通常更大的模型能力更强。
除了基本的文本互动,现代 LLMs 已具备使用外部工具的能力 ✨🛠️。这包括用于获取最新信息的联网搜索 🌐🔎、用于计算和数据分析的代码解释器 📊💻(如 ChatGPT 的高级数据分析)、用于生成图表或简单应用的 Artifacts (Claude 特有) 🏗️,以及专门用于复杂推理和编程难题的**“思考”模型** 🤔💡。用户还可以通过文件上传 📄📥 让模型学习特定文档内容,方便理解论文或书籍。
模型也在向多模态发展,支持非文本交互 🎙️🖼️📹。这包括语音模式 🎙️🗣️ (将语音转文本或模型直接处理音频、改变声音)、图像输入 🖼️👀 (识别图片内容) 和图像生成 ✨🖼️ (根据描述生成图片),甚至手机应用上的视频输入 📹➡️ (通过摄像头询问画面内容)。NotebookLM 还提供了基于文档生成自定义播客的功能 🎧。
此外,一些平台提供了个性化设置,如 ChatGPT 的记忆 🧠💾 功能可以记住用户偏好、自定义指令 ⚙️ 设置全局回复风格,以及创建执行特定任务的自定义 GPTs 🤖,通过预设指令和示例来节省重复性工作,尤其适用于语言学习中的翻译和词汇提取等。
LLM 应用生态系统正在快速发展 🌍📱💻,除了 ChatGPT 外,还有 Gemini、Claude、Grok、Perplexity 等众多应用,它们各有优势,用户可以根据需求选择或同时使用多个,甚至可以把它们视为一个“LLM 委员会”来获取不同意见。不同平台、不同设备(网页端和手机应用)的功能可用性也有差异,需要注意。