How I use LLMs

18分钟 ·1 年前

85

·

0

音频来自 Andrej Karpathy 的最新视频 How I use LLMs

LLM 生态系统概述与使用指南

1. LLM 发展概述

大型语言模型（LLM）已经成为人工智能技术的核心之一，ChatGPT、Claude、Gemini 和 Mistral 等多个模型在市场上竞争。LLM 的发展得益于 Transformer 结构、RLHF（人类反馈强化学习）和 Mixture of Experts（专家混合）等技术的突破。

目前的 LLM 生态系统涵盖多个层面，包括 API 访问、插件（如 ChatGPT 的 GPTs 和工具调用）、本地部署（如 llama.cpp）以及企业级解决方案。

2. 主要 LLM 产品与比较

ChatGPT（由 OpenAI 提供）

目前主流的 LLM 之一，支持 GPT-4-turbo 版本。

具备工具调用能力，如浏览器、Python 计算、代码解释器等。

提供自定义 GPTs 功能，允许用户创建特定任务的 AI 助手。

插件生态正在逐步转向 GPTs 形式。

Claude（由 Anthropic 提供）

强调安全性和对齐性，采用“宪法 AI”方法。

Claude 3 版本在某些任务上优于 GPT-4-turbo。

API 访问相对封闭，主要面向企业用户。

Gemini（由 Google DeepMind 提供）

以前称为 Bard，Gemini 1.5 Pro 版本支持较长上下文窗口。

结合 Google 生态（Docs、Sheets 等）进行深度集成。

在代码生成和推理任务上有较强表现。

Mistral & Mixtral（开源模型）

Mistral 7B 是一个轻量级但性能强劲的开源模型。

Mixtral 8x7B 采用专家混合架构，在特定任务上能优于 GPT-3.5。

Llama（Meta 提供）

Llama 2 是开源大模型，Llama 3 预计将在 2024 年推出。

适合企业和个人本地部署使用。

3. 交互方式与 LLM 体验

LLM 的交互方式主要包括文本对话、代码生成、工具调用（如搜索、计算）、插件扩展和多模态输入。

文本交互优化

提问应清晰、具体，避免歧义。

使用“思维链提示”（CoT）提高推理能力。

采用示例驱动（Few-shot Learning）提升回答质量。

代码生成与调试

ChatGPT 具备代码解释器（Code Interpreter），可运行 Python 代码。

Claude 和 Gemini 在代码推理方面也表现良好。

本地部署（如 llama.cpp）适用于对隐私要求较高的场景。

4. LLM 的工具使用

LLM 具备多种工具能力，如 API 访问、浏览器搜索、代码执行等。

常见工具

Python 计算（用于数学计算、数据分析）。

浏览器访问（用于实时信息获取）。

DALL·E 生成图片（ChatGPT 内置）。

代码解释器（用于运行 Python 代码）。

API 访问（如 OpenAI API, Claude API, Gemini API）。

5. LLM 的多模态能力

LLM 正在从单一文本交互扩展到多模态（文字、图片、音频、视频）处理。

图像理解：ChatGPT 和 Gemini 支持图片输入分析。

音频处理：Whisper 是 OpenAI 开发的语音识别模型。

视频生成：Sora（OpenAI 开发）可以生成高质量视频，但尚未开放。

6. 企业应用与本地部署

LLM 在企业场景中的应用包括：

文档自动化（法律、财务、医疗文档处理）。

客户服务（智能客服和对话机器人）。

代码辅助（如 GitHub Copilot）。

数据分析（BI 报告、SQL 生成）。

本地部署方案

llama.cpp（适用于轻量级本地推理）。

Ollama（提供更简单的模型管理和运行方式）。

vLLM（高效的推理框架，适用于 GPU 服务器）。

7. 未来趋势与展望

更长上下文窗口：Gemini 1.5 Pro 已支持百万级上下文，未来 LLM 可能彻底解决“遗忘”问题。

增强记忆能力：未来 LLM 可能支持真正的个性化记忆，而不仅仅是会话上下文。

更强的多模态集成：Sora 及其后续产品可能会重塑视频生成领域。

本地 AI 发展：高性能的开源模型将让 LLM 部署变得更加普及。

结论

LLM 生态系统仍在快速发展，各大公司正竞相优化模型能力和用户体验。未来，我们可以期待更强的 AI 交互方式、更智能的工具集成以及更广泛的企业应用。对于开发者来说，关注 API 发展、本地部署方案以及 LLM 的多模态能力，将有助于更高效地利用这项技术。

在小宇宙打开