李宏毅教授:生成式AI到底如何工作?
12分钟
·
22
·
0
生成式AI的定义与核心机制
- 定义与特征: 生成式AI是能创造或生成新内容的技术,涵盖文本、图像、音乐、视频、代码等。其关键特征包括内容生成能力、模仿人类创造力以及通过深度学习模型(如GANs或大型语言模型)从海量数据中学习。
- 核心功能: 接收输入(提示词),并通过预测序列中的下一个“token”来生成输出,这是基于概率分布进行的。
- “Tokens”概念: “tokens”是语言处理的基本单位,模型的词汇量通常可达数万,是构建语言模型的基础。
- 工作原理: 模型通过预测最可能的下一个“token”来生成响应,这一过程依赖于对语言结构和世界知识的学习,并强调“上下文工程”对输出质量的重要性。
语言模型的工作方式与规模
- 生成过程: 语言模型通过预测基于输入提示和已生成“token”的最可能下一个“token”来产生响应。例如,在回答“台湾最高的山是什么?”时,模型会根据概率分布生成多个可能答案。
- 本质: 模型被描述为复杂的“模式匹配器”,它们从数据中学习而非拥有真正的理解力,能够从海量数据中学习语言结构和世界知识。
- 模型规模: 这些模型的参数量极为庞大(例如Llama 30B拥有300亿参数),这体现了其复杂性和所需的巨大计算资源。
生成式AI的应用与模型类型
- 多模态生成: 生成式AI不仅限于文本生成,还能通过编码输入为“tokens”的方式生成图像和声音,并强调其复杂性和高昂的计算成本。
- 图像与声音生成: 图像生成是将输入图像编码为“tokens”后由语言模型处理生成新图像;声音生成则是将输入声音或文本提示编码为“tokens”后解码为输出声波。
- 模型分类: 存在开源模型(如Meta的Llama系列)和闭源模型(如Google Gemini、ChatGPT、Claude)之分,Hugging Face等平台提供了众多开源模型的访问和实验机会。