李宏毅教授：生成式AI到底如何工作？

12分钟 ·7个月前

22

·

0

生成式AI的定义与核心机制

定义与特征： 生成式AI是能创造或生成新内容的技术，涵盖文本、图像、音乐、视频、代码等。其关键特征包括内容生成能力、模仿人类创造力以及通过深度学习模型（如GANs或大型语言模型）从海量数据中学习。

核心功能： 接收输入（提示词），并通过预测序列中的下一个“token”来生成输出，这是基于概率分布进行的。

“Tokens”概念： “tokens”是语言处理的基本单位，模型的词汇量通常可达数万，是构建语言模型的基础。

工作原理： 模型通过预测最可能的下一个“token”来生成响应，这一过程依赖于对语言结构和世界知识的学习，并强调“上下文工程”对输出质量的重要性。

语言模型的工作方式与规模

生成过程： 语言模型通过预测基于输入提示和已生成“token”的最可能下一个“token”来产生响应。例如，在回答“台湾最高的山是什么？”时，模型会根据概率分布生成多个可能答案。

本质： 模型被描述为复杂的“模式匹配器”，它们从数据中学习而非拥有真正的理解力，能够从海量数据中学习语言结构和世界知识。

模型规模： 这些模型的参数量极为庞大（例如Llama 30B拥有300亿参数），这体现了其复杂性和所需的巨大计算资源。

生成式AI的应用与模型类型

多模态生成： 生成式AI不仅限于文本生成，还能通过编码输入为“tokens”的方式生成图像和声音，并强调其复杂性和高昂的计算成本。

图像与声音生成： 图像生成是将输入图像编码为“tokens”后由语言模型处理生成新图像；声音生成则是将输入声音或文本提示编码为“tokens”后解码为输出声波。

模型分类： 存在开源模型（如Meta的Llama系列）和闭源模型（如Google Gemini、ChatGPT、Claude）之分，Hugging Face等平台提供了众多开源模型的访问和实验机会。

在小宇宙打开