UEM 专门课程 - 《生成式人工智能》 - AI 自习室

本课程基于UEM 《生成式人工智能》课程课件，由 NotebookLM 生成。

生成式人工智能基础概念

定义与范畴：生成式AI是AI领域中能依据学习模式创造全新内容的分支，与传统AI侧重分析数据不同。AI涵盖机器学习（ML），ML包含深度学习（DL），生成式AI则基于DL实现内容生成，它们呈层层递进关系。

与传统AI模型区别：传统判别模型如图像识别、预测类模型，旨在学习数据界限或规律以判断、预测输入。而生成式AI作为生成模型，目标是理解数据生成方式与底层概率分布，进而生成全新且与原始数据风格类似的数据。例如给模型看汽车图片，判别模型能认出汽车，生成模型还能画出全新汽车图片。

生成式人工智能关键技术

神经网络发展与类型
发展历程：神经网络概念早于1943年提出，历经感知器等阶段，1986年左右反向传播算法使神经网络训练强大且可行，深度学习则采用深层、神经元多的网络结构，为生成式AI奠定基础。
主要类型：前馈神经网络（FFN）处理表格数据做分类等；卷积神经网络（CNN）在图像处理中卓越，能提取局部特征；循环神经网络（RNN）及其改进版LSTM、GRU处理序列数据，解决长序列依赖问题；自动编码器（autoencoder）学习数据表示，其变种变分自动编码器（VAE）用于图像生成；生成对抗网络（GAN）通过生成器与判别器对抗生成逼真数据；Transformer架构引入注意力机制，并行处理序列数据，在自然语言处理中表现出色，是大型语言模型（LLM）基础。

文本生成技术
NLP基础：机器理解和生成语言，先通过标记化（tokenization）将文本切成有意义单元，再将标记转换为数字表示。早期方法如简单编号、n - grams存在信息丢失和处理长距离依赖问题，词嵌入（word embeddings）则通过学习大量文本，将词嵌入高维向量空间，捕捉语义信息。
模型发展：早期NLP模型基于概率统计和简化假设，在复杂任务上力不从心。RNN及其改进版为NLP带来突破，能处理序列顺序和上下文关系，但处理长距离依赖和计算效率存在瓶颈。
Transformer与LLM：Transformer架构抛弃RNN循环和CNN卷积，利用自注意力机制，并行计算且有效捕捉长距离依赖，成为LLM基础。不同LLM如GPT侧重生成，Bert侧重理解，因使用Transformer方式和训练目标不同。LLM模型参数量和训练数据量巨大，通过预训练加微调范式适应特定任务。
提示工程与RAG：提示工程通过设计优化给LLM的输入，引导其产生期望输出，包含零样本、少样本、思维链等提示技巧。检索增强生成（RAG）通过检索外部知识库，结合用户问题和相关信息让LLM生成答案，解决LLM知识更新和特定领域知识利用问题，具有知识更新方便、成本低、减少幻觉、可解释等优势，但依赖检索质量，面临知识库质量和时效性等挑战。

图像生成技术
VAE：变分自动编码器是概率模型，将输入图像压缩到概率分布，采样生成多种变体，适合生成任务，但生成图像可能模糊。
GAN：生成对抗网络包含生成器和判别器，二者对抗使生成器生成逼真图像，但训练不稳定，易出现模式崩溃问题，有改进型尝试解决。
扩散模型：基于非平衡热力学扩散过程，通过前向加噪声和反向去噪生成图像，使用U - Net架构预测噪声，能生成高质量多样图像，训练相对稳定但速度慢。流行的AI绘画工具如Stable Diffusion基于潜在扩散模型，DALL - E 2结合CLIP模型理解文本与图像关联生成图像，Midjourney可能基于条件GAN或混合技术，在艺术风格生成上表现出色。

音频与视频生成技术
音频生成：音乐生成面临信号复杂、数据稀缺、人耳敏感等挑战。早期TTS基于拼接或参数合成，后基于深度学习分声学模型和声码器两步，但存在问题。近期通过将音频信号标记化，借鉴语言模型技术，如Audio LM和Music LM分别实现语音和音乐生成，语音合成也有显著进展，如微软的VALL - E和Natural Speech 2实现零样本语音克隆。
视频生成：核心挑战是处理时空一致性。主要技术方向包括文本到视频、其他条件视频生成、无条件视频生成、视频编辑与补全。扩散模型在视频生成中潜力巨大，但生成长时程、高分辨率且连贯的视频仍具挑战。

生成式人工智能伦理问题

偏见与歧视：生成式AI可能带来或加剧偏见和歧视，原因是训练数据反映社会偏见，模型无法分辨而学习并放大。表现为生成诋毁性内容和代表性不足，还可能被用于深度伪造进行有害活动。偏见来源包括数据、算法、评估、解读等层面，缓解措施需多方面努力，但涉及主观判断和权衡。

隐私与数据安全：用户输入信息可能含敏感内容，存在数据储存、使用、泄露风险。不同国家和地区有数据保护法规，如欧盟GDPR、美国CCPA等，但AI工具在遵守法规方面存在挑战和争议。

知识产权：AI生成内容版权归属存在争议，美国版权局认为纯粹AI生成作品不受保护，人类借助AI且有足够创造性贡献的作品可受保护。使用受版权保护数据训练AI是否侵权也存争议，涉及合理使用原则，AI公司和版权方观点不同，已有相关诉讼。

📅 章节概要

00:00:00 会议开场与生成式AI引入
会议开场，强调准备深入探索，提及会前发送的丰富资料。随后引入生成式人工智能话题，指出其从几年前的科幻概念变得触手可及，发展速度惊人。本次会议任务是梳理生成式AI的核心概念、关键技术及伦理问题，为后续深入讨论奠定基础。

00:01:02 生成式AI基础概念解析
介绍生成式AI是AI令人兴奋的分支，与传统AI不同在于能创造全新内容。从拆解“生成式人工智能”一词开始，阐述其与AI、机器学习、深度学习的层层递进关系，解释各概念含义及相互联系，还对比生成式AI与传统判别模型的区别，以汽车图片为例说明生成式AI作为生成模型的独特能力。

00:02:59 神经网络技术剖析
先追溯神经网络起源，介绍早期模型及关键算法反向传播算法，阐述深度学习与神经网络关系。接着详细介绍多种神经网络架构，包括前馈神经网络、卷积神经网络、循环神经网络及其改进版、自动编码器及其变种、生成对抗网络、Transformer架构，说明各架构特点、适用场景及在生成式AI中的作用，展现神经网络技术的多样性与复杂性。

00:09:34 文本生成技术详解
从自然语言处理基础入手，讲解标记化、词嵌入等技术，分析早期NLP模型局限性。接着介绍RNN及其改进版对NLP的突破，以及Transformer架构如何克服RNN缺点成为LLM基础。探讨不同LLM如GPT和Bert在使用Transformer架构上的侧重与区别，阐述LLM的规模特点、预训练微调范式，最后介绍提示工程和RAG技术及其在文本生成中的应用与优势。

00:24:50 图像生成技术探讨
聚焦图像生成领域，介绍变分自动编码器（VAE），包括其原理、在图像生成中的优势与不足。接着详细讲解生成对抗网络（GAN），包括其组成、对抗过程、训练达到的理想结果及存在的训练不稳定和模式崩溃问题，还有改进措施。随后介绍扩散模型，包括其基于的物理灵感、工作过程、使用的神经网络架构、具体类型，以及在生成质量、训练稳定性和速度方面的特点，还提及流行AI绘画工具背后的技术原理。

00:47:15 音频与视频生成技术讨论
在音频生成方面，指出音乐生成面临信号复杂、数据稀缺、人耳敏感等挑战，介绍早期TTS方法及不足，阐述将音频信号标记化并借鉴语言模型技术的突破，如Audio LM和Music LM实现语音和音乐生成，以及语音合成的显著进展。在视频生成方面，强调处理时空一致性的核心挑战，介绍文本到视频、其他条件视频生成、无条件视频生成、视频编辑与补全等技术方向及应用，指出扩散模型的潜力和当前生成高质量视频的困难。

00:57:47 生成式AI伦理问题分析
深入探讨生成式AI带来的伦理问题。在偏见与歧视方面，分析其产生原因、表现形式、危害及来源，提出缓解措施及面临的难点。在隐私与数据安全方面，指出用户输入信息存在的风险，介绍不同国家和地区的数据保护法规及AI工具在合规方面的挑战。在知识产权方面，剖析AI生成内容版权归属和使用版权数据训练AI的争议焦点、相关法律原则及诉讼情况。

01:13:01 会议总结与展望
会议总结回顾生成式人工智能各方面内容，包括基础概念、关键技术、不同模态生成技术及伦理问题，强调技术发展带来的创新与挑战，指出需关注技术的社会影响，促进多领域专家对话，制定负责任的规范和实践指南，以推动AI健康发展。