本课程基于UEM 《生成式人工智能》课程课件,由 NotebookLM 生成。
生成式人工智能基础概念
- 定义与范畴:生成式AI是AI领域中能依据学习模式创造全新内容的分支,与传统AI侧重分析数据不同。AI涵盖机器学习(ML),ML包含深度学习(DL),生成式AI则基于DL实现内容生成,它们呈层层递进关系。
- 与传统AI模型区别:传统判别模型如图像识别、预测类模型,旨在学习数据界限或规律以判断、预测输入。而生成式AI作为生成模型,目标是理解数据生成方式与底层概率分布,进而生成全新且与原始数据风格类似的数据。例如给模型看汽车图片,判别模型能认出汽车,生成模型还能画出全新汽车图片。
生成式人工智能关键技术
- 神经网络发展与类型
发展历程:神经网络概念早于1943年提出,历经感知器等阶段,1986年左右反向传播算法使神经网络训练强大且可行,深度学习则采用深层、神经元多的网络结构,为生成式AI奠定基础。
主要类型:前馈神经网络(FFN)处理表格数据做分类等;卷积神经网络(CNN)在图像处理中卓越,能提取局部特征;循环神经网络(RNN)及其改进版LSTM、GRU处理序列数据,解决长序列依赖问题;自动编码器(autoencoder)学习数据表示,其变种变分自动编码器(VAE)用于图像生成;生成对抗网络(GAN)通过生成器与判别器对抗生成逼真数据;Transformer架构引入注意力机制,并行处理序列数据,在自然语言处理中表现出色,是大型语言模型(LLM)基础。 - 文本生成技术
NLP基础:机器理解和生成语言,先通过标记化(tokenization)将文本切成有意义单元,再将标记转换为数字表示。早期方法如简单编号、n - grams存在信息丢失和处理长距离依赖问题,词嵌入(word embeddings)则通过学习大量文本,将词嵌入高维向量空间,捕捉语义信息。
模型发展:早期NLP模型基于概率统计和简化假设,在复杂任务上力不从心。RNN及其改进版为NLP带来突破,能处理序列顺序和上下文关系,但处理长距离依赖和计算效率存在瓶颈。
Transformer与LLM:Transformer架构抛弃RNN循环和CNN卷积,利用自注意力机制,并行计算且有效捕捉长距离依赖,成为LLM基础。不同LLM如GPT侧重生成,Bert侧重理解,因使用Transformer方式和训练目标不同。LLM模型参数量和训练数据量巨大,通过预训练加微调范式适应特定任务。
提示工程与RAG:提示工程通过设计优化给LLM的输入,引导其产生期望输出,包含零样本、少样本、思维链等提示技巧。检索增强生成(RAG)通过检索外部知识库,结合用户问题和相关信息让LLM生成答案,解决LLM知识更新和特定领域知识利用问题,具有知识更新方便、成本低、减少幻觉、可解释等优势,但依赖检索质量,面临知识库质量和时效性等挑战。 - 图像生成技术
VAE:变分自动编码器是概率模型,将输入图像压缩到概率分布,采样生成多种变体,适合生成任务,但生成图像可能模糊。
GAN:生成对抗网络包含生成器和判别器,二者对抗使生成器生成逼真图像,但训练不稳定,易出现模式崩溃问题,有改进型尝试解决。
扩散模型:基于非平衡热力学扩散过程,通过前向加噪声和反向去噪生成图像,使用U - Net架构预测噪声,能生成高质量多样图像,训练相对稳定但速度慢。流行的AI绘画工具如Stable Diffusion基于潜在扩散模型,DALL - E 2结合CLIP模型理解文本与图像关联生成图像,Midjourney可能基于条件GAN或混合技术,在艺术风格生成上表现出色。 - 音频与视频生成技术
音频生成:音乐生成面临信号复杂、数据稀缺、人耳敏感等挑战。早期TTS基于拼接或参数合成,后基于深度学习分声学模型和声码器两步,但存在问题。近期通过将音频信号标记化,借鉴语言模型技术,如Audio LM和Music LM分别实现语音和音乐生成,语音合成也有显著进展,如微软的VALL - E和Natural Speech 2实现零样本语音克隆。
视频生成:核心挑战是处理时空一致性。主要技术方向包括文本到视频、其他条件视频生成、无条件视频生成、视频编辑与补全。扩散模型在视频生成中潜力巨大,但生成长时程、高分辨率且连贯的视频仍具挑战。
生成式人工智能伦理问题
- 偏见与歧视:生成式AI可能带来或加剧偏见和歧视,原因是训练数据反映社会偏见,模型无法分辨而学习并放大。表现为生成诋毁性内容和代表性不足,还可能被用于深度伪造进行有害活动。偏见来源包括数据、算法、评估、解读等层面,缓解措施需多方面努力,但涉及主观判断和权衡。
- 隐私与数据安全:用户输入信息可能含敏感内容,存在数据储存、使用、泄露风险。不同国家和地区有数据保护法规,如欧盟GDPR、美国CCPA等,但AI工具在遵守法规方面存在挑战和争议。
- 知识产权:AI生成内容版权归属存在争议,美国版权局认为纯粹AI生成作品不受保护,人类借助AI且有足够创造性贡献的作品可受保护。使用受版权保护数据训练AI是否侵权也存争议,涉及合理使用原则,AI公司和版权方观点不同,已有相关诉讼。
📅 章节概要
00:00:00 会议开场与生成式AI引入
会议开场,强调准备深入探索,提及会前发送的丰富资料。随后引入生成式人工智能话题,指出其从几年前的科幻概念变得触手可及,发展速度惊人。本次会议任务是梳理生成式AI的核心概念、关键技术及伦理问题,为后续深入讨论奠定基础。
00:01:02 生成式AI基础概念解析
介绍生成式AI是AI令人兴奋的分支,与传统AI不同在于能创造全新内容。从拆解“生成式人工智能”一词开始,阐述其与AI、机器学习、深度学习的层层递进关系,解释各概念含义及相互联系,还对比生成式AI与传统判别模型的区别,以汽车图片为例说明生成式AI作为生成模型的独特能力。
00:02:59 神经网络技术剖析
先追溯神经网络起源,介绍早期模型及关键算法反向传播算法,阐述深度学习与神经网络关系。接着详细介绍多种神经网络架构,包括前馈神经网络、卷积神经网络、循环神经网络及其改进版、自动编码器及其变种、生成对抗网络、Transformer架构,说明各架构特点、适用场景及在生成式AI中的作用,展现神经网络技术的多样性与复杂性。
00:09:34 文本生成技术详解
从自然语言处理基础入手,讲解标记化、词嵌入等技术,分析早期NLP模型局限性。接着介绍RNN及其改进版对NLP的突破,以及Transformer架构如何克服RNN缺点成为LLM基础。探讨不同LLM如GPT和Bert在使用Transformer架构上的侧重与区别,阐述LLM的规模特点、预训练微调范式,最后介绍提示工程和RAG技术及其在文本生成中的应用与优势。
00:24:50 图像生成技术探讨
聚焦图像生成领域,介绍变分自动编码器(VAE),包括其原理、在图像生成中的优势与不足。接着详细讲解生成对抗网络(GAN),包括其组成、对抗过程、训练达到的理想结果及存在的训练不稳定和模式崩溃问题,还有改进措施。随后介绍扩散模型,包括其基于的物理灵感、工作过程、使用的神经网络架构、具体类型,以及在生成质量、训练稳定性和速度方面的特点,还提及流行AI绘画工具背后的技术原理。
00:47:15 音频与视频生成技术讨论
在音频生成方面,指出音乐生成面临信号复杂、数据稀缺、人耳敏感等挑战,介绍早期TTS方法及不足,阐述将音频信号标记化并借鉴语言模型技术的突破,如Audio LM和Music LM实现语音和音乐生成,以及语音合成的显著进展。在视频生成方面,强调处理时空一致性的核心挑战,介绍文本到视频、其他条件视频生成、无条件视频生成、视频编辑与补全等技术方向及应用,指出扩散模型的潜力和当前生成高质量视频的困难。
00:57:47 生成式AI伦理问题分析
深入探讨生成式AI带来的伦理问题。在偏见与歧视方面,分析其产生原因、表现形式、危害及来源,提出缓解措施及面临的难点。在隐私与数据安全方面,指出用户输入信息存在的风险,介绍不同国家和地区的数据保护法规及AI工具在合规方面的挑战。在知识产权方面,剖析AI生成内容版权归属和使用版权数据训练AI的争议焦点、相关法律原则及诉讼情况。
01:13:01 会议总结与展望
会议总结回顾生成式人工智能各方面内容,包括基础概念、关键技术、不同模态生成技术及伦理问题,强调技术发展带来的创新与挑战,指出需关注技术的社会影响,促进多领域专家对话,制定负责任的规范和实践指南,以推动AI健康发展。

