解密 Unsloth 和 GaLore

解密 Unsloth 和 GaLore

59分钟 ·
播放数339
·
评论数1

1. Unsloth 有什么用?    00:00

  Unsloth 训练行业专家模型      00:12

  Unsloth 的 4 个核心技术       03:40


2. 解密 Flash Attention     06:23

   GPU 硬件架构     06:33

   Kernel fusion    11:02

   Matrix tiling    16:03

   Softmax statistics    18:30

   Recompute for backward pass    19:47


3. 重写 Triton kernels    24:04


4. 优化矩阵链乘法    27:35

   多个矩阵相乘时,计算成本与顺序相关


5. 手工实现 AutoGradient       31:12

   AutoGradient 解决什么问题      32:33

   为什么 Unsloth 要手工实现 AutoGradient,如何手工写     34:02


6. 解密 LoRA     37:54

   什么是矩阵的秩 rank      38:06

   LoRA 牺牲模型精度,换取训练速度    39:06

   LoRA 编程不太难      42:07


7. GaLore 全面超越 LoRA     45:11

   把整个梯度空间拆解为若干子空间     45:24

   GaLore 与 LoRA 哪些相同哪些不同     47:15


8. 用 Llama_factory 实操 Unsloth + GaLore     50:58

   复盘 Unsloth 和 GaLore 的核心原理    50:58

   Llama_factory 设置与运行结果    52:04

展开Show Notes
邓侃AI
邓侃AI
2025.3.27
视频版: https://www.bilibili.com/video/BV1HSZVYFEJ6