EP 14 策略性知识蒸馏:GKD如何解决大型语言模型“暴露偏差”

EP 14 策略性知识蒸馏:GKD如何解决大型语言模型“暴露偏差”

20分钟 ·
播放数20
·
评论数0

策略性知识蒸馏:GKD如何解决大型语言模型“暴露偏差”与实用性权衡(论文精读与辩论)