【周末特辑】1月第4周最火AI论文 | 强化学习优于监督微调,HLE挑战LLMs能力。HuggingFace 每日AI论文速递

【周末特辑】1月第4周最火AI论文 | 强化学习优于监督微调,HLE挑战LLMs能力。

13分钟 ·
播放数179
·
评论数1

本期的 5 篇论文如下:

00:35 TOP1(🔥53) | 🧠 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training(监督微调记忆,强化学习泛化:基础模型后训练的比较研究)

03:02 TOP2(🔥48) | 🧠 Humanity's Last Exam(人类最后的考试)

05:21 TOP3(🔥47) | 🛡 GuardReasoner: Towards Reasoning-based LLM Safeguards(GuardReasoner:面向基于推理的LLM安全防护)

07:44 TOP4(🔥45) | 🎙 Baichuan-Omni-1.5 Technical Report(百川全能1.5技术报告)

10:07 TOP5(🔥42) | 📚 Qwen2.5-1M Technical Report(Qwen2.5-1M 技术报告)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

展开Show Notes
内容感觉都是 AI 生成的,里面有一些名词解释的不太对