AI界的“调参玄学”:一个被遗忘的旋钮

AI界的“调参玄学”:一个被遗忘的旋钮

5分钟 ·
播放数64
·
评论数0

[LG] Optimal Embedding Learning Rate in LLMs: The Effect of Vocabulary Size

[UC Berkeley & Microsoft Research]

arxiv.org