第233集 如何给大模型 出考题?田丰说

第233集 如何给大模型 出考题?

3分钟 ·
播放数22
·
评论数0

就是我要基于这个测评体系

去构建测评集

这个测评集

就是为了去衡量模型的

这个具体的性能指标

第二步是题库

对题库

可以理解为就考试的这个题库

然后第三点就是我如何

就是

把模型在这个题库上的一个表现

去做

设计具体的衡量指标去评价

所以说第三点非常重要的

就是模型的具体的这个评价方法

对所以说测评基准它的最大的目的

第三个就是判分规则

判分规则

没错没错

判分规则

而且往往比较好的一个测评基准

它是需要有完全自动化的这个评测的

原因是

因为模型的在刚才说的各个环节中

它的迭代的次数是很多的

它会经常高频率去做训练

那在这个基础上

我是需要有同样的

一套保证一致性的一个测评的基准

去判断我不同模型的版本

迭代的这个

不同模型的一个效果的一个好坏

那如果人工去

就是刚才说判分

如果人工去判分的话

它这个波动性会很大

但是

比如说我们采用自动化的

这个测评的一个方式

它可以去完全

那个对比

客观高效

然后科学的去评判

我各个模型之间的这个

性能的一个差异