就是我要基于这个测评体系
去构建测评集
这个测评集
就是为了去衡量模型的
这个具体的性能指标
第二步是题库
对题库
可以理解为就考试的这个题库
然后第三点就是我如何
就是
把模型在这个题库上的一个表现
去做
设计具体的衡量指标去评价
所以说第三点非常重要的
就是模型的具体的这个评价方法
对所以说测评基准它的最大的目的
第三个就是判分规则
判分规则
没错没错
判分规则
而且往往比较好的一个测评基准
它是需要有完全自动化的这个评测的
对
原因是
因为模型的在刚才说的各个环节中
它的迭代的次数是很多的
它会经常高频率去做训练
那在这个基础上
我是需要有同样的
一套保证一致性的一个测评的基准
去判断我不同模型的版本
迭代的这个
不同模型的一个效果的一个好坏
那如果人工去
就是刚才说判分
如果人工去判分的话
它这个波动性会很大
但是
比如说我们采用自动化的
这个测评的一个方式
它可以去完全
那个对比
客观高效
然后科学的去评判
我各个模型之间的这个
性能的一个差异

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

田丰说

快思慢想研究院院长，
商汤智能产业研究院创始院长，
阿里云研究院创始院长，
《田丰说》视频策划人

AI_SUMMARIZE_EPISODE

第233集 如何给大模型 出考题？