[EP48]Winnie Han| 计算机教授如何重塑评估体系, 以及AI时代,我们到底在评估什么?

[EP48]Winnie Han| 计算机教授如何重塑评估体系, 以及AI时代,我们到底在评估什么?

71分钟 ·
播放数161
·
评论数1

Hello 大家好,欢迎来到教育AI智造者播客。

这一期,我们直面一个在AI时代越来越难回避、却被反复“简化”的问题:
当AI可以完成越来越多“看起来像学习成果”的事情时,我们到底在评估什么?

在过去两年,关于AI进入教育的讨论,大多集中在效率、工具、甚至伦理层面。但在这次对话中,我逐渐意识到:真正被低估、甚至被忽略的,是 assessment ——评估本身。

当一个学生可以用AI写出更好的代码、更完整的论文、更流畅的表达,我们看到的“成果”,还等于这个学生的能力吗?
当检测AI的工具本身也不可靠,甚至无法作为证据,我们又凭什么去判断“作弊”?
当老师说“鼓励使用AI”,学生却直接用AI完成全部作业,这到底是理解偏差,还是系统设计的问题?

这一期我邀请到的嘉宾是韩文林教授,一位同时身处计算机科学、教学一线,以及AI评估标准建设的实践者。她提出了一个非常关键的视角:
AI改变的,可能不是学习本身,而是我们判断“学习是否发生”的方式。

在这场对话中,我们不仅讨论了:

  • 为什么AI检测工具在逻辑上很难成立
  • 为什么“允许/鼓励使用AI”会带来系统性混乱
  • 为什么完成任务 ≠ 学会能力

更重要的是,我们逐渐走向一个更底层的问题:

👉 在AI时代,我们评估的,还是“人”,还是“人+AI的系统”?
👉 评估,到底是技术问题,还是认知与信任的问题?

如果你是老师、研究者、产品设计者,或者正在用AI学习的人,这一期可能不会给你一个简单答案,但会帮你看清一个更底层的变化:

评估,正在从“结果判断”,变成“学习如何发生”的再定义

🧭 内容大纲

🧩 AI来了,但我们还在用旧的评估逻辑

  • AI可以生成答案,但“答案”不再等于能力
  • assessment 被忽视,但其实是最核心问题
  • 学习的证据,开始变得不可信

⚡ 第一波冲击:作业突然“变好了”

  • 学生项目质量整体提升,而不是个别作弊
  • 教师凭经验判断:这是AI带来的结构性变化
  • 旧的rubric在新能力面前失效

⚖️ AI作弊检测:一个逻辑上站不住的系统

  • AI detector 只能给“概率”,无法给“证据”
  • 学生申诉几乎必然成功
  • 对比 Turnitin:有来源 vs 无来源

🧠 评估崩塌的本质:边界无法定义

  • “允许 / 鼓励 / 禁止”AI → 每个人理解不同
  • 60%用AI?怎么量化?按代码量还是思路?
  • 教师与学生对“合理使用”的认知完全错位

🔄 从“评估人”到“评估人+AI系统”

  • 计算机课程已开始评估人机协作能力
  • 不再只看代码,而看“如何用AI完成任务”
  • 课程体系被整体重构

🧪 完成任务 ≠ 学会能力

  • 任务完成只是“样本”,不是能力本身
  • 真正关键:迁移能力(举一反三)
  • AI可以加速任务,但不保证形成认知结构

🌐 AI Assessment Board:从“共识”走向“事实”

  • 不先定义标准,而先收集真实案例
  • 用数据找pattern,而不是专家拍脑袋
  • 从实践中抽取“不可替代能力”

🧭 收束:评估不再是技术问题,而是哲学问题

  • 我们是否一直在用“产出”替代“理解”?
  • 我们是否误把“完成”当作“掌握”?
  • 在AI时代,什么才算真正的学习?

-----------------------关于伊伊子----------------------

伊伊子的小红书传送门

----------------------关于听友群-----------------------

如果您对AI和教育的融合充满兴趣,欢迎填写我们的听友群入群申请问卷!🎧点击链接,或扫码,与更多志同道合的伙伴一起交流最新的行业动态、分享学习经验,并共同探讨AI如何重塑教育的未来。期待在听友群中与您相遇,共同成长!😊

请大家在填写微信联系方式时,务必确认拼写是否完整和正确。我们遇见过好几次微信ID无法识别的情况~谢谢大家!

--------------------相关词介绍-------------------

Assessment(评估)
在AI时代,从“结果验证”转向“学习证据的定义”。不再只是打分工具,而是决定什么被视为能力的核心机制。

Test-Based Learning (TBL)
以考试为核心的学习方式,依赖标准答案与个体输出。在AI时代最容易被替代与冲击。

Project-Based Learning (PBL)
通过项目完成任务进行学习。原本被认为更真实,但在AI加持下也出现“代做式完成”的问题。

AI Detector(AI检测器)
试图判断文本是否由AI生成的工具,但由于缺乏可验证来源,在教育场景中难以作为有效证据。

Turnitin(查重系统)
基于已有文本数据库进行比对的工具,因“有来源证据”而成立,对比凸显AI检测的逻辑问题。

Rubric(评分标准)
教师用于评估学生表现的标准体系。在AI时代失效,因为无法区分“能力 vs 工具增强”。

Human-AI Collaboration(人机协作)
新的能力单位。学生不再是独立个体,而是与AI共同完成任务的系统。

Transfer(迁移能力)
将知识应用到新情境的能力。是区分“学会”与“完成任务”的核心指标。

Feynman Technique(费曼学习法)
通过解释来验证理解。在AI时代成为重要“反作弊”与“验证真实理解”的方式。

Formative Assessment(形成性评估)
关注学习过程,例如与AI的互动记录。相比结果,更能反映真实学习。

Summative Assessment(终结性评估)
关注最终成果(考试、作业)。在AI时代逐渐失去可信度。

展开Show Notes
53:11 对你们的数据库感兴趣,怎么参与呀?