EP79 AI评测是数据科学新出路?AI泡沫、产品瓶颈、AI安全性StellaxAmy·自定义

EP79 AI评测是数据科学新出路?AI泡沫、产品瓶颈、AI安全性

63分钟 ·
播放数645
·
评论数9

Stella和Amy现在持续在Maven平台分享AI Evals and Analytics 的相关讲座和课程。欢迎有兴趣的听众朋友们关注。


免费讲座(若错过可在 ai-evals.org 观看回放):

11月20日: How to Drive AI Evals Adoption (如何在企业推行AI评测)by Dr Sebastian Fox (CEO & Co-founder at Composo.ai)

12月1日: Choose the Right AI Evals Vendor (如何选择AI评测厂商) by Amy Chen

>>> 连结: ai-evals.org


你有没有想过,当你每天使用的AI产品出了问题,到底是谁的责任?当ChatGPT给出错误答案、当AI助手突然变得不安全、当公司投入巨资的AI项目最终失败——这些问题的根源往往在于缺乏有效的评测机制。

这一期是Stella和Amy的特别坦白局,分享她们最近「人设崩塌」开始在Maven教AI评测(AI Evals)的始末。Stella在AI Evals领域已深耕两年多,从OpenAI推出ChatGPT开始就在做相关工作。她用实际案例,包括Character AI和OpenAI产品导致的青少年自杀事件、Claude Code功能推出后的用户流失,说明为什么AI评测不只是技术问题,更关乎产品安全、公司存亡,甚至人命。

从技术讨论到产业观察,两人不留情面地评论当前AI评测市场的乱象。她们直言OpenAI等大厂对安全性评估的「做做样子」态度,质疑市面上很多Evals工具只是「安慰剂」,并分享自己对主流AI Evals方法的不同意见。

这期节目还触及AI产业更深层的问题:AI泡沫到底是什么?当Amazon因「相信AI会提高生产力」而裁员,当Arizona的数据中心和居民抢水抢电,当OpenAI的CFO公开表示如果失败联邦政府应该救援,我们正在见证的是AI for Human还是Human for AI?


00:00:00 - 节目高光

00:05:21 - 为何决定投身AI评测

00:10:17 - 用户对AI产品零忠诚度的现实

00:16:02 - 安全性危机:AI产品导致的真实伤害案例

00:21:37 - AI Evals是数据科学家的新机会

00:28:05 - 课程经验:第一届学生的反馈

00:36:25 - AI Literacy教育:给孩子的新计划

00:44:05 - AI拟人化的危险与教育的重要性

00:50:02 - AI Bubble真相:投资与价值的巨大落差

00:54:19 - 数据中心vs.居民:抢电抢水抢资源

01:00:32 - 未来计划与讲座预告



「StellaxAmy‧自定义」播客

每期邀请一位朋友,讲述中文世界故事、华人故事。和我们一起倾听自定义人生。

如果你喜欢本节目或希望与我们合作,Stella和Amy现已开通Buy Me a Coffee会员支持:buymeacoffee.com

收听更多精彩内容 → linktr.ee

展开Show Notes
HD301109d
HD301109d
2025.11.13
这个话题很棒!期待后续继续聊咯
dj3H
dj3H
2天前
听友报课有优惠吗?😂
StellaxAmy
:
有的呀~优惠码—StellaxAmy 35% off,还可以看一看公司可不可以报销哦
Josee_c
Josee_c
2025.11.15
工作多年想转行数据科学,目前正在读数据科学专业中,未来想将曾经的医药行业工作经验和数据科学结合起来,想请主播们给些未来职业发展建议~ 另外医药作为监管力度很强的行业,AI的应用应该是非常谨慎的,是否可解释、是否稳定和如何评价感觉都是很重要又并不好解决的问题,主播们怎么看呢?
StellaxAmy
:
我们一般不建议大家转行DS,但是如果你可以将自己的过往行业经验和DS结合的话,可能是个不错的选择。医药这类监控力度强的行业相对更早adopt AI Evals,因为一旦出问题,后果会很严重。大概也正是因为这样,我们第一期的学员有80%都是healthcare的。
LiXinyu_mu3V
LiXinyu_mu3V
2小时前
请问适合在互联网大厂负责AItoc产品的新手运营(也要负责AI评测)学习吗?这个课程
四夕_lfQh
四夕_lfQh
2025.11.12
我觉得现在应该是ai evals的非常早期,因为企业更会多从盈利角度而不是风控角度看问题。业务和应用侧跑在前面,企业内部投入大量资源做安全和可靠性评估太理想化了,尽管它确实非常非常重要。没有政府和监管的强势介入,个人感觉ai eval成为一个能容纳十万人以上量级的职业还为时尚早。虽然有些悲观,但也恰恰说明主播努力发声的重要性。加油!❤️
StellaxAmy
:
AI Evals并不是只有传统意义上的安全性哦,也涉及一个产品是否能达到应有的性能。最近有越来越多的案例说明不做AI Evals可能会造成商业上的失败。不过现在还在AI hype中,AI Evals确实是早期,所以很希望data从业者去抢占这个山头!
四夕_lfQh
四夕_lfQh
2025.11.12
来了!沙发🛋️