#3 战火中的AI:从阿布扎比导弹袭击到阿拉伯语Voice AI离线时间

#3 战火中的AI:从阿布扎比导弹袭击到阿拉伯语Voice AI

50分钟 ·
播放数10
·
评论数0

一个月前,伊朗对阿联酋发动导弹袭击。Wesley在阿布扎比被爆炸声惊醒,每隔半小时一波警报,导弹碎片落在两公里外的大学里。他连夜驱车东撤到阿曼边境,一周后又回到阿布扎比继续上班。Wesley本科北大信科毕业,现在是MBZUAI(中东AI大学)的研究员,正在孵化一个叫AudarAI的项目——做以阿拉伯语方言为核心的Voice AI。这期对话覆盖了战争亲历、中东AI生态的真实面貌、为什么大模型做不好阿拉伯语、主权AI为什么不是口号,以及为什么语音会成为下一个时代的AI接口。

Highlights

→ 战争亲历:每隔半小时一波警报,导弹碎片落在2公里外

→ 战火中和BCG照常开会:"没必要推迟"

→ 短期影响不大,长期影响的是信心——信心影响资金和人才流动

→ MBZUAI:用阿联酋总统名字命名,校长是CMU机器学习系主任,Sam Altman去年来访

→ AudarAI:阿拉伯语优先的Voice AI,从方言切入

→ 阿拉伯语方言之间的差异不是英式vs美式英语,是普通话vs粤语

→ ElevenLabs情感表达做得好,但方言口音不行——两者不矛盾

→ 语音是下一个时代的AI接口:人与AI的交流方式必须和人与人保持一致

→ 主权AI在中东是真需求:你不控制AI,怎么保证下一代的国民认同

→ G42更像中国国企,不像硅谷——受中美角力影响很大

→ 中东AI机会:能源第一,金融、医疗健康紧随其后

Timeline

00:00 开场:Wesley从阿布扎比来新加坡出差

01:00 战争亲历:导弹来袭,每隔半小时一波警报

02:20 连夜驱车东撤到阿曼边境

03:50 战火中上班:和BCG照常开会

05:00 长期影响是信心——信心影响资金和人才

05:40 MBZUAI:中东AI大学的背景和发展速度

08:40 Sam Altman来访、杨立昆来访

09:30 中东AI投入以阿联酋和沙特为主

09:50 战后一个月,科研和创业氛围有什么变化

11:20 AudarAI:阿拉伯语优先的多语言Voice AI

12:45 阿拉伯语方言差异:不是口音,是普通话vs粤语

14:10 为什么大模型做不好这件事:只做标准语,日常没人这么说

14:25 竞争格局:ElevenLabs情感好但方言不行

16:10 Voice AI的成熟度落后文本大模型一到两年

16:30 语音领域的玩家:ElevenLabs、Minimax、千问Audio

16:40 为什么选择做AI Audio:计算机与音乐的交叉

18:40 音频模态的特殊性:介于文本和图像之间

21:00 最大的技术挑战:延迟、准确率、多语言混说、打断检测

24:55 为什么做Arabic First:大模型不会为你适配方言

27:45 策略:先做阿联酋方言,再沙特,再GCC,一步步往外推

28:20 OpenAI和ElevenLabs处理阿拉伯语的真实体验

31:25 不懂阿拉伯语怎么做阿拉伯语AI:模型不需要懂语言,评估需要

33:40 模型差异不大了,最终比的是数据和工程

33:50 延迟瓶颈:端到端 vs 级联管线的trade-off

36:10 离线部署:看客户需求,灵活支持云和本地

37:25 主权AI在中东是真需求还是政治口号

39:10 教育的concern:AI原生一代的国民认同问题

41:45 G42的真实面貌:更像国企,受中美角力影响大

45:00 中东AI的机会:能源、金融、医疗健康

47:30 一句话:语音会是下一个时代的AI接口

49:50 收尾