#3 战火中的AI：从阿布扎比导弹袭击到阿拉伯语Voice AI

一个月前，伊朗对阿联酋发动导弹袭击。Wesley在阿布扎比被爆炸声惊醒，每隔半小时一波警报，导弹碎片落在两公里外的大学里。他连夜驱车东撤到阿曼边境，一周后又回到阿布扎比继续上班。Wesley本科北大信科毕业，现在是MBZUAI（中东AI大学）的研究员，正在孵化一个叫AudarAI的项目——做以阿拉伯语方言为核心的Voice AI。这期对话覆盖了战争亲历、中东AI生态的真实面貌、为什么大模型做不好阿拉伯语、主权AI为什么不是口号，以及为什么语音会成为下一个时代的AI接口。

Highlights

→ 战争亲历：每隔半小时一波警报，导弹碎片落在2公里外

→ 战火中和BCG照常开会："没必要推迟"

→ 短期影响不大，长期影响的是信心——信心影响资金和人才流动

→ MBZUAI：用阿联酋总统名字命名，校长是CMU机器学习系主任，Sam Altman去年来访

→ AudarAI：阿拉伯语优先的Voice AI，从方言切入

→ 阿拉伯语方言之间的差异不是英式vs美式英语，是普通话vs粤语

→ ElevenLabs情感表达做得好，但方言口音不行——两者不矛盾

→ 语音是下一个时代的AI接口：人与AI的交流方式必须和人与人保持一致

→ 主权AI在中东是真需求：你不控制AI，怎么保证下一代的国民认同

→ G42更像中国国企，不像硅谷——受中美角力影响很大

→ 中东AI机会：能源第一，金融、医疗健康紧随其后

Timeline

00:00 开场：Wesley从阿布扎比来新加坡出差

01:00 战争亲历：导弹来袭，每隔半小时一波警报

02:20 连夜驱车东撤到阿曼边境

03:50 战火中上班：和BCG照常开会

05:00 长期影响是信心——信心影响资金和人才

05:40 MBZUAI：中东AI大学的背景和发展速度

08:40 Sam Altman来访、杨立昆来访

09:30 中东AI投入以阿联酋和沙特为主

09:50 战后一个月，科研和创业氛围有什么变化

11:20 AudarAI：阿拉伯语优先的多语言Voice AI

12:45 阿拉伯语方言差异：不是口音，是普通话vs粤语

14:10 为什么大模型做不好这件事：只做标准语，日常没人这么说

14:25 竞争格局：ElevenLabs情感好但方言不行

16:10 Voice AI的成熟度落后文本大模型一到两年

16:30 语音领域的玩家：ElevenLabs、Minimax、千问Audio

16:40 为什么选择做AI Audio：计算机与音乐的交叉

18:40 音频模态的特殊性：介于文本和图像之间

21:00 最大的技术挑战：延迟、准确率、多语言混说、打断检测

24:55 为什么做Arabic First：大模型不会为你适配方言

27:45 策略：先做阿联酋方言，再沙特，再GCC，一步步往外推

28:20 OpenAI和ElevenLabs处理阿拉伯语的真实体验

31:25 不懂阿拉伯语怎么做阿拉伯语AI：模型不需要懂语言，评估需要

33:40 模型差异不大了，最终比的是数据和工程

33:50 延迟瓶颈：端到端 vs 级联管线的trade-off

36:10 离线部署：看客户需求，灵活支持云和本地

37:25 主权AI在中东是真需求还是政治口号

39:10 教育的concern：AI原生一代的国民认同问题

41:45 G42的真实面貌：更像国企，受中美角力影响大

45:00 中东AI的机会：能源、金融、医疗健康

47:30 一句话：语音会是下一个时代的AI接口

49:50 收尾