一个月前,伊朗对阿联酋发动导弹袭击。Wesley在阿布扎比被爆炸声惊醒,每隔半小时一波警报,导弹碎片落在两公里外的大学里。他连夜驱车东撤到阿曼边境,一周后又回到阿布扎比继续上班。Wesley本科北大信科毕业,现在是MBZUAI(中东AI大学)的研究员,正在孵化一个叫AudarAI的项目——做以阿拉伯语方言为核心的Voice AI。这期对话覆盖了战争亲历、中东AI生态的真实面貌、为什么大模型做不好阿拉伯语、主权AI为什么不是口号,以及为什么语音会成为下一个时代的AI接口。
Highlights
→ 战争亲历:每隔半小时一波警报,导弹碎片落在2公里外
→ 战火中和BCG照常开会:"没必要推迟"
→ 短期影响不大,长期影响的是信心——信心影响资金和人才流动
→ MBZUAI:用阿联酋总统名字命名,校长是CMU机器学习系主任,Sam Altman去年来访
→ AudarAI:阿拉伯语优先的Voice AI,从方言切入
→ 阿拉伯语方言之间的差异不是英式vs美式英语,是普通话vs粤语
→ ElevenLabs情感表达做得好,但方言口音不行——两者不矛盾
→ 语音是下一个时代的AI接口:人与AI的交流方式必须和人与人保持一致
→ 主权AI在中东是真需求:你不控制AI,怎么保证下一代的国民认同
→ G42更像中国国企,不像硅谷——受中美角力影响很大
→ 中东AI机会:能源第一,金融、医疗健康紧随其后
Timeline
00:00 开场:Wesley从阿布扎比来新加坡出差
01:00 战争亲历:导弹来袭,每隔半小时一波警报
02:20 连夜驱车东撤到阿曼边境
03:50 战火中上班:和BCG照常开会
05:00 长期影响是信心——信心影响资金和人才
05:40 MBZUAI:中东AI大学的背景和发展速度
08:40 Sam Altman来访、杨立昆来访
09:30 中东AI投入以阿联酋和沙特为主
09:50 战后一个月,科研和创业氛围有什么变化
11:20 AudarAI:阿拉伯语优先的多语言Voice AI
12:45 阿拉伯语方言差异:不是口音,是普通话vs粤语
14:10 为什么大模型做不好这件事:只做标准语,日常没人这么说
14:25 竞争格局:ElevenLabs情感好但方言不行
16:10 Voice AI的成熟度落后文本大模型一到两年
16:30 语音领域的玩家:ElevenLabs、Minimax、千问Audio
16:40 为什么选择做AI Audio:计算机与音乐的交叉
18:40 音频模态的特殊性:介于文本和图像之间
21:00 最大的技术挑战:延迟、准确率、多语言混说、打断检测
24:55 为什么做Arabic First:大模型不会为你适配方言
27:45 策略:先做阿联酋方言,再沙特,再GCC,一步步往外推
28:20 OpenAI和ElevenLabs处理阿拉伯语的真实体验
31:25 不懂阿拉伯语怎么做阿拉伯语AI:模型不需要懂语言,评估需要
33:40 模型差异不大了,最终比的是数据和工程
33:50 延迟瓶颈:端到端 vs 级联管线的trade-off
36:10 离线部署:看客户需求,灵活支持云和本地
37:25 主权AI在中东是真需求还是政治口号
39:10 教育的concern:AI原生一代的国民认同问题
41:45 G42的真实面貌:更像国企,受中美角力影响大
45:00 中东AI的机会:能源、金融、医疗健康
47:30 一句话:语音会是下一个时代的AI接口
49:50 收尾

