和李楠谈人机交互:AI时代的“iPhone时刻”离我们只有12个月?-Vol74

和李楠谈人机交互:AI时代的“iPhone时刻”离我们只有12个月?-Vol74

76分钟 ·
播放数8958
·
评论数95

历史上每一次人机交互的革命,都成就了一家伟大的公司,今天我们正站在新的十字路口。当理想同学用“三模型架构”成为首个“真正可用”的语音助手,当语音输入强大到在游戏中被视为“作弊”,我们正处在一个剧烈的范式转换前夜。本期节目,我们与怒喵科技李楠一起,揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。

欢迎收听脑放电波和 AI谬论 的串台节目

03:37 - Part 1:理想同学的“三模型”架构,与游戏里的“语音外挂”

理想同学为何比 Siri 好用100倍?这背后是本地模型、智舱模型与云端模型协同工作的降维打击。当云端延迟还在0.8秒挣扎,理想同学已凭借端侧AI的百毫秒级响应,实现了“用了就回不去”的丝滑体验。怒喵尝试将这种能力复刻到PC上,发现语音输入在FPS游戏里竟能化身“作弊器”,手残党也能秒开爆闪、精准打药。这证明了新交互范式的巨大优势:你再也不用去记那些复杂的快捷键,更不需要翻看任何说明教程了!

27:42 - Part 2:语音输入法正在“逆袭”:从质疑TNT到爱上语音打字

2024年,一款语音输入法竟能融资3600万美元?我们从质疑老罗的TNT,到如今在工位上全天使用语音输入。无论是能自动去除口癖、智能排版的Wispr Flow,还是微信悄悄上线的“整理文字”功能,都预示着语音输入的时代已经到来。然而,今天的软件和操作系统,都还没有为模型准备好——这正是巨大的机会所在。此外,我们还分享了你身边就能用到的其他优秀工具与技巧,以及为什么端侧模型也有机会成为云端大模型一样的“行业黄金”。

58:24 - Part 3:人与模型的互动反常识:告别一键生成,拥抱“说得越多越好”

别再迷信“一键生成XX”的AI产品了,那大多是无法深入使用的“垃圾”。无论是Grok-4还是其他大模型,它们拥有强大的“Coder”能力,却缺乏“软件工程”能力。真正的价值诞生于深度交互:你给AI五万字,它能为你压缩出八千字的精华;让AI辅助整理会议纪要,它帮你强化关键细节而不是纯靠AI输出。从语音交互开始,我们正在告别过去几十年拥抱屏幕的病态,成为一个真正自然的人。

欢迎订阅脑放电波,2024/25苹果播客周度推荐节目、小宇宙累计10次编辑推荐单集、2024CPA播客中文奖年度科技数码类播客

欢迎在评论区留言发表你对 语音交互/人机交互 的感受与看法,我们将选取其中三位评论送出脑放电波定制周边:一把酷酷的金属电路板尺子

对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01)加群参与讨论,后续会发布本期节目的文字稿

人物:

  • 李楠-AI谬论主播,怒喵科技CEO,前魅族副总裁
  • 托马斯白-脑放电波主播,资深科技营销人,前XR创业公司CMO,科技媒体特约作者;Nixon-脑放电波主播,硬件产品经理,前科技媒体记者.
  • 剪辑制作:柒

节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。

脑放电波往期节目精选(搜索关键词可收听)

脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。您可以在小宇宙、苹果播客或者其他泛用型播客客户端搜索“脑放电波”找到并关注我们,如果您对本期节目有任何疑问,欢迎您给我们留言,如果您觉得这期内容对你有所帮助,欢迎您关注点赞收藏转发,这对我们非常重要。

展开Show Notes
Nixon_Hu
Nixon_Hu
2025.7.21
置顶
历史上每一次人机交互的革命,都成就了一家伟大的公司,今天我们正站在新的十字路口。当理想同学用“三模型架构”成为首个“真正可用”的语音助手,当语音输入强大到在游戏中被视为“作弊”,我们正处在一个剧烈的范式转换前夜。本期节目,我们与怒喵科技李楠一起,揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。
欢迎收听脑放电波和 AI谬论 的串台节目
Nixon_Hu
:
理解大家不想听广告的心情,也请大家理解本播客(甚至是播客行业)的这个体量还没到能让汽车厂商投广子的程度,作为一档讲科技类产品的节目,提到个别的厂商是在所难免的,咱总得见到别人做的好不是吗?
Nixon_Hu
:
欢迎大家评论互动,我们将选取三位听众送出我们的周边钢铁直男尺
亏了,听着听着才发现是软文,浪费时间!
李楠或kkk:当年我在ifanr吹iPhone3g的时候,也是一样的评论
Nixon_Hu
:
理解大家不想听广告的心情,也请大家理解本播客(甚至是播客行业)的这个体量还没到能让汽车厂商投广子的程度,作为一档讲科技类产品的节目,提到个别的厂商是在所难免的,咱总得见到别人做的好不是吗?
4条回复
OneTiger
OneTiger
2025.7.21
wispr flow 已经用上了,能否把后面提到的几个产品名字也说一下,好像有个听着是 qu 开头的
Nixon_Hu
:
quill 和 granola
李文涛:阿里云开源的端侧模型叫啥,是senceVoice么
7条回复
NathanWu
NathanWu
2025.7.22
''理想车机 好 特别好 用了就回去不的好''
听得我急死了🤣
Nixon_Hu
:
咋了
27:23 没有图搜的时候不会找说明书查吗?而且连故障灯都认不清楚你驾照是怎么考下来的
Nixon_Hu
:
老师虽然说的对但是太严苛了😭
Nixon_Hu
:
20年前考的驾照,,,而且很多时候,租来的车里是不好找到说明书的,或者就是自己懒得翻。
4条回复
SUiTHiNK
SUiTHiNK
2025.8.07
1:14:33 没想到最后还被cue了一下 😂 我蛮认同李楠的看待方式和思路的,新的技术应该有新的范式来承载,这是一个很好的历史机会。但大公司们已经积攒的东西太多了,不可能放下旧范式里的「优势」去推倒重来干一个全新的事,所以他们会不断「修正」。这是一个大家重新站在起跑线上的机会,更灵活变通的那个阵营才有可能领先。
Nixon_Hu
:
苏老师最近沉迷 3D 捉迷藏。
SUiTHiNK:哈哈哈哈哈哈哈哈哈哈哈哈哈,你知道塞尔达里的呀哈哈吗?
4条回复
HD80162x
HD80162x
2025.7.21
记个笔记——语音交互,小模型实时训练,情趣管理
Nixon_Hu
:
认真
Mike-Wu
Mike-Wu
2025.7.20
沙发,见证人机交互革命的时代👏
HD557266u
HD557266u
2025.7.21
20:48 本地操作这些可能0.6b就够了
李楠或kkk:实测不太好用所以章鱼最小也是1B
HD651708i
HD651708i
2025.7.22
理想同学确实是可用性非常强,有车载机器人的雏形
Nixon_Hu
:
谢谢你,请订阅我们,我们讲机器人也很多😭
OneTiger
OneTiger
2025.7.21
我测试让 wispr 听着这集播客 10 s ,中间我说了一句话,结果 wispr 就准确的识别了我的话。我说话的时候还继续放着播客,这 wispr 是怎么做到的啊?
Nixon_Hu
:
如果是同一个设备的话,其实就是很简单的回声消除吧我印象中这个技术是叫这个名字,就是手机能把自己播放的音频给他消除掉,如果是分开两个设备的话,就是人声和背景分离
OneTiger
OneTiger
2025.7.21
李楠关于理想车机的分享太棒了,希望可以再出一集详细讲讲,我已经整理出了一系列问题准备去各家 4s 店测试对比一下,能否提供一些理想回复得比别家好的问题?
Nixon_Hu
:
我自己遇到的问题是两个,第1个是,在说指令的中间过程当中有一个一秒的停顿,然后还是半秒的停顿,就会有车机直接接管掉,但是理想是会等一等的,第2个呢就是天马行空都问他所有的功能应该怎么开,随意说哪个功能应该怎么用,你就会发现很多功能,其他的车机上会有问题,不要仅仅限于哪些功能,怎么打开怎么设置哈,你也可以问,比如说。啊类似于,北家有几个类似于,设计上支持几个手机充电器之类的问题
poorest
poorest
2025.7.21
但是端侧模型也有准确率的问题,加载延迟的问题,算力小的限制,语音交互而言端到端未必端侧比云侧好吧。实时性端侧模型可能更适合的是特定垂域场景、永远在内存的、有离网场景的应用吧
Nixon_Hu
:
对的,节目里提的主要是0.8秒的这个问题,就是准确度对于汽车来说已经过了阈值那这个时候0.8秒的优化就非常的显著了。
卜莱恩
卜莱恩
2025.7.28
应该还是传统nlp做路由吧 语言模型即使本地做fuction call时延也很高啊
李楠或kkk:理解能力有区别,本底实测7B 100毫秒,换来真正的语言理解能力
Nixon_Hu
:
愿听专家讲解
胡思乱想
胡思乱想
2025.7.21
很有启发性的一期节目,ai 赋能后的语音可以展现非常多的应用场景。语音交互能安装到无数的现实场景中,人天生就会,而很难想象触摸屏能装到线下任何场景,并且降低学习场景。我相信这是 iPhone 时刻。
Nixon_Hu
:
欢迎用语音输入来我们在这里沟通。
42:02 现在在对话框右边直接多了一个语音按钮,最神奇的是,你在语音最后说 over over 会直接发送出去😱
Nixon_Hu
:
查了一下,还真是微信iOS版本在内测,,,说语音输入确实微信算是早期鼻祖了,,,太太太好用了吧
Nixon_Hu
:
指的是微信语音吗?
5条回复
DD_AZeY
DD_AZeY
2025.7.21
一定要叫理想同学才能唤醒它吗
Nixon_Hu
:
噢 节目中忘了说 现在很多新能源汽车都支持所谓的无唤醒模式就是直接说出打开窗户之类的指令 并不需要唤醒那个AI
Nixon_Hu
:
所以也不需要叫理想同学就能直接执行这个语音的指令了。但这个功能并不是理想独有的哈。
28:23 老罗:勿 cue 谢谢
YSHN
YSHN
2025.9.17
找不到功能在哪反应过来为什么不问问语音助手被称为交互新范式给我听笑了
Nixon_Hu
:
祝贺你,知道的功能多
HD456129x
HD456129x
2025.9.06
有启发
托马斯白
:
有启发就好😀