AI时代的“iPhone时刻”离我们12个月?AI谬论:关于模型,眼镜,耳机的那些破事

AI时代的“iPhone时刻”离我们12个月?

75分钟 ·
播放数3258
·
评论数15

历史上每一次人机交互的革命,都成就了一家伟大的公司,今天我们正站在新的十字路口。

当理想同学用“三模型架构”成为首个“真正可用”的语音助手,当语音输入强大到在游戏中被视为“作弊”,我们正处在一个剧烈的范式转换前夜。

本期节目,我们与怒喵科技李楠一起,揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。

历史上每一次人机交互的革命,都成就了一家伟大的公司,今天我们正站在新的十字路口。当理想同学用“三模型架构”成为首个“真正可用”的语音助手,当语音输入强大到在游戏中被视为“作弊”,我们正处在一个剧烈的范式转换前夜。本期节目,我们与怒喵科技李楠一起,揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。

03:37 - Part 1:理想同学的“三模型”架构,与游戏里的“语音外挂”

当云端延迟还在0.8秒挣扎,理想同学已凭借端侧 AI 的百毫秒级响应,实现了“用了就回不去”的丝滑体验。怒喵尝试将这种能力复刻到PC上,发现语音输入在FPS游戏里竟能化身“作弊器”,手残党也能秒开爆闪、精准打药。这证明了新交互范式的巨大优势:你再也不用去记那些复杂的快捷键,更不需要翻看任何说明教程了!

27:42 - Part 2:语音输入法正在“逆袭”:从质疑TNT到爱上语音打字

2024年,一款语音输入法竟能融资3600万美元?我们从质疑老罗的TNT,到如今在工位上全天使用语音输入。无论是能自动去除口癖、智能排版的Wispr Flow,还是微信悄悄上线的“整理文字”功能,都预示着语音输入的时代已经到来。然而,今天的软件和操作系统,都还没有为模型准备好——这正是巨大的机会所在。此外,我们还分享了你身边就能用到的其他优秀工具与技巧,以及为什么端侧模型也有机会成为云端大模型一样的“行业黄金”。

58:24 - Part 3:人与模型的互动反常识:告别一键生成,拥抱“说得越多越好”

别再迷信“一键生成XX”的AI产品了,那大多是无法深入使用的“垃圾”。无论是Grok-4还是其他大模型,它们拥有强大的“Coder”能力,却缺乏“软件工程”能力。真正的价值诞生于深度交互:你给AI五万字,它能为你压缩出八千字的精华;让AI辅助整理会议纪要,它帮你强化关键细节而不是纯靠AI输出。从语音交互开始,我们正在告别过去几十年拥抱屏幕的病态,成为一个真正自然的人。

人物:

  • 李楠-AI谬论主播,怒喵科技CEO,前魅族副总裁
  • 托马斯白-脑放电波主播,资深科技营销人,前XR创业公司CMO,科技媒体特约作者;
  • Nixon-脑放电波主播,硬件产品经理,前科技媒体记者.
  • 剪辑制作:柒

节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。


引入:人机交互分阶段

什么是人机交互?什么是I/O?

遍历各种交互模态的发展历史;

AI时代为什么“语音”变得如此重要?

语音交互AI发展史:

输出:机械音-拟人音-原生多模态拟人音-AI播客

输入:字正腔圆普通话-各种方言外语-声纹识别AI降噪-原生多模态听懂情绪与背景音

还有什么带有潜力的交互模态?手势?捏指?脑机?

人机交互的巨大影响:一个交互范式成就一家伟大公司和一系列伟大产品

输入方式

  • 命令行-微软
  • 图形界面:Mac和iPhone
  • 自然语言:会是谁?(有很多先烈如TNT。)

硬件技术

  • 键盘
  • 鼠标、多点触控
  • 阵列麦(insta 360 的web cam、智能音响)

Part 1:本地模型、阵列麦。理想同学和怒喵的语音互动尝试

理想同学的

  • 三模型
    本地模型
    智舱模型(本地)
    云端
  • Know how
    云端模型玩命优化,做不到本地模型的优化
    云端0.8

键盘和鼠标:怒喵的自动化尝试

  • SenseVoice是阿里云通义实验室开发的一款多语言音频基础模型
  • 语音和键盘鼠标的结合 —— 怒喵的尝试
    事件:三角洲、DKS(动态按键切换)与SOCD(方向叠加控制)、宏、连点、自动吸附、语音操控(需要楠总给大家简要科普一下)
    怎么就被批评作弊了?
    反常识的点:语音输入做了这么多年,但还是没有真正高频用起来;今天的端侧AI才让这个事儿有了机会
  • Siri-理想同学
  • 颠覆操控
  • 颠覆GUI

Part 2:语音输入

语音输入:从质疑TNT到爱上TNT-只要足够准,我可以等,我也可以全天语音输入。但系统显然没有为模型准备好

  • 一款在24年创业,还能融资3600万美元的输入法
    为什么在这个时候还能做输入法融资,绝了
    特点:自动省去口癖、自动排版提升可读性、可以会议说话的同时还输入
    现在我触发了我的输入法。
  • 2024年7月推出“高级语音模式”后,ChatGPT周活跃用户在6个月内从2亿翻倍至4亿,其中移动端用户占比达43.75%(1.75亿/4亿),且移动端月增长率稳定在5%-15%
  • 反常识点:
    即便是输入法这种强交互、要求低延时的产品,消费者也愿意等待,因为足够精准
    我现在巴不得在工位上也要用语音输入了,,,因为快速输入的价值太高了且今天的麦克风确实非常好
    甚至想买个麦克风在嘴边的耳机
    语音的输入是当今最被低估的模态,原因是因为它在传播上来说,很多时候就是在卷语气。它是不是真实和有没有记号,让你自己看到延迟,这在媒体看来非常不性感,但它有非常大的作用。
    语音这种自然的形式解决的是非语言/文字性交互的问题。因为它其实包含了非常多的社会化的反馈,让人更愿意说了。
    实验:填写问卷,电脑主动披露自己的信息:甚至类似CPU参数之类的信息。用户也更加的爱用
    比如我之所以现在还在使用豆包耳机,很大程度上是因为这依然是我能找到的笑得最自然的耳机。
  • 实用建议:国内语音输入法的一些使用感受
    微信内的两种语音输入方式(语音转文字还自带整理,非常好)
    微信、讯飞等需要跳转的输入法
    能否自动实时做一些修正


part 3:人和模型怎么互动?

模型要怎么用已经比较明确了:模型没有工程能力,没有代码能力

  • Grok 4 的300美金,但没有带来显著的价值

其他的反常识:不要期待“一键帮你xx”的产品,大多没啥价值。你得和AI交互才有精彩的结果

  • 脑放的AI写作法:给AI五万字,压缩出八千字的内容,效果非常好
  • 一些正面、负面的例子
    一键总结会议、一键总结播客,最后吃灰了。但要你参与一些的会比较好
    AI协助整理会议记录:效果非常好Quill-直接点击开始,进行录制-可以做简要记录,自带时间戳-每20秒自动检测,或者手动检测,会自动记录-可以自动启动录制(读取了日历和应用的操作)-解决的核心矛盾:人是需要专心的,但会议记录是分心的Granola它不是先转录会议内容,再尝试自行突出重点,而是你可以通过写下你认为最重要的会议要点来指导 AI,AI 则协助补充其余内容。豆包现在可以自动的检测你开哪些会,然后问你要不要开始录音,也是很绝。
  • 观点:不要“一键帮你xx“的产品

    绝大部分人没有能力也没有耐心把自己的需求用自然语言描述出来
    就像苹果1984年推出Mac的时候的这句广告语:Wouldn't it make sense to teach computers about people, instead of teaching people about computers?
展开Show Notes
sniper_iL89
sniper_iL89
2025.7.24
太尴尬了,认真的聊着常识问题,或行业基础共识问题
夏午2025
夏午2025
2025.7.25
三个主播,音量大小各不一样
鸟叔
鸟叔
2025.7.24
你们是没开过电车吗,吹的有点尬
能饭否 真香
夏午2025
夏午2025
2025.7.25
李楠的声音,真听不清。
Pioneer_BErW
Pioneer_BErW
2025.11.24
了解到很多
tx_T770
tx_T770
2025.7.26
这个是给你多少钱啊,能这么吹
加森
加森
2025.7.25
很多结论不认同,会存在下一个iPhone 时刻,但不是语音相关的
炳叔
炳叔
2025.7.21
Wispr Flow(正在试用,多谢推荐)
123_5Ha2:是需要下载安装吗,没找到
Nixon_Hu:https://wisprflow.ai/
3条回复
天意_hhAg
天意_hhAg
2025.7.24
23:58 罗老师还是太前瞻了
Mike-Wu
Mike-Wu
2025.7.21
虽然昨晚听过了,还是再来支持一下,好内容值得再听一遍
_Austin
_Austin
2025.7.21
收听ing