历史上每一次人机交互的革命,都成就了一家伟大的公司,今天我们正站在新的十字路口。
当理想同学用“三模型架构”成为首个“真正可用”的语音助手,当语音输入强大到在游戏中被视为“作弊”,我们正处在一个剧烈的范式转换前夜。
本期节目,我们与怒喵科技李楠一起,揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。
历史上每一次人机交互的革命,都成就了一家伟大的公司,今天我们正站在新的十字路口。当理想同学用“三模型架构”成为首个“真正可用”的语音助手,当语音输入强大到在游戏中被视为“作弊”,我们正处在一个剧烈的范式转换前夜。本期节目,我们与怒喵科技李楠一起,揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。
03:37 - Part 1:理想同学的“三模型”架构,与游戏里的“语音外挂”
当云端延迟还在0.8秒挣扎,理想同学已凭借端侧 AI 的百毫秒级响应,实现了“用了就回不去”的丝滑体验。怒喵尝试将这种能力复刻到PC上,发现语音输入在FPS游戏里竟能化身“作弊器”,手残党也能秒开爆闪、精准打药。这证明了新交互范式的巨大优势:你再也不用去记那些复杂的快捷键,更不需要翻看任何说明教程了!
27:42 - Part 2:语音输入法正在“逆袭”:从质疑TNT到爱上语音打字
2024年,一款语音输入法竟能融资3600万美元?我们从质疑老罗的TNT,到如今在工位上全天使用语音输入。无论是能自动去除口癖、智能排版的Wispr Flow,还是微信悄悄上线的“整理文字”功能,都预示着语音输入的时代已经到来。然而,今天的软件和操作系统,都还没有为模型准备好——这正是巨大的机会所在。此外,我们还分享了你身边就能用到的其他优秀工具与技巧,以及为什么端侧模型也有机会成为云端大模型一样的“行业黄金”。
58:24 - Part 3:人与模型的互动反常识:告别一键生成,拥抱“说得越多越好”
别再迷信“一键生成XX”的AI产品了,那大多是无法深入使用的“垃圾”。无论是Grok-4还是其他大模型,它们拥有强大的“Coder”能力,却缺乏“软件工程”能力。真正的价值诞生于深度交互:你给AI五万字,它能为你压缩出八千字的精华;让AI辅助整理会议纪要,它帮你强化关键细节而不是纯靠AI输出。从语音交互开始,我们正在告别过去几十年拥抱屏幕的病态,成为一个真正自然的人。
人物:
- 李楠-AI谬论主播,怒喵科技CEO,前魅族副总裁
- 托马斯白-脑放电波主播,资深科技营销人,前XR创业公司CMO,科技媒体特约作者;
- Nixon-脑放电波主播,硬件产品经理,前科技媒体记者.
- 剪辑制作:柒
节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。
引入:人机交互分阶段
什么是人机交互?什么是I/O?
遍历各种交互模态的发展历史;
AI时代为什么“语音”变得如此重要?
语音交互AI发展史:
输出:机械音-拟人音-原生多模态拟人音-AI播客
输入:字正腔圆普通话-各种方言外语-声纹识别AI降噪-原生多模态听懂情绪与背景音
还有什么带有潜力的交互模态?手势?捏指?脑机?
人机交互的巨大影响:一个交互范式成就一家伟大公司和一系列伟大产品
输入方式
- 命令行-微软
- 图形界面:Mac和iPhone
- 自然语言:会是谁?(有很多先烈如TNT。)
硬件技术
- 键盘
- 鼠标、多点触控
- 阵列麦(insta 360 的web cam、智能音响)
Part 1:本地模型、阵列麦。理想同学和怒喵的语音互动尝试
理想同学的
- 三模型
本地模型
智舱模型(本地)
云端 - Know how
云端模型玩命优化,做不到本地模型的优化
云端0.8
键盘和鼠标:怒喵的自动化尝试
- SenseVoice是阿里云通义实验室开发的一款多语言音频基础模型
- 语音和键盘鼠标的结合 —— 怒喵的尝试
事件:三角洲、DKS(动态按键切换)与SOCD(方向叠加控制)、宏、连点、自动吸附、语音操控(需要楠总给大家简要科普一下)
怎么就被批评作弊了?
反常识的点:语音输入做了这么多年,但还是没有真正高频用起来;今天的端侧AI才让这个事儿有了机会 - Siri-理想同学
- 颠覆操控
- 颠覆GUI
Part 2:语音输入
语音输入:从质疑TNT到爱上TNT-只要足够准,我可以等,我也可以全天语音输入。但系统显然没有为模型准备好
- 一款在24年创业,还能融资3600万美元的输入法
为什么在这个时候还能做输入法融资,绝了
特点:自动省去口癖、自动排版提升可读性、可以会议说话的同时还输入
现在我触发了我的输入法。 - 2024年7月推出“高级语音模式”后,ChatGPT周活跃用户在6个月内从2亿翻倍至4亿,其中移动端用户占比达43.75%(1.75亿/4亿),且移动端月增长率稳定在5%-15%
- 反常识点:
即便是输入法这种强交互、要求低延时的产品,消费者也愿意等待,因为足够精准
我现在巴不得在工位上也要用语音输入了,,,因为快速输入的价值太高了且今天的麦克风确实非常好
甚至想买个麦克风在嘴边的耳机
语音的输入是当今最被低估的模态,原因是因为它在传播上来说,很多时候就是在卷语气。它是不是真实和有没有记号,让你自己看到延迟,这在媒体看来非常不性感,但它有非常大的作用。
语音这种自然的形式解决的是非语言/文字性交互的问题。因为它其实包含了非常多的社会化的反馈,让人更愿意说了。
实验:填写问卷,电脑主动披露自己的信息:甚至类似CPU参数之类的信息。用户也更加的爱用
比如我之所以现在还在使用豆包耳机,很大程度上是因为这依然是我能找到的笑得最自然的耳机。 - 实用建议:国内语音输入法的一些使用感受
微信内的两种语音输入方式(语音转文字还自带整理,非常好)
微信、讯飞等需要跳转的输入法
能否自动实时做一些修正
part 3:人和模型怎么互动?
模型要怎么用已经比较明确了:模型没有工程能力,没有代码能力
- Grok 4 的300美金,但没有带来显著的价值
其他的反常识:不要期待“一键帮你xx”的产品,大多没啥价值。你得和AI交互才有精彩的结果
- 脑放的AI写作法:给AI五万字,压缩出八千字的内容,效果非常好
- 一些正面、负面的例子
一键总结会议、一键总结播客,最后吃灰了。但要你参与一些的会比较好
AI协助整理会议记录:效果非常好Quill-直接点击开始,进行录制-可以做简要记录,自带时间戳-每20秒自动检测,或者手动检测,会自动记录-可以自动启动录制(读取了日历和应用的操作)-解决的核心矛盾:人是需要专心的,但会议记录是分心的Granola它不是先转录会议内容,再尝试自行突出重点,而是你可以通过写下你认为最重要的会议要点来指导 AI,AI 则协助补充其余内容。豆包现在可以自动的检测你开哪些会,然后问你要不要开始录音,也是很绝。
- 观点:不要“一键帮你xx“的产品
绝大部分人没有能力也没有耐心把自己的需求用自然语言描述出来
就像苹果1984年推出Mac的时候的这句广告语:Wouldn't it make sense to teach computers about people, instead of teaching people about computers?

