历史上每一次人机交互的革命，都成就了一家伟大的公司，今天我们正站在新的十字路口。

当理想同学用“三模型架构”成为首个“真正可用”的语音助手，当语音输入强大到在游戏中被视为“作弊”，我们正处在一个剧烈的范式转换前夜。

本期节目，我们与怒喵科技李楠一起，揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。

历史上每一次人机交互的革命，都成就了一家伟大的公司，今天我们正站在新的十字路口。当理想同学用“三模型架构”成为首个“真正可用”的语音助手，当语音输入强大到在游戏中被视为“作弊”，我们正处在一个剧烈的范式转换前夜。本期节目，我们与怒喵科技李楠一起，揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。

03:37 - Part 1：理想同学的“三模型”架构，与游戏里的“语音外挂”

当云端延迟还在0.8秒挣扎，理想同学已凭借端侧 AI 的百毫秒级响应，实现了“用了就回不去”的丝滑体验。怒喵尝试将这种能力复刻到PC上，发现语音输入在FPS游戏里竟能化身“作弊器”，手残党也能秒开爆闪、精准打药。这证明了新交互范式的巨大优势：你再也不用去记那些复杂的快捷键，更不需要翻看任何说明教程了！

27:42 - Part 2：语音输入法正在“逆袭”：从质疑TNT到爱上语音打字

2024年，一款语音输入法竟能融资3600万美元？我们从质疑老罗的TNT，到如今在工位上全天使用语音输入。无论是能自动去除口癖、智能排版的Wispr Flow，还是微信悄悄上线的“整理文字”功能，都预示着语音输入的时代已经到来。然而，今天的软件和操作系统，都还没有为模型准备好——这正是巨大的机会所在。此外，我们还分享了你身边就能用到的其他优秀工具与技巧，以及为什么端侧模型也有机会成为云端大模型一样的“行业黄金”。

58:24 - Part 3：人与模型的互动反常识：告别一键生成，拥抱“说得越多越好”

别再迷信“一键生成XX”的AI产品了，那大多是无法深入使用的“垃圾”。无论是Grok-4还是其他大模型，它们拥有强大的“Coder”能力，却缺乏“软件工程”能力。真正的价值诞生于深度交互：你给AI五万字，它能为你压缩出八千字的精华；让AI辅助整理会议纪要，它帮你强化关键细节而不是纯靠AI输出。从语音交互开始，我们正在告别过去几十年拥抱屏幕的病态，成为一个真正自然的人。

人物：

李楠-AI谬论主播，怒喵科技CEO，前魅族副总裁

托马斯白-脑放电波主播,资深科技营销人,前XR创业公司CMO,科技媒体特约作者；

Nixon-脑放电波主播,硬件产品经理,前科技媒体记者.

剪辑制作：柒

节目中用到的音乐：来自monkeyman535的90's Rock Style，地址freesound.org；来自kjartan_abel的Berlin Town，地址freesound.org；基于 CC BY 4.0 DEED 使用。

引入：人机交互分阶段

什么是人机交互？什么是I/O？

遍历各种交互模态的发展历史；

AI时代为什么“语音”变得如此重要？

语音交互AI发展史：

输出：机械音-拟人音-原生多模态拟人音-AI播客

输入：字正腔圆普通话-各种方言外语-声纹识别AI降噪-原生多模态听懂情绪与背景音

还有什么带有潜力的交互模态？手势？捏指？脑机？

人机交互的巨大影响：一个交互范式成就一家伟大公司和一系列伟大产品

输入方式

命令行-微软

图形界面：Mac和iPhone

自然语言：会是谁？（有很多先烈如TNT。）

硬件技术

键盘

鼠标、多点触控

阵列麦（insta 360 的web cam、智能音响）

Part 1：本地模型、阵列麦。理想同学和怒喵的语音互动尝试

理想同学的

三模型
本地模型
智舱模型（本地）
云端

Know how
云端模型玩命优化，做不到本地模型的优化
云端0.8

键盘和鼠标：怒喵的自动化尝试

SenseVoice是阿里云通义实验室开发的一款多语言音频基础模型

语音和键盘鼠标的结合 —— 怒喵的尝试
事件：三角洲、DKS（动态按键切换）与SOCD（方向叠加控制）、宏、连点、自动吸附、语音操控（需要楠总给大家简要科普一下）
怎么就被批评作弊了？
反常识的点：语音输入做了这么多年，但还是没有真正高频用起来；今天的端侧AI才让这个事儿有了机会

Siri-理想同学

颠覆操控

颠覆GUI

Part 2：语音输入

语音输入：从质疑TNT到爱上TNT-只要足够准，我可以等，我也可以全天语音输入。但系统显然没有为模型准备好

一款在24年创业，还能融资3600万美元的输入法
为什么在这个时候还能做输入法融资，绝了
特点：自动省去口癖、自动排版提升可读性、可以会议说话的同时还输入
现在我触发了我的输入法。

2024年7月推出“高级语音模式”后，ChatGPT周活跃用户在6个月内从2亿翻倍至4亿，其中移动端用户占比达43.75%（1.75亿/4亿），且移动端月增长率稳定在5%-15%

反常识点：
即便是输入法这种强交互、要求低延时的产品，消费者也愿意等待，因为足够精准
我现在巴不得在工位上也要用语音输入了，，，因为快速输入的价值太高了且今天的麦克风确实非常好
甚至想买个麦克风在嘴边的耳机
语音的输入是当今最被低估的模态，原因是因为它在传播上来说，很多时候就是在卷语气。它是不是真实和有没有记号，让你自己看到延迟，这在媒体看来非常不性感，但它有非常大的作用。
语音这种自然的形式解决的是非语言/文字性交互的问题。因为它其实包含了非常多的社会化的反馈，让人更愿意说了。
实验：填写问卷，电脑主动披露自己的信息：甚至类似CPU参数之类的信息。用户也更加的爱用
比如我之所以现在还在使用豆包耳机，很大程度上是因为这依然是我能找到的笑得最自然的耳机。

实用建议：国内语音输入法的一些使用感受
微信内的两种语音输入方式（语音转文字还自带整理，非常好）
微信、讯飞等需要跳转的输入法
能否自动实时做一些修正

part 3：人和模型怎么互动？

模型要怎么用已经比较明确了：模型没有工程能力，没有代码能力

Grok 4 的300美金，但没有带来显著的价值

其他的反常识：不要期待“一键帮你xx”的产品，大多没啥价值。你得和AI交互才有精彩的结果

脑放的AI写作法：给AI五万字，压缩出八千字的内容，效果非常好

一些正面、负面的例子
一键总结会议、一键总结播客，最后吃灰了。但要你参与一些的会比较好
AI协助整理会议记录：效果非常好Quill-直接点击开始，进行录制-可以做简要记录，自带时间戳-每20秒自动检测，或者手动检测，会自动记录-可以自动启动录制（读取了日历和应用的操作）-解决的核心矛盾：人是需要专心的，但会议记录是分心的Granola它不是先转录会议内容，再尝试自行突出重点，而是你可以通过写下你认为最重要的会议要点来指导 AI，AI 则协助补充其余内容。豆包现在可以自动的检测你开哪些会，然后问你要不要开始录音，也是很绝。

观点：不要“一键帮你xx“的产品

绝大部分人没有能力也没有耐心把自己的需求用自然语言描述出来
就像苹果1984年推出Mac的时候的这句广告语：Wouldn't it make sense to teach computers about people, instead of teaching people about computers?