
AI时代的“iPhone时刻”离我们12个月?历史上每一次人机交互的革命,都成就了一家伟大的公司,今天我们正站在新的十字路口。 当理想同学用“三模型架构”成为首个“真正可用”的语音助手,当语音输入强大到在游戏中被视为“作弊”,我们正处在一个剧烈的范式转换前夜。 本期节目,我们与怒喵科技李楠一起,揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。 历史上每一次人机交互的革命,都成就了一家伟大的公司,今天我们正站在新的十字路口。当理想同学用“三模型架构”成为首个“真正可用”的语音助手,当语音输入强大到在游戏中被视为“作弊”,我们正处在一个剧烈的范式转换前夜。本期节目,我们与怒喵科技李楠一起,揭示本地模型与语音交互如何改变我们几十年来拥抱屏幕的“病态”并回归自然。 03:37 - Part 1:理想同学的“三模型”架构,与游戏里的“语音外挂” 当云端延迟还在0.8秒挣扎,理想同学已凭借端侧 AI 的百毫秒级响应,实现了“用了就回不去”的丝滑体验。怒喵尝试将这种能力复刻到PC上,发现语音输入在FPS游戏里竟能化身“作弊器”,手残党也能秒开爆闪、精准打药。这证明了新交互范式的巨大优势:你再也不用去记那些复杂的快捷键,更不需要翻看任何说明教程了! 27:42 - Part 2:语音输入法正在“逆袭”:从质疑TNT到爱上语音打字 2024年,一款语音输入法竟能融资3600万美元?我们从质疑老罗的TNT,到如今在工位上全天使用语音输入。无论是能自动去除口癖、智能排版的Wispr Flow,还是微信悄悄上线的“整理文字”功能,都预示着语音输入的时代已经到来。然而,今天的软件和操作系统,都还没有为模型准备好——这正是巨大的机会所在。此外,我们还分享了你身边就能用到的其他优秀工具与技巧,以及为什么端侧模型也有机会成为云端大模型一样的“行业黄金”。 58:24 - Part 3:人与模型的互动反常识:告别一键生成,拥抱“说得越多越好” 别再迷信“一键生成XX”的AI产品了,那大多是无法深入使用的“垃圾”。无论是Grok-4还是其他大模型,它们拥有强大的“Coder”能力,却缺乏“软件工程”能力。真正的价值诞生于深度交互:你给AI五万字,它能为你压缩出八千字的精华;让AI辅助整理会议纪要,它帮你强化关键细节而不是纯靠AI输出。从语音交互开始,我们正在告别过去几十年拥抱屏幕的病态,成为一个真正自然的人。 人物: * 李楠-AI谬论主播,怒喵科技CEO,前魅族副总裁 * 托马斯白-脑放电波主播,资深科技营销人,前XR创业公司CMO,科技媒体特约作者; * Nixon-脑放电波主播,硬件产品经理,前科技媒体记者. * 剪辑制作:柒 节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。 引入:人机交互分阶段 什么是人机交互?什么是I/O? 遍历各种交互模态的发展历史; AI时代为什么“语音”变得如此重要? 语音交互AI发展史: 输出:机械音-拟人音-原生多模态拟人音-AI播客 输入:字正腔圆普通话-各种方言外语-声纹识别AI降噪-原生多模态听懂情绪与背景音 还有什么带有潜力的交互模态?手势?捏指?脑机? 人机交互的巨大影响:一个交互范式成就一家伟大公司和一系列伟大产品 输入方式 * 命令行-微软 * 图形界面:Mac和iPhone * 自然语言:会是谁?(有很多先烈如TNT。) 硬件技术 * 键盘 * 鼠标、多点触控 * 阵列麦(insta 360 的web cam、智能音响) Part 1:本地模型、阵列麦。理想同学和怒喵的语音互动尝试 理想同学的 * 三模型 本地模型 智舱模型(本地) 云端 * Know how 云端模型玩命优化,做不到本地模型的优化 云端0.8 键盘和鼠标:怒喵的自动化尝试 * SenseVoice是阿里云通义实验室开发的一款多语言音频基础模型 * 语音和键盘鼠标的结合 —— 怒喵的尝试 事件:三角洲、DKS(动态按键切换)与SOCD(方向叠加控制)、宏、连点、自动吸附、语音操控(需要楠总给大家简要科普一下) 怎么就被批评作弊了? 反常识的点:语音输入做了这么多年,但还是没有真正高频用起来;今天的端侧AI才让这个事儿有了机会 * Siri-理想同学 * 颠覆操控 * 颠覆GUI Part 2:语音输入 语音输入:从质疑TNT到爱上TNT-只要足够准,我可以等,我也可以全天语音输入。但系统显然没有为模型准备好 * 一款在24年创业,还能融资3600万美元的输入法 为什么在这个时候还能做输入法融资,绝了 特点:自动省去口癖、自动排版提升可读性、可以会议说话的同时还输入 现在我触发了我的输入法。 * 2024年7月推出“高级语音模式”后,ChatGPT周活跃用户在6个月内从2亿翻倍至4亿,其中移动端用户占比达43.75%(1.75亿/4亿),且移动端月增长率稳定在5%-15% * 反常识点: 即便是输入法这种强交互、要求低延时的产品,消费者也愿意等待,因为足够精准 我现在巴不得在工位上也要用语音输入了,,,因为快速输入的价值太高了且今天的麦克风确实非常好 甚至想买个麦克风在嘴边的耳机 语音的输入是当今最被低估的模态,原因是因为它在传播上来说,很多时候就是在卷语气。它是不是真实和有没有记号,让你自己看到延迟,这在媒体看来非常不性感,但它有非常大的作用。 语音这种自然的形式解决的是非语言/文字性交互的问题。因为它其实包含了非常多的社会化的反馈,让人更愿意说了。 实验:填写问卷,电脑主动披露自己的信息:甚至类似CPU参数之类的信息。用户也更加的爱用 比如我之所以现在还在使用豆包耳机,很大程度上是因为这依然是我能找到的笑得最自然的耳机。 * 实用建议:国内语音输入法的一些使用感受 微信内的两种语音输入方式(语音转文字还自带整理,非常好) 微信、讯飞等需要跳转的输入法 能否自动实时做一些修正 part 3:人和模型怎么互动? 模型要怎么用已经比较明确了:模型没有工程能力,没有代码能力 * Grok 4 的300美金,但没有带来显著的价值 其他的反常识:不要期待“一键帮你xx”的产品,大多没啥价值。你得和AI交互才有精彩的结果 * 脑放的AI写作法:给AI五万字,压缩出八千字的内容,效果非常好 * 一些正面、负面的例子 一键总结会议、一键总结播客,最后吃灰了。但要你参与一些的会比较好 AI协助整理会议记录:效果非常好Quill-直接点击开始,进行录制-可以做简要记录,自带时间戳-每20秒自动检测,或者手动检测,会自动记录-可以自动启动录制(读取了日历和应用的操作)-解决的核心矛盾:人是需要专心的,但会议记录是分心的Granola它不是先转录会议内容,再尝试自行突出重点,而是你可以通过写下你认为最重要的会议要点来指导 AI,AI 则协助补充其余内容。豆包现在可以自动的检测你开哪些会,然后问你要不要开始录音,也是很绝。 * 观点:不要“一键帮你xx“的产品 绝大部分人没有能力也没有耐心把自己的需求用自然语言描述出来 就像苹果1984年推出Mac的时候的这句广告语:Wouldn't it make sense to teach computers about people, instead of teaching people about computers?
帝国的反击:GPT5会彻底击败deepseek?与李楠一起盘点了DeepSeek 突起之后即将发布的 GPT-5的反击,R1惊艳之后两周所有的竞争对手都出牌完毕,也能看出在模型和应用端接下来的趋势与机会点。 我们不仅会深入探讨 DeepSeek 爆火的原因,更会冷静分析其相较于 GPT-5的不足与挑战。Deepseek是开放生态面对封闭生态进攻的号角,但它也将迎来OpenAI为代表的AI领跑者的强势反击。 Deepseek为什么选择开源,后续将面临怎样的挑战? 为什么说“微信搜索接入R1”并不是当下最需要的? OpenAI手中还有哪些王牌将会释放? 在这场地缘政治、开放与封闭的竞赛中,各个生态位的AI玩家们应该如何应对挑战,共同推进AGI的更快实现? 欢迎收听本期节目。 - 03:45 竞对及生态盘点:OpenAi(GPT)、Anthropic(Claude)、Perplexity、谷歌百度及xAi针对DeepSeek的动作盘点;GPT 5的原生多模态、丰富工具以及推理模型与普通模型结合,是追着DeepSeek的弱点来做的设计;选择开源不是纯粹浪漫及有钱,是构建生态的追赶动作;盘点各种“接入DeepSeek”,谁是蹭流量摘桃子,谁是开源贡献者? - 26:45 模型及产品机会盘点:推理模型和普通模型的融合(亮点产品 DeepClaude);具备低成本推理、检索能力的模型正在孵化新一代“今日头条”和自媒体(亮点产品 飞书多维表格);中国消费者的第一次全民AI教育+最高算力的硬件+最好的开发者会带来什么?我们需要DeepSeek生态贡献者。 - 47:50 苹果和阿里巴巴合作是对开源社区的又一次胜利:iPhone 下滑之际,找阿里是最聪明的选择;苹果在AI合作上的潜在掣肘与机会点,接下来两代手机产品AI能力推演。DeepSeek 实操建议:请大家重新开始学习如何与模型对话,不同模型的最佳话术。 节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。 人物: * 主播:托马斯白-脑放电波主播,资深科技营销人,前XR创业公司CMO,科技媒体特约作者; Nixon-脑放电波主播,XR产品经理,前科技媒体记者. * 嘉宾:李楠-AI谬论主播,怒喵科技CEO,前魅族副总裁 * 剪辑制作:柒 参考:清华针对 DeepSeek 实用建议(视频) / OpenAI针对提示词的建议(DeepSeep也适用,图文) / 实测比较推荐的几个接入DeepSeek平台的响应速度 / 外部使用DeepSeek 的方式(下方列表)/ 1. 秘塔搜索: metaso.cn 2. 硅基流动:cloud.siliconflow.cn 1. 百度云千帆: console.bce.baidu.com 4. 字节跳动火山引擎: console.volcengine.com 5. 阿里云百炼: api.together.ai 6. 超算互联网:chat.scnet.cn 7. 360纳米AI搜索: www.n.cn 8. Fireworks: fireworks.ai 9. 英伟达NIM: build.nvidia.com
能让杨笠和普信男和解的书单:AI如何赋能个人觉醒(串台脑放电波)AI 谬论第一期,有幸和脑放电波串台。以下为节目简介: 从 1955 年到 2024 年,左派理论家到团队领导者到 AI 技术人员,通过不停的探索和实践,为我们积累了一张 80 多年的地图。 这张地图不会来自任何学院的任何课程,但是却可能和我们每个人的自由发展强烈相关。 你想摆脱格子间里的螺丝钉状态,你想兑现自己的某些奇思妙想,或者,哪怕是有底气来一个 gap year,我相信这张地图都会对你有所帮助。 在近五十年的科技发展历史上的所有大神,从 linux 到 中本聪,到 elon musk,到奥特曼 ,都对这张地图有所贡献。 而他指向了一个和常见的科幻作品中的未来完全不同的方向。未来不一定是由 2077 里面的荒坂公司来管理一切。未来还有可能是多元的,更加小团体和个人化的,更加强调自我满足和个人发展的。 他不是一个庞大而死寂的巨大的“钢铁丛林”,而是一片游牧民族追逐水草的绿色平原。 这个能否实现,那么就看未来的我们,如何运用这个书单里面所有的思想,工具和技术了。 本期节目书单: 1955 爱欲与文明(书),个人和少数群体解放的思潮根源。 1964 单向度的人(书),多样性的思想根源。解构集体定义的成功,建立个人/少数群体发展可能性 1999 大教堂与集市(书),开源圣经,组织小型化的开始 2007 shaping things(书),快速原型圣经。快速,柔性,持续迭代的产品方法论 2008 GitHub(工具),开源社区,获得大量免费方案,提升小团队的产能 2009 bitcoin(工具),开源和小型化组织协作的更高效的货币基础 2009 kickstarter(工具),0成本产品众筹工具 2011 crowdcube (工具),0成本企业众筹工具 2010 rework(书)2013 remote(书),更小,更敏捷的组织的企业文化准备和行动指南 2013 「DAOs,DACs,DAs,and More:An Incomplete Terminology Guide」(书)去中心化治理纲领 2017 《Attention Is All You Need》(书)大语言模型原理的纲领性论文 2018 中本聪之书(书),去中心化的根本思潮 2016 hugging face(工具),ai 的开源社区,再次提升小团队产能 2022 midjourney(公司),超级个体/超级少数群体独立的代表 2023 ChatGPT3.5(工具),人工智能的 iPhone 时刻 2023 MS AI For Beginners(书),最友好的人工智能入门教程 2024 Open AI 首席科学家的 ai 书单(书),最顶尖的人工智能必备知识 2024 FSD V12 (工具),AI 吞噬软件的开始,更少工作,更强大的能力