
ChatGPT Agent:AI Agent分水岭,重塑互联网与流量格局OpenAI发布通用型ChatGPT Agent标志着AI Agent领域的“分水岭时刻”,它整合了深度研究与执行能力,但也暴露了速度和个性化不足等问题。本文深入探讨了AI Agent的四大核心技术路径(浏览器、沙盒、受限沙盒与工作流集成),对比了包括ChatGPT Agent、Manus、Genspark和Pokee.ai在内的主要产品在通用性、效率和用户体验上的异同,并前瞻了Agent将如何重塑互联网入口、流量分发及内容创作者的商业模式。 AI Agent核心技术架构 * 浏览器模式 (Browser-based): 堪称万能,但运行速度慢、Token消耗高,需从零读取HTML和脚本(如OpenAI的Agent整合了Deep Research与Operator)。 * 沙盒模式 (Sandbox): 可运行离线Python脚本进行数据分析等任务,高效但通常无法访问需认证的互联网产品(如Pokee.ai的Deep Research Agent)。 * 受限沙盒模式 (Limited Sandbox): 大模型驱动,在一个非常有限的环境中运行少量预设程序包,无法下载新的包(如Genspark)。 * 工作流集成模式 (Workflow API): 通过第三方服务提供商的直接API集成,交付可靠且速度快,但业务范围有限制(如Zapier)。 主流AI Agent产品特性与优劣 * ChatGPT Agent: 整合Deep Research和Operator,能力强大,但在浏览器执行层面速度较慢,且尝试将过多功能集成到浏览器中。 * Manus: 结合虚拟机和浏览器环境,理论上万能但速度极慢(任务耗时可达30分钟或更久),浏览器导航能力受限。 * Genspark: 倾向于模板化和垂直场景,速度较快且节省Token,但通用性受限,更像“微信小程序”式的应用。 * Pokee.ai: 速度最快(比市面产品快4-10倍),通过SDK直接调用第三方服务,减少Tool Calling复杂性与上下文问题,成本较低。 AI Agent的商业模式与用户定位 * ToC Agent的挑战: 多数通用型AI Agent缺乏重复性使用场景,用户感知度可能较差(如Manus、ChatGPT Agent)。 * ToB/专业用户Agent的优势: 专注于高频次、重复性工作流,例如Pokee.ai服务专业人士,通过API/SDK与平台深度集成。 * 平台API开放性: 大型科技公司(尤其美国)倾向于开放API和SDK,以鼓励开发者生态,但个人用户与企业/创作者账户的API权限存在差异(如Facebook/Instagram对发帖的限制)。 AI Agent重塑互联网入口与内容变现 * 流量入口转移: Agent将成为新的互联网入口,用户直接通过Agent完成任务,可能导致传统门户网站(电商、搜索、视频)的流量大幅下降。 * 内容变现模式变革: 创作者可能从依赖广告分成转向Agent直接为知识产权付费的新模式,Agent通过自身广告机制覆盖成本。 * 推荐系统演变: 传统基于排名的推荐算法可能被压缩,Agent的推荐将更侧重于提供最精确的单条信息,目标是促进用户进行多轮连续的、基于体验的交互。
AI不取代工作,但会重塑:微软教你如何与AI协作文章探讨了人工智能对职业的潜在影响及人类的应对策略。通过Anthropic AI经营便利店失败的案例,引出微软基于20万次真实对话的研究,揭示了AI更易影响沟通和信息处理类职业,而体力劳动和物理世界互动类职业受影响最小。核心观点是AI不会简单取代工作,而是重塑工作内容,要求人们升级技能并学会与AI协作。 AI对职业影响的类型与依据 * 微软研究基于20万次用户与Copilot的真实对话,通过“AI适用性分数”评估职业受AI影响程度。 * AI最易影响与沟通、信息处理和文本创作高度相关的职业,例如口译员。 * AI最难影响需要体力劳动、手工操作或与物理世界直接互动的职业。 AI的局限性与未来进化方向 * 顶级AI Claude经营小卖部失败,原因在于其缺乏真实世界的常识判断,如不理解免费可乐是竞品或办公室玩笑。 * AI目前是“helpful assistant”,但要进化为“可靠的伙伴”,尚需理解能力边界和情境判断。 AI时代职业发展的应对策略 * AI并非简单“取代”工作,而是“重塑”工作,将繁琐的信息处理交给AI,人类专注于创造性思考、深度分析和战略决策。 * 适应性成为关键,学历和薪资不再是“铁饭碗”的保证,核心在于工作内容是否属于AI擅长领域。 * 主动学习、拥抱AI,将其作为提升效率和创造力的工具,善于与AI协作的人将在职场中占据优势。
Get笔记:AI生产力搭子,用“刚需”帮你少加班本文作者强烈推荐AI工具“Get笔记”,称其为解决写作痛点和信息整理难题的“生产力搭子”。该工具通过独特的AI润色语音输入、无感自动构建知识库,以及高效整合外部信息(如视频和文章),显著提升了个人生产力。作者在文末强调,真正有价值的AI工具应聚焦于解决用户的实际“刚需”,而非仅仅追逐技术潮流。 语音输入与AI润色升级 * AI润色超越传统转写: Get笔记的语音输入功能不仅将语音转换为文字,还能自动梳理逻辑、优化表达,即使口语化或有口头禅也能生成流畅的草稿。 * 解决写作卡壳痛点: 帮助用户将脑中想法快速转化为无错别字、逻辑顺畅的文本,尤其适合“懒得组织语言”的用户。 无感自动构建个人知识库 * 语音笔记自动沉淀: 用户通过语音输入的内容会自动保存为笔记,无需手动上传或筛选,逐步积累成个人知识库。 * AI助手高效利用知识: 基于积累的笔记,Get笔记的AI助手能一键生成日报、周报,并能总结整理信息、回答问题,实现知识的快速检索与应用。 外部信息整合与“消化” * 一键导入外部内容: 支持通过复制链接导入小红书视频、文章等外部信息,将其转化为可被AI处理的笔记内容。 * 智能提取与总结: 导入后,工具能自动整理文字、图片甚至视频字幕,并总结核心重点,避免信息“吃灰”。 AI工具应用的“刚需”哲学 * 警惕“为用AI而用AI”: 作者批判了盲目追逐AI技术概念的现象,指出许多AI工具未能解决实际问题。 * 聚焦核心需求与效率提升: 强调真正有价值的AI工具应能“让人活得更懒一点”,帮助用户“把事说清楚,把活儿交出去”,例如减少加班时间、提升工作效率。 * 工具选择标准: 鼓励用户以“能否帮我少加一次班?能否让我多陪娃读个故事?”作为衡量AI工具价值的标准。
腾讯混元开源0.5-7B小模型:手机电脑AI Agent新突破腾讯混元团队最新开源了四款小尺寸语言模型(0.5B至7B),旨在支持消费级硬件上的低功耗运行和垂直领域微调。这些模型融合了快速推理能力、超长上下文窗口以及增强的Agent能力,已在多种内部业务场景中得到验证和应用,彰显了腾讯在中国AI开源浪潮中的积极布局。 全新开源小模型发布 * 模型规模与数量:腾讯混元团队一口气开源了四款小语言模型,尺寸分别为0.5B、1.8B、4B和7B。 * 运行环境与适用场景:这些模型可在消费级显卡上运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗设备。 * 部署与微调:支持垂直领域低成本微调,并已在GitHub和HuggingFace上线,获得ARM、高通、英特尔、联发科技等芯片平台的支持。 核心技术亮点与能力 * 融合推理模式:模型具备推理速度快、性价比高的特点,提供“快思考”(简洁高效输出)和“慢思考”(复杂问题解决)两种模式。 * Agent能力增强:通过精心的数据构建和强化学习,提升了模型在任务规划、工具调用、复杂决策和反思等方面的表现,可胜任深度搜索、电子表格操作等任务。 * 超长上下文窗口:原生支持256k上下文,相当于处理40万中文汉字或50万英文单词,能够理解并记住超长内容的细节。 * 卓越性能表现:在语言理解、数学、推理等领域表现出色,在多个公开测试集上得分达到领先水平,与业界同尺寸模型对标。 广泛部署与多元应用 * 部署便捷性:所有模型均只需单卡即可部署,可直接接入PC、手机、平板等设备,并支持主流推理框架(如SGLang、vLLM、TensorRT-LLM)和多种量化格式。 * 内部业务落地:已在腾讯会议AI小助手、微信读书AI问书、腾讯手机管家、腾讯智能座舱、搜狗输入法、腾讯地图、微信输入法等多个腾讯核心业务中得到应用和验证。 * 具体应用案例:实现万字会议纪要精准理解、毫秒级垃圾短信拦截、提升嘈杂环境下的识别准确率、以及在金融和游戏等垂直领域的智能辅助。 腾讯的AI开源战略布局 * 顺应AI开源浪潮:腾讯混元积极参与中国AI开源浪潮,响应“小语言模型是智能体AI的未来”的趋势。 * 多模态开源覆盖:其开源模型已覆盖文本、图像、视频和3D生成等多个模态,例如此前已开源Hunyuan Large和Hunyuan-A13B。 * 持续创新与贡献:近期发布并开源了混元3D世界模型1.0,迅速登上Hugging Face趋势榜和论文热榜,展示了其在技术创新和开源社区贡献方面的实力。
王小川:百川智能“造医生”,AI家庭医生要比无人驾驶先普及王小川在AI大模型浪潮中,带领百川智能从最初的多元化发展转向深度聚焦医疗AI领域,旨在摆脱“学霸”标签,追求“为人类造医生”的独特命题。面对市场期待与内部初衷的冲突,他通过大规模组织调整和战略精简,成功发布了在医疗领域性能卓越的Baichuan-M2模型,并坚信AI家庭医生将比无人驾驶更早普及,最终在垂直领域超越通用模型。 百川智能的战略转型与核心使命 * 从通用到垂直的聚焦: 王小川在离开搜狗后创立百川智能,在AI大模型热潮中,一度被市场期待做通用模型,但他内心始终聚焦于“为人类造医生,为生命建模型”的医疗AI方向。 * 组织精简与内部和解: 面对外部期待与内部初心的撕扯,百川智能于今年4月进行大规模人员精简(从450人减至不足200人),回归扁平化管理,强化团队“压强”,以实现战略专注。 * “与内心斗争”的领导力: 面对外界“遭遇困境”的负面报道,王小川选择沉默,强调“需要的是跟自己的内心做斗争,而不是跟环境做斗争”,通过后续发布成果回应质疑。 医疗AI的技术突破与独特价值 * Baichuan-M2的卓越性能: 百川智能发布的Baichuan-M2医疗大模型表现出色,其性能超越OpenAI同期发布的两个开源模型,在闭源领域能力仅次于GPT-5,并在Health-Bench评测中得分领先。 * 超越通用模型的复杂性: 王小川认为医疗AI比通用模型更复杂,因为它不仅需要逻辑推理,更需解决“提问”能力、严格的“循证医学”以减少幻觉,并融入政策法规和人文关怀。 * 清晰的产品路线: 百川智能规划了基础模型、医生端产品和大众端产品三条产品线,致力于在医疗垂直领域超越通用模型,并计划未来将服务直接推向C端消费者。 对通用AI发展路线的思考 * 代码作为智能中轴: 王小川更欣赏Anthropic将代码作为发展中心的策略,认为代码是一种“可运行的语言”,是通向AGI的核心路径,并预言“程序员是自己的掘墓人”。 * OpenAI的战略权衡: 相比之下,OpenAI因服务7亿用户的“包袱”,在技术路线选择上未能将代码置于足够高的战略位置,重心放在C端App,面临“智能的高度”与“应用的深度”的平衡挑战。 * 中美AI环境差异: 国内大模型行业普遍处于围绕基准测试和参数的“模型内卷”阶段,与美国头部公司在商业模式(如Anthropic的ARR)和融资环境上存在显著的“时间差”和“底气”缺失。 AI家庭医生的未来图景 * 普及速度超越无人驾驶: 王小川预测AI家庭医生将比无人驾驶更早到来,原因在于医疗是刚需且人机协同更安全高效,尤其在不涉及处方权的院外场景可独立发挥作用。 * 价值在于改变用户行为: AI医生的价值不仅体现在诊断和开药,更在于提供关键决策支持,如处理多方建议、家庭沟通等,通过改变用户行为创造巨大医疗价值。 * 将AI视为“人”的形态: 百川智能的“造医生”目标远超简单的“健康顾问”或“降本增效”工具,致力于将AI视为一个具备记忆力、理解人际关系的“人”,而非仅仅是App功能,未来将寻求医院体系的认同并直达家庭。
AI棋力大考:顶尖大模型棋盘见真章一场为期三天的AI国际象棋比赛即将开幕,旨在通过实战对决评估当前顶尖大模型的真实性能,包括来自OpenAI、DeepSeek和月之暗面等公司的产品。这项比赛基于谷歌新推出的开源基准测试平台Kaggle Game Arena,旨在解决现有AI基准测试无法有效区分高级模型性能的问题。诺奖得主Demis Hassabis强调了游戏作为AI能力试炼场的重要性,并对该平台推动的进步充满期待。 AI国际象棋比赛概览 * 比赛时间与持续: 太平洋时间8月5日至7日,共计3天。 * 参赛模型: 8款前沿AI模型,包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro和Gemini 2.5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4。 * 比赛目的: 通过实战对决验证AI模型的真实性能,解决现有基准测试难以跟上模型发展速度的问题。 Kaggle Game Arena平台 * 平台性质: 谷歌推出的全新、公开的基准测试平台,专注于AI模型在策略游戏中的对决。 * 核心功能: 允许AI模型在国际象棋等游戏中展开正面交锋,并提供实时更新的比赛对阵表、动态排行榜数据以及开源环境代码。 * 透明度与可靠性: 游戏执行框架和环境开源,采用严格的全员对抗赛制(all-play-all)以确保统计结果的可靠性。 * 高管评价: Google DeepMind联合创始人兼首席执行官Demis Hassabis认为游戏是检验AI能力的重要试炼场,并对该平台推动AI能力提升充满期待。 比赛规则与赛制 * 赛制: 采用单败淘汰制,每场对决包含四局比赛,先获得两分的模型晋级(胜一局得1分,平局各得0.5分);若2-2平则加赛一局决胜负。 * 赛程安排: 首日(8月5日)8款模型进行4场对决;次日(8月6日)晋级的4款模型进行2场半决赛;决赛日(8月7日)进行冠军争夺战。 * 比赛规则: 比赛基于文本输入进行,模型无法使用外部工具(如Stockfish),不被告知合法走法列表,最多有3次重试机会提交合法走法,每步棋有60分钟超时限制。
OpenAI Agent发布:四大架构重塑互联网入口美国时间7月17日,OpenAI正式发布通用型ChatGPT Agent,整合了深度研究与执行工具,旨在实现复杂任务的一站式完成,但仍面临速度和个性化不足等挑战。此次发布促使市场重新审视AI Agent的技术路径选择,文章深入探讨了浏览器、沙盒、受限沙盒及工作流集成四种主流底层架构的优劣,并分析了它们如何重塑互联网入口和内容创作者的商业模式。 OpenAI ChatGPT Agent的发布与核心架构 * 发布时间与组成: 美国时间7月17日发布,整合了深度研究工具Deep Research与执行工具Operator。 * 功能与挑战: 可一站式完成复杂任务,但仍存在运行速度慢、个性化不足等短板。 * 底层架构: 本质是“浏览器+沙盒虚拟机”模式。 AI Agent的四种主流底层架构解析 * 浏览器(Browser-based)Agent:特点:万能,能操作所有网页和互联网服务。 优劣:缺点是运行速度慢,Token消耗高(需加载整个HTML)。 * 沙盒(Sandbox)Agent:特点:可在隔离环境内运行Python脚本等,进行数据分析等线下任务。 优劣:高效,但通常无法访问互联网或需认证的产品。 * 受限沙盒(Limited Sandbox)Agent:特点:大模型生成代码,在非常有限的环境(仅少量预设程序包)中运行。 优劣:速度快,节省Token,适用于模板化任务(如Genspark的幻灯片Agent),但功能受限,无法下载新程序包。 * 工作流集成(Workflow API)Agent:特点:通过第三方服务提供商的直接API集成,每个节点交付可靠。 优劣:结果精准且稳定,但业务范围有限,无法满足个人用户特定需求。 典型AI Agent产品对比与用户体验 * OpenAI ChatGPT Agent: 浏览器产品中能力最强,Deep Research表现出色,但速度慢。 * Manus: 理论上万能(虚拟机+浏览器),但受浏览器限制且速度极慢(30+分钟)。 * Genspark: 转向模板化和垂直化,速度快且节省Token,但功能不如通用Agent全面。 * Pokee.ai: 速度最快(快4-10倍),通过直接集成SDK和工具实现高效调用,成本优势明显,主要面向专业人士/B端重复性工作场景。 Agent对互联网入口及内容商业模式的影响 * 互联网入口重塑: Agent将取代传统浏览器和搜索引擎,成为新的流量入口,用户通过Agent直接完成任务。 * 流量分发变革: 大多数门户网站的流量将下降,公司开放API是为了获取Agent带来的新流量。 * 内容商业模式演变:广告形式将改变,专注于Agent时代的广告植入。 创作者/知识产权拥有者可能通过Agent调用内容直接获得付费,取代传统流量分成模式。 推荐系统将从基于排名的多条信息呈现,转变为基于对话轮次的精确推荐,以促成持续交互。
Grok 4免费开放:用户不满,性能瓶颈待解xAI宣布将Grok 4免费向全球用户开放,此举旨在跟上GPT-5等竞争对手的免费化趋势,并暂时设置了“慷慨的使用限制”。然而,这一决策引发了用户的强烈不满,付费用户感到被“背刺”,而免费用户则抱怨其严格的每日使用次数限制,同时文章也指出Grok 4在实际体验中仍存在功能和性能的局限性。 Grok 4免费开放及其引发的用户不满 * Grok 4现已向全球所有用户免费开放,提供自动模式和专家模式。 * xAI声称设置了“慷慨的使用限制”,但实际为每12小时最多使用5次。 * 此举引发付费用户(如30美元/月和300美元/月订阅者)的强烈不满,认为其付费价值受损。 Grok 4的实际体验与技术瓶颈 * Grok 4在处理中文提问时,倾向于先翻译成英文再进行搜索和回答。 * 在尝试生成3D动画代码时,首次请求未能成功交付,需要更具体指令才能开始撰写代码。 * Grok 4 Heavy模型仍未向免费用户开放。 * 对即时事件有理解,但在处理敏感或安抚性请求时,初期可能拒绝或需多次尝试。 Grok Imagine及Grok App的功能升级 * Grok的视频生成服务Grok Imagine改进版本已可用,新增支持视频分享、修复下载问题,并增加视频静音与取消静音功能。 * 新版Grok App增加了图片审核机制,并新增对终止操作后的反馈信息和反馈入口,疑为回应此前生成涉及名人的敏感视频事件。 AI服务免费化趋势与Grok的市场挑战 * Grok 4的免费开放与OpenAI的GPT-5等竞品免费化策略同步,体现了AI服务低价化、免费化的行业趋势。 * 尽管免费,但Grok 4因其对争议话题的非主流观点以及xAI对技术细节的“三缄其口”,用户接受度仍面临挑战。 * 文章指出,价格并非Grok获得用户广泛使用的唯一障碍,产品性能和信任度同样重要。
马斯克Grok“Spicy模式”:名人裸体深伪,挑战伦理底线马斯克旗下的xAI推出的Grok Imagine引入了备受争议的“Spicy模式”,允许用户一键生成包含名人部分裸露内容的深度伪造视频,这与主流AI工具严格的内容审查形成鲜明对比。此举被视为马斯克在AI竞争中为迅速获取流量而采取的激进策略,但其审核机制的漏洞和潜在的法律伦理风险引发了广泛担忧。 Grok Imagine的“Spicy模式”及其功能 * xAI的Grok Imagine新增“Spicy模式”,该模式被证实可用于生成名人的部分裸露视频,例如泰勒·斯威夫特的深度伪造视频。 * 与Google Veo、OpenAI Sora等严格限制名人伪造和色情内容的主流AI工具不同,Grok Imagine在产品设定上直接放开了这些限制,内置了鼓励性感演绎的预设模式。 * 该功能主要面向每月30美元的SuperGrok和Premium+付费订阅用户开放,并提供了iOS和Android应用版本。 马斯克的流量至上策略与动机 * 马斯克将“Spicy模式”定位为xAI在激烈AI竞争中杀出重围的流量突破口,认为“突破性内容”是引爆话题、吸引用户最快的燃料。 * 他将Grok定位为“无限制”和“突破边界”的AI,并表示该功能的使用量在一天内从1400万张飙升至2000万张,效果立竿见影。 * 此举与马斯克此前在Grok 4中加入动漫角色“Ani”可脱衣服、X平台接纳色情内容及支持OnlyFans创作者等一系列大胆开放的策略一脉相承。 审核机制的漏洞与法律伦理风险 * Grok Imagine的审核机制存在显著矛盾,例如直接文本提示索要裸体图片会被拒绝,但通过上传正常图片后使用“Spicy”视频模式却能轻松绕过限制。 * 年龄验证过于宽松且仅需一次性确认,对不同名人的限制也表现出随机性,尽管能拒绝生成儿童不当动画。 * 该功能使xAI面临巨大的法律风险,被媒体称为“一个等待被起诉的功能”,因为它公然提供名人深度伪造工具,与美国等国家打击非自愿深度伪造内容的法律相悖。 * 文章质疑了为追求流量和“最大乐趣”而放弃伦理底线的行为,并引发了关于AI在接管人类欲望方面应有何种边界的深刻反思。
OpenAI GPT-5:博士智能登场,AGI之争再起OpenAI正式发布了其新一代旗舰模型GPT-5,即日起向大部分用户推出,并在文本、编程、数学等多个领域全面领先。该模型达到了“博士级别智能”,引入了“按需思考”和四种“人格”等创新功能,并被视为OpenAI迈向通用人工智能(AGI)的重要一步,尽管其性能提升和AGI定位仍存在争议。 GPT-5发布与核心特性 * 发布概况: 北京时间8月8日凌晨1点发布,即日起向免费、Plus、Pro、Team用户推出,冲上大模型竞技场榜首。 * 智能与人格: 达到“博士级别智能”,支持“按需思考”,并拥有“愤世嫉俗者、机器人、倾听者、书呆子”四种人格。 * 模型融合: 集成多模态、推理等能力,相当于融合GPT和o系列模型,旨在淘汰所有旧模型。 AI能力全面提升 * 编程与Agent能力: 被OpenAI称为“迄今为止最好的编程模型”,在SWE-bench验证测试中得分74.9%,并得到Cursor和Windsurf等AI编程公司认可。 * 推理与事实性: 在GPQA科学知识基准测试中获得新的SOTA(88.4%),事实准确性方面错误率仅为o3的五分之一。 * 长背景信息处理: 在OpenAI-MRCR基准测试中,长背景信息检索能力显著优于o3和GPT-4.1,且优势随输入长度增加而扩大。 模型版本与经济性 * 多版本家族: 包含GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本。 * API定价: GPT-5的API输入/输出价格分别为每百万token 1.25美元/10美元,mini和nano版本价格更低,且与竞争对手相比成本相当或更低。 * 用户访问与限制: 免费用户用量有限,超限自动转至mini;GPT-5-pro仅供Pro订阅用户使用。 安全与用户体验优化 * 安全训练: 引入“安全完成”新形式,减少不必要的过度拒绝,并提供拒绝原因和安全替代方案。 * 解决“阿谀奉承”: 显著减少了模型过度讨好和无意义表情符号的使用(从14.5%降至不到6%)。 * 定制化与记忆: 支持自定义聊天功能(调整性格、界面颜色),具备更强的记忆功能,Pro用户可接入Gmail和谷歌日历自动规划日程。 市场反响与未来展望 * 竞争与争议: 马斯克在X平台称Grok 4击败GPT-5;OpenAI发布会因“视觉欺骗”方式呈现基准测试而引发性能夸大争议。 * AGI定位: Sam Altman认为GPT-5是迈向AGI的重要一步,但承认它不是AGI,且缺少模型在部署过程中持续学习的能力。 * 市场估值: OpenAI估值飙升至5000亿美元(约合3.6万亿人民币),比年初翻了一倍。
马斯克Grok Imagine:靠“擦边AI”引爆千万用户,争议缠身马斯克旗下的 xAI 近期推出 Grok Imagine,一款支持文字或图片生成 AI 视频的工具。该产品因其“Spicy Mode”允许生成“擦边”内容而迅速获得数千万用户,但也因此引发了巨大的争议。马斯克此举旨在通过“最自由的 AI”策略,在激烈竞争中吸引付费订阅用户,尽管这带来了潜在的监管和伦理风险。 Grok Imagine 的核心功能与争议模式 * 多模态生成: 支持通过文字或语音生成图像,再由图像生成视频,也可上传现有图片进行视频生成。 * 模式选项: 提供自定义、火辣 (Spicy)、有趣和普通四种视频生成模式。 * “Spicy”模式特性: 允许生成性感挑逗内容,如“脱衣”效果,但仍有审核过滤器,对过于露骨的内容会进行模糊或拒绝。 * 用户增长: 发布 24 小时内据称用户使用量达数千万次,图片生成量超过 2000 万张。 马斯克“最自由 AI”的商业策略 * 产品理念: 放弃政治正确,移除“纯净模式”,追求“最自由的 AI”,将“快”写入产品 DNA。 * 吸引付费用户: 利用允许“擦边”内容的“Spicy Mode”作为独家卖点,吸引订阅者,为 Grok 的付费订阅增添价值。 * 与竞品差异化: 与谷歌 Veo、OpenAI Sora 等设置严格安全过滤的竞争对手形成鲜明对比。 * 过往试水: 此前已通过二次元动漫伴侣 Ani、Valentine 尝试 NSFW 路线,积累经验。 围绕“擦边”AI的监管与伦理挑战 * 法律风险: 面临深度伪造色情内容的法律风险,如美国《删除法案》可能将 AI 合成色情图像定为联邦犯罪。 * 名人深度伪造: 有报道指出“Spicy”模式可被用于生成名人(如 Taylor Swift)的裸体深度伪造视频。 * 未成年人保护: Grok 应用在应用商店分级为“12+”,但其生成内容在 X 平台(17+)流转,且用户年龄验证不严谨,可能导致未成年人接触不当内容。 * 商业影响: 大型品牌广告商可能因风险厌恶而避免与 AI 色情内容并列,影响广告收入。 “擦边”内容与技术普及的历史关联 * “AI 第一生产力”: 文章开篇即提出“涩涩果然是 AI 第一生产力”的观点,暗示其对技术推广的驱动作用。 * 《硅谷》剧集启示: 引用 HBO 剧集《硅谷》中的情节,指出色情内容历来是推动新技术普及最快的领域。 * 历史例证: 提及印刷小说、Super 8 胶片、宝丽来相机、家用录像机、数字化、信用卡验证、Snapchat 等技术都曾受色情内容的推动。 * 马斯克的策略: 马斯克深谙用户心理,选择“踩黄线”以快速赢得用户和订阅,体现了其拥抱风险、快速行动的模式。
OpenAI五年后重磅开源:gpt-oss性能直逼闭源旗舰OpenAI时隔五年后再次发布了两款开源权重语言模型gpt-oss-120b和gpt-oss-20b,标志着其开源策略的重大转变,旨在应对市场竞争并赋能更广泛的开发者。此次发布正值AI巨头集体“发力”之际,模型性能直逼自家闭源旗舰,且采用宽松的Apache 2.0许可证,允许自由构建和商业部署。这一举动反映了AI行业在市场压力下,开放与封闭路线并存的动态格局。 OpenAI gpt-oss 模型特性与性能 * 两款开源模型: 发布了大型生产级gpt-oss-120b(1170亿总参数,可在单个H100 GPU上运行)和中型本地化gpt-oss-20b(210亿总参数,可在16GB内存设备上运行)。 * 开放许可: 采用Apache 2.0许可证,支持自由构建、实验、定制和商业部署,无copyleft限制。 * 卓越性能: gpt-oss-120b在多个基准测试中性能接近或持平o4-mini,甚至在健康查询和竞赛数学中超越o4-mini;gpt-oss-20b也与o3-mini持平或更优。 * 智能Agent能力: 内置函数调用、网页浏览、Python代码执行和结构化输出等功能,并提供完整的思维链(Chain of Thought)供开发者调试。 OpenAI 的开源策略与背景 * 五年后回归开源: 自2019年GPT-2后,OpenAI首次再次开源语言模型,CEO山姆·奥特曼承认此前在开源方面“站在历史的错误一边”。 * 市场竞争驱动: 此举是应对DeepSeek等开源模型崛起带来的市场压力,通过提供一流的开放模型来挽回开发者社区。 * 生态系统构建: 与Azure、Hugging Face、vLLM、Ollama等第三方部署平台及NVIDIA、AMD等硬件厂商合作,确保模型在多种系统上优化运行。 * 赋能广泛用户: 目标是赋能个人开发者、大型企业和政府机构在自己的基础设施上运行和定制AI。 核心技术架构与创新 * 混合专家(MoE)架构: 采用OpenAI最先进的预训练和后训练技术,创新性地利用MoE大幅减少激活参数,提升推理效率。 * 高效内存与上下文: 使用分组多查询注意力机制和旋转位置编码(RoPE),原生支持最长128k的上下文长度。 * 原生MXFP4量化: 模型使用MoE层的原生MXFP4精度进行训练,显著降低了硬件门槛(gpt-oss-120b仅需80GB内存,gpt-oss-20b仅需16GB)。 * 全新分词器: 同步开源o200k_harmony分词器,比现有分词器更紧凑和先进,使模型在相同上下文长度下处理更多内容。 AI 行业竞争格局与同期发布 * 巨头同日发力: OpenAI发布gpt-oss的同时,Anthropic推出Claude Opus 4.1(强化Agent、编码、推理能力)和Google DeepMind发布世界模型Genie 3(一句话生成可交互世界)。 * 开放与闭源并存: OpenAI转向有限开源,而Anthropic坚持闭源路线,但都获得了市场热烈反响,显示AI行业没有绝对正确的道路,只有最适合自身的策略。 * Claude Opus 4.1 亮点: 对比前代全面升级,编码性能在SWE-bench Verified达到74.5%,并提升了深度研究和数据分析能力。 * 微软支持: 微软宣布将为Windows设备带来GPU优化版本的gpt-oss-20b模型,方便本地推理和开发。 关键贡献者与应用前景 * 朱汉力(Zhuohan Li)的领导作用: OpenAI gpt-oss系列模型的基础设施和推理工作由北大校友朱汉力领导,他在分布式系统和vLLM项目中的经验对模型成功至关重要。 * vLLM技术: 作为vLLM项目的核心作者,朱汉力通过PagedAttention技术解决了大模型部署成本高、速度慢的问题,该技术已被广泛采用。 * 安全与谨慎使用: 模型在训练中过滤有害数据并进行对齐,尽管在HealthBench测试中表现优异,但仍提醒不能替代医疗专业人员进行诊断或治疗。 * 广泛应用场景: 模型可用于生产、通用、高推理需求的用例,支持在数据中心、高端台式机和笔记本电脑上部署,并通过微调满足特定需求。
OpenAI ChatGPT Agent:AI Agent技术路线分水岭美国时间7月17日,OpenAI正式发布通用型ChatGPT Agent,整合了深度研究与执行工具,标志着AI Agent技术路径选择的分水岭时刻。该Agent采用“浏览器+沙盒虚拟机”架构,虽然可一站式完成复杂任务,但也存在速度慢、个性化不足等短板,引发市场对不同Agent底层技术路线的重新审视与对比。 AI Agent的四大底层架构 * 浏览器(Browser-based)Agent: 功能万能,可操作互联网所有网页,但运行速度慢且Token消耗高,如Perplexity的部分功能。 * 浏览器+沙盒(Sandbox)Agent: 结合网页操作与线下脚本执行(如Python),可进行数据分析等任务,但沙盒通常无法访问需认证的互联网服务。 * 有限沙盒+大模型(LLM)Agent: 大模型主导生成代码并在高度受限的沙盒环境中执行,仅支持预设的少量程序包,如Genspark的模板化Agent,速度较快但通用性受限。 * 工作流集成(Workflow API)Agent: 通过第三方服务API直接集成,确保服务交付可靠,速度快、结果精准,但业务范围受限于平台开放权限,如Pokee.ai和Zapier。 主流AI Agent产品特性与用户体验 * OpenAI ChatGPT Agent: 浏览器能力最强,尤其在深度研究方面表现出色,但因浏览器机制导致任务速度较慢。 * Manus: 追求万能体验(虚拟机+浏览器),理论上功能全面,但速度极慢(任务耗时30分钟以上),主要瓶颈在于网页加载速度。 * Genspark: 转向模板化、垂直细分Agent,通过限制工具和环境来提升速度和Token效率,更像“微信小程序”式的应用,而非通用Agent。 * Pokee.ai: 速度最快(市场同类产品4-10倍),通过直接调用第三方SDK/工具而非复杂虚拟机和Tool Calling实现,专注于专业人士使用场景(ToB/Prosumer),但受限于平台API开放权限。 AI Agent对互联网入口与商业模式的重塑 * 互联网入口转移: Agent将取代传统浏览器成为新的互联网入口,用户直接通过Agent完成任务,导致传统门户网站流量下降。 * 协议竞争: 各大公司(如Google的A2A、ChatGPT、Pokee)推出自己的协议,旨在抢占Agent生态的入口主导权。 * 创作者商业模式变革: 广告收入模式可能减弱,未来创作者或内容所有者将直接从Agent处获得内容使用付费,Agent通过自身广告机制覆盖成本。 * 推荐系统演变: 传统基于排名的推荐算法将受挑战,Agent的交互目标变为“多轮对话中每次都提供最精确信息”,以促成持续交互,而非单页面多条信息呈现。
深言科技“语鲸”:AI低幻觉技术如何重塑信息阅读信息爆炸和AI幻觉的双重挑战下,如何高效获取可信信息的问题。深言科技推出的AI信息筛选与阅读产品“语鲸”,旨在通过创新的“低幻觉可控生成技术”和“动态专题聚合”来重构信息组织与分发,帮助用户解决信息过载和真实性危机。创始人岂凡超分享了语鲸的产品设计理念、技术细节以及对AI信息服务赛道的未来展望。 信息过载与AI挑战 * 信息洪流与认知赤字: 2025年全球数据量预计突破213ZB,导致用户陷入“订阅-堆积-焦虑”的效率陷阱。 * AI幻觉悖论: 以DeepSeek为代表的AI工具虽能高效浓缩信息,但其固有的幻觉问题反而迫使用户耗费更多精力回溯原文验证真伪。 * 市场需求转型: AI信息服务赛道正从通用对话转向垂直场景,市场迫切需要能系统性解决信息过载、提升认知效率的工具。 “语鲸”的产品定位与核心功能 * AI驱动的信息筛选产品: “语鲸”由深言科技开发,旨在通过智能订阅、聚合和总结,帮助用户高效获取有价值的信息。 * 三大核心特点:精准溯源: 摘要中关键结论旁标注原文出处,可点击定位并高亮原文段落,方便验证。 动态详略: 用户可在概览框架、核心论点、支撑细节三级视图间切换,自由掌控阅读详略。 智能专题聚合: 自动聚合跨平台多角度报道,生成综述报告,提炼核心观点与立场对比。 * 多终端布局: 提供网页端、浏览器插件、APP、微信小助手等,以适应用户在不同场景下的信息获取需求。 “语鲸”的技术策略与创新 * 双模型法解决幻觉: 不依赖生成模型自身克服幻觉,而是通过“篇章分析”(识别原文结构)的小模型,将结构化信息交给生成模型,使其“分而治之”地生成内容,大幅减少幻觉。 * 优化成本与效率: 篇章分析采用专用小模型,生成环节设计任务专属推理算法,整体成本可能低于直接使用更大通用模型。 * 个性化内容加工: 探索“风格改写”功能,让AI根据用户需求二次加工内容(如“产品经理老王”频道),未来计划开放用户自定义加工能力。 市场洞察与未来展望 * 重塑信息获取与分发: 创始人认为,当AI内容生成成本足够低、质量足够好时,“分发”概念本身可能消失,转变为按需生成。 * 商业化路径: 语鲸海外版计划上线即尝试付费订阅模式,探索商业化潜力;未来将根据产品类型选择广告或订阅模式。 * 构建竞争壁垒: 核心在于独特的技术判断力(解决幻觉问题)、快速迭代的产品差异化价值,以及逐步构建用户社群和内容创作者生态。 * 专注“语言”赛道: 作为创业公司,深言科技选择聚焦于自然语言处理,认为语言是智能最核心的载体,并在此领域深耕以建立优势。
AI时代:美国Z世代放弃白领,蓝领高薪成新宠受AI技术快速发展、大学学费高昂及白领就业市场严峻等因素影响,美国Z世代正大规模放弃传统大学教育和白领职业,转而投身焊接、水管工等蓝领技术工种。他们发现这些领域不仅薪资高、工作稳定,且不易受AI冲击,甚至不少人已因此成为企业老板,预示着职业教育的兴起和就业观念的转变。 Z世代教育与职业观念的转变 * 许多美国Z世代放弃大学梦或大学辍学,转而投身蓝领行业。 * 超过一半(53%)的Z世代正认真考虑从事蓝领岗位。 * 美国大学入学率出现罕见下滑,与2011年相比传统大学学生减少200万。 * 65%的Z世代认为大学文凭无法抵御AI带来的失业风险。 推动Z世代转变的经济与技术因素 * 高昂的大学成本: 美国大学学费昂贵(公立四年总费用11万美元,私立22.5万美元),且可能毕业即失业,背负沉重学贷。 * AI对白领岗位的冲击: AI迅速颠覆招聘专员、行政助理等岗位,导致“毕业即失业”的担忧。 * 白领就业市场严峻: 大科技公司裁员频繁,22-27岁大学毕业生失业率创疫情以来新高。 蓝领行业的吸引力与成功案例 * 高薪与稳定: 蓝领工作起薪高(如建筑业每小时19-45美元,电工/水管工平均时薪29美元),不少蓝领年薪达六位数。 * 不易被AI取代: 蓝领工种如焊接、水管工、重型机械操作员等,因涉及体力劳动和真实世界操作,被认为AI难以替代。 * 创业机会: 年轻人如Morgan Bradbur(19岁成为焊工年入5.7万美元)、Chase Gallagher(18岁创办园林绿化公司)和Zechariah Osburn(20岁成为园艺公司老板)通过蓝领技能成功创业。 AI对劳动力市场的影响 * AI高风险职业: 微软论文指出,翻译、历史学家、销售代表、撰稿人、客服代表等信息提供、写作、教学、咨询类岗位最易受AI影响。 * AI低风险职业: 重型机械操作员、家政人员、屋顶工、按摩治疗师、洗碗工等体力劳动和现场操作型职业被认为最不可能被AI取代。 * 就业结构性变化: AI导致入门级白领岗位减少,促使Z世代进行“AI焦虑驱动下的职业转型”(AIxiety Pivot)。