Aishaobing的个人播客 | 小宇宙 - 听播客，上小宇宙

2747已订阅

Aishaobing的个人播客

Aishaobing

单集更新

节目详情

【AI日报】EP.223 10月1 豆包大模型1.6-vision发布；DeepSeek发布V3.2-
【AI模型】 🤖 豆包1.6-Vision发布：多模态更强，成本再降50% 强化工具调用与视觉理解，推理与开发效率双提升。综合成本较上一代约降一半，性价比显著提升。【技术突破】 🔬 通义千问Qwen3-LiveTranslate-Flash：同传延迟刷新至3秒覆盖18种语言与多方言，视觉上下文加持复杂场景更准。行业领先的3秒级同传，显著提升实时沟通流畅度。【AI模型】 🤖 DeepSeek V3.2-exp：稀疏注意力将API成本砍半 “闪电索引器”与“细粒度标记选择”协同，长上下文处理更高效。初测显示调用成本下降约50%，更经济可用。 - 参考链接：https://www.chinaz.com/tags/855878.shtml - 参考链接：https://www.chinaz.com/tags/919172.shtml - 参考链接：https://www.chinaz.com/tags/937841.shtml 【AI模型】 🤖 Claude Sonnet 4.5发布：编码与复杂任务全面跃升在编码基准与长时自主执行上表现卓越，新增检查点、上下文编辑与内存工具。更强对齐与安全，适配高风险企业场景。【行业动态】 📰 ChatGPT上线“即时结账”：聊天里一键下单接入Stripe“代理商务协议”，多支付方式安全便捷。后续将支持多件购物车与全球市场，重塑电商闭环体验。【行业动态】 📰 OpenAI将推“AI版TikTok”：Sora2全AI生成短视频 10秒短片形态，支持身份认证与肖像使用标记。同步强调安全与版权管控，力保社区健康与用户留存。【效率工具】 ⚙️ Claude Code 2.0：检查点+VS Code插件，编程效率飞跃新增状态回滚、内联差异与图形化交互，IDE与终端协同更顺滑。 Sonnet4.5在OSWorld拿下61.4%，擅长复杂代理构建。【效率工具】 ⚙️ 百度地图小度想想2.0：出行智能助手全面进化出行知识库+实时搜索，复杂出行意图理解更准。跨端记忆打通手机与车机，支持即时/近期/长期个性化推荐。【开源项目】 🧩 蚂蚁集团开源万亿参数Ring-1T-preview：逼近GPT-5水准在AIME25与CodeForces等测试表现优异，强化推理与代码生成。团队持续后训练，潜力有望进一步释放。【技术突破】 🔬 DeepMind提出“帧链”：通用视频理解迈出关键一步让视频模型具备跨时空推理能力，Veo3多任务强势表现。通用视频模型或将替代专用模型，开启机器视觉新阶段。 - 源链接：https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf 【开源项目】 🧩 智谱GLM-4.6开源：编程能力对齐Sonnet4，国产硬件适配破局 Agentic Coding等能力大幅升级，超越DeepSeek V3.2-Exp于代码生成。已在寒武纪与摩尔线程硬件上高效部署。
7分钟 · 10个月前
298
1
【AI日报】EP.222 9月27 京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布
【技术突破】 🚀 京东物流发布“超脑大模型2.0”和“异狼”具身机械臂在 JDDiscovery-2025 上，物流从“辅助决策”迈向“具身执行”新阶段。大模型2小时解千万级变量；“异狼”机械臂自主学习，复杂包裹高精度抓取。 - 参考链接：https://www.chinaz.com/tags/jingdongwuliu.shtml - 参考链接：https://www.chinaz.com/tags/996720.shtml - 参考链接：https://www.chinaz.com/tags/996721.shtml 【AI模型】 🧠 DeepSeek V3.1 Terminus终结版发布，稳定性大幅提升修复中英文混杂与异常字符等关键问题，优化 Code/Search Agent。 V3系列收官，V4或R2全新架构呼之欲出。【效率工具】 ⚙️ Kimi 上线全新 Agent 模式“OK Computer”，开启灰度基于 K2 模型，参数总量达1T，自主编程与工具调用表现突出。以自然指令完成网站开发、数据分析等复杂任务。【效率工具】 ⚙️ ChatGPT 推出个性化资讯功能，打造你的专属新闻助手结合聊天历史，定制推送多领域每日资讯。旨在提升信息获取效率与体验。【开源项目】 🔓 Exa Code 发布：为 Coding Agent 提供亿级代码上下文精准提取相关token，提升信息密度，显著降低幻觉与冗长输出。免费开源、易集成，助力多场景开发提速。 - 源链接：https://exa.ai/blog/exa-code 【行业动态】 📰 Meta 推出 AI 视频平台 Vibes，轻松创作与分享短视频支持从零创作、素材再混、动态 remix，多样玩法一站式。作品可在 Vibes 发布，或跨平台分享至 Instagram 与 Facebook。 - 源链接：https://about.fb.com/news/2025/09/introducing-vibes-ai-videos/ 【技术突破】 🚀 蚂蚁数科发布隐私保护AI算法，推理提速超100倍 Gibbon 框架采用安全两方训练，显著加速传统GBDT。基于同态查找表的决策图推理，兼顾隐私与高效计算。【行业动态】 📰 OpenAI 发布 GDPval 基准，GPT-5 多行业逼近专家水平涵盖九大行业、44种职业评估，GPT-5与Claude Opus4.1部分任务接近专家。真实工作能力仍待验证，后续将推出更全面测试。 - 源链接：https://openai.com/index/gdpval/
8分钟 · 10个月前
170
0
【AI日报】EP.221 9月26 生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源
【技术突破】 🚀 生数科技发布 Vidu Q2：细微表情生成更真实在图生视频细微表情与情感传达上实现显著提升，画面更自然、更生动。支持图生视频、首尾帧生成与可调时长，为创意影像提供更灵活的制作能力。【效率工具】 ⚙️ 火山引擎炉米 Lumi 支持视觉模型 LoRA 微调首次支持豆包、即梦等同款视觉模型的 LoRA 微调，企业可快速定制视觉风格。提供从图片到视频的全流程 AIGC 能力，助力高效构建生产线。【行业动态】 📰 阿里云：通义千问开源300+模型，下载量突破6亿云栖大会披露最新进展，展现开源生态与应用落地的强劲势头。通义万象生成超3.9亿张图片、7000万+视频，数字内容能力持续攀升。【开源项目】 🧩 百度开源 Qianfan-VL：多模态视觉理解模型三档规模依托昆仑芯 P800，兼顾低功耗与高效训练，在 OCR 与教育场景表现突出。 3B/8B/70B 全系开放，GitHub 与 Hugging Face 同步面向开发者使用。 - 项目链接（如有）：https://github.com/baidubce/Qianfan-VL 【行业动态】 📰 微软引入 Anthropic 模型扩展 Copilot Assistant 在保持与 OpenAI 紧密合作的同时，多元化引入 Anthropic 满足企业需求。管理员启用后，企业可用 Anthropic 模型构建 AI 代理，并在多云环境运行。【行业动态】 📰 OpenAI 在美国新建五个数据中心，推进“Stargate”算力总投资约 5000 亿美元，目标算力接近 7GW，基础设施按周扩容。 Oracle 参与建设，阿比林数据中心扩容新增 600MW，支撑生成式 AI 加速发展。【开源项目】 🧩 英伟达开源 Audio2Face：实时语音驱动面部动画提供 SDK 与训练框架，支持离线渲染与实时流式，覆盖游戏与影视场景。多家开发商已采用，显著提升虚拟角色真实感与制作效率。 - 项目链接（如有）：https://build.nvidia.com/nvidia/audio2face-3d 【AI模型】 🤖 Meta 发布 CWM：32B 参数代码世界模型支持沙箱推演生成前先在沙箱模拟运行结果，快速定位错误并提升调试与安全性。硬件要求高，需双 H100 与 RDMA 支持，适配高性能工程环境。 - 项目链接（如有）：https://github.com/facebookresearch/cwm
7分钟 · 10个月前
133
0
【AI日报】EP.220 9月25 接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵
【效率工具】 ⚙️ 阿里夸克发布AI创作平台“造点”，Wan2.5视频生成7天免费集成通义万相 Wan2.5 与 Midjourney V7，支持音画同步视频生成与高级图像创作。提供轻量化创作体验，满足普通用户日常修图与创意需求。 - 参考链接：https://www.chinaz.com/tags/875912.shtml - 参考链接：https://www.chinaz.com/tags/835556.shtml - 参考链接：https://www.chinaz.com/tags/754515.shtml - 参考链接：https://www.chinaz.com/tags/996134.shtml - 参考链接：https://www.chinaz.com/tags/812428.shtml 【AI模型】 🧠 Wan2.5-Preview发布：多模态输入，电影级视听同步视频生成视频生成支持高保真、高一致性视听同步，覆盖多人声、音效与BGM。图像生成更强，涵盖逼真摄影、艺术风格与专业图表，并支持对话式指令级编辑。【行业动态】 📰 可灵AI发布可灵2.5Turbo视频模型，订阅降价近30% 新模型上线同步降价，基础会员66元，最高级会员月费1314元。二季度营收超2.5亿元，显示视频大模型订阅价格进入分化阶段。【开源项目】 🧑‍💻 阿里通义推出Qwen3-ASR-Toolkit：小时级音视频转录开源工具基于Qwen3-ASR-Flash，突破三分钟限制，支持多格式、智能静音切分与并行上传。显著提升长时音视频转录的速度与准确率。 - 项目链接：https://github.com/QwenLM/Qwen3-ASR-Toolkit 【效率工具】 ⚙️ 谷歌相册AI编辑全面开放：用自然语言一键修图，安卓全覆盖支持光线调整、背景移除与老照片修复等高级操作，降低修图门槛。同步推进AI透明度，支持C2PA内容凭证，维护影像真实性。【效率工具】 ⚙️ 谷歌推出Mixboard：情绪板生成与图像编辑一站式AI工具支持模板与文本提示，上传图片或自然语言即可生成视觉方案。一键再生与编辑提升创作效率，适用于家居装饰与活动策划等场景。 - 项目链接：https://labs.google.com/mixboard/welcome 【AI模型】 🧠 Qwen3-Max发布：代码生成与自主思考双强，MoE架构加持规模超万亿参数，使用36万亿tokens预训练，提升训练效率与稳定性。 Instruct版本编程基准表现优异，Thinking版本数学推理满分。【技术突破】 🚀 Figma MCP服务器升级：一键设计转代码，协作效率飞跃远程访问语义层信息，与Figma Make无缝集成，资源直出代码级资产。 Code Connect映射优化，代码还原度提升，开发时间缩短60%-80%。 - 项目链接：https://127.0.1:3845/sse
7分钟 · 10个月前
142
0
【AI日报】EP.219 9月23 美团发布推理大模型LongCat-Flash-Thinking；阿
【AI模型】 🤖 美团推出推理大模型 LongCat-Flash-Thinking 基于混合专家架构，峰值规模达5600亿参数，动态激活186亿至313亿，在数学、通用推理与代码生成中表现突出。权重与聊天模板已开放，配套专属聊天站点，便于开发与研究。 - 项目链接：https://longcat.chat/ 【开源项目】 🧩 一图生成动画，人物无缝替换：Wan-Animate 开源单模型双任务，给一张图和一段参考视频即可出片；骨骼控制、面部隐式特征与 Relighting LoRA 提升同步与动作还原。适用于MV、电商广告、培训等场景，后续有望支持多人物视频。 - 项目链接：https://github.com/Wan-Video/Wan2.2 【AI模型】 🤖 字节跳动发布豆包翻译大模型：28语互译，比肩GPT-4o 覆盖28种语言对，性能接近或超越主流旗舰模型。定价激进：输入每百万字符1.20元，输出3.60元。企业可在火山引擎获取完整计费与接入说明。 - 参考链接：https://www.volcengine.com/docs/82379/1820188 【技术突破】 🚀 华为携浙大发布 DeepSeek-R1-Safe：安全与性能双优基于昇腾千卡算力平台，在多维有害信息防御上接近100%拦截。通用能力损耗控制在1%以内。为国产算力生态构建安全可靠的大模型提供了范式样本。【行业动态】 📰 Qwen3-Omni 即将登场：端侧跨模态再升级采用 Thinker-Talker 双轨设计，支持高效流式与实时交互。已向 Transformers 提交支持 PR，开源集成在路上。预计将进一步优化资源受限设备上的多模态体验。【技术突破】 🚀 xAI 发布 Grok4Fast：算力降40%，单任务成本降98% 在 GPQA Diamond、AIME2025 等基准上表现优异，以更少计算实现更高吞吐。为复杂任务提供高性价比方案，适合企业在成本敏感场景快速落地。【效率工具】 ⚡ YouTube 上新创作与直播工具，助力变现与运营工作室新增灵感标签、标题A/B测试、肖像识别等；直播支持小游戏、横竖屏与AI自动高光。品牌合作与购物计划拓展收入渠道，优化创作者工作流。【开源项目】 🧩 IBM 推出 Granite-Docling-258M：轻量文档转换模型 2.58亿参数的视觉语言模型，相比传统OCR识别更准，保留版面结构，支持多种输出格式。已支持中文、阿拉伯语、日语，后续将扩展更多语言。 - 项目链接：https://huggingface.co/ibm-granite/granite-docling-258M 【技术突破】 🚀 中科院发布类脑大模型 SpikingBrain：2%数据达百倍长文速度混合线性注意力将复杂度由二次降至线性；自适应阈值脉冲神经元显著降能耗、提升稀疏性。长文本处理速度比主流模型快100倍，训练数据仅需2%。 - 项目链接：https://github.com/BICLab/SpikingBrain-7B 【行业动态】 📰 OpenAI 将推高算力新功能，部分仅向 Pro 开放未来数周陆续上线，可能收取额外费用以覆盖算力。 Altman 称长期目标仍是降低智能服务成本、提升可及性。
7分钟 · 10个月前
130
0
【AI日报】EP.218 9月20 小米开源首个原生端到端语音大模型；通义万相Wan2.2-Anima
【开源项目】 🧩 小米开源端到端语音大模型 Xiaomi-MiMo-Audio 基于创新预训练与上亿小时数据，具备语音领域少样本In-Context泛化能力。在多项音频理解基准中超越Google与OpenAI闭源模型，并开放完整预训练方案。 - 项目链接：https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct 【开源项目】 🧩 通义万相开源动作生成模型 Wan2.2-Animate 人物一致性与生成质量大幅提升，支持动作模仿与角色扮演两种模式。独立光照融合LoRA确保光影无缝迁移，适用于短视频与动漫制作。 - 项目链接：https://github.com/Wan-Video/Wan2.2 【行业动态】 📰 Suno v5音乐模型即将登场被视为AI音乐创作的里程碑，预计引入更强语义控制与多模态输入。 v4.5期间用户作品播放量已达数亿次，新版本引发全球期待。【行业动态】 📰 生数科技获数亿元融资，视频生成商业化提速 Vidu视频大模型年收入达2000万美元，多模态AI进展显著。视频生成将重塑内容生产，但也面临版权与虚假信息治理挑战。【行业动态】 📰 OpenAI修复ChatGPT漏洞，防止Gmail数据被盗 “深度研究”功能曾可被特制邮件诱导外泄敏感信息，OpenAI已紧急修复。此类攻击难以被常规防护检测，用户需保持警惕与良好安全习惯。【效率工具】 ⚡️ Chrome引入Gemini，开启跨页智能助理体验支持理解网页内容、跨选项卡协同与任务安排，深度整合谷歌应用。面向企业提供数据保护与代理能力，助力更安全高效的浏览与搜索。【技术突破】 🚀 Luma AI发布Ray3：HDR与“推理”重塑视频生成支持10/12/16位色深与EXR导出，贴合专业后期工作流。具备复杂指令理解与自评迭代能力，并可用草图精准控制画面。【开源项目】 🧩 Mistral开源24B推理模型 Magistral Small 1.2 支持最高128k上下文，引入[THINK]特殊token以增强推理表现。新增视觉编码器并兼容多框架，强化图文多模态能力。【效率工具】 ⚡️ Notion发布AI智能体：自动纪要与全库分析基于工作区上下文生成会议笔记、分析报告与竞品评估，可创建/更新页面与数据库。支持从Slack、邮件与Google Drive触发，20分钟处理数百页文档。【效率工具】 ⚡️ 腾讯混元3D Studio上线：3D创作从天级提速到分钟级原生3D分割支持部件自动拆分与独立编辑，AI语义UV 1-2分钟出图。智能材质编辑通过文本/图片生成高质量PBR纹理，显著提升生产效率。 - 项目链接：https://3d.hunyuan.tencent.com/studio
6分钟 · 10个月前
170
0
【AI日报】EP.217 9月19 可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上
【效率工具】 ⚙️ 可灵AI发布数字人新功能：一张图片生成1分钟高清视频从静态图片到动态视频，几步即可生成高质量数字人内容。支持文字/音频驱动与多语种，为教育、培训与宣传降本增效。 - 项目链接：https://klingavatar.github.io/ 【技术突破】 🚀 腾讯混元携高校推出SRPO：给生成图像“去油”更逼真引入语义相对偏好优化与Direct-Align，显著提升真实感并降低重建误差。训练高效，10分钟即可超越现有方法，真实度与美学评分大幅提升。 - 项目链接：https://tencent.github.io/srpo-project-page/ 【开源项目】 🧩 IBM开源Granite-Docling-258M：企业级文档AI模型上线端到端保留版式结构，精准提取表格、代码与公式，优于传统OCR。多语种支持与新架构上阵，相比SmolDocling全面进化。 - 项目链接：https://huggingface.co/collections/ibm-granite/granite-docling-682b8c766a565487bcb3ca00 【行业动态】 📰 Meta发布首款带屏幕AI眼镜Ray-Ban：随身智能助理更近一步镜片内置显示，搭配神经腕带肌电识别，实现更自然的交互。连接云端可用Meta应用、导航与实时翻译，减少对手机依赖。【行业动态】 📰 DeepSeek R1登上Nature封面：大模型首次通过同行评审强化学习驱动自主演化，推理能力显著提升。 AIME2024成绩由15.6%跃升至71.0%，与顶级模型相当。【行业动态】 📰 OpenAI为ChatGPT网页端上线“Thinking时长”可调功能用户可在GPT-5模式下调节思考时长，平衡回复速度与智能程度。同步推进儿童版ChatGPT研发，强化未成年人使用安全。【行业动态】 📰 抖音上线“AI求真”功能：助你识谣辨真更安心一键跳转“求真卡”，联合辟谣大模型与团队提升信息透明度。面向全平台误导内容治理，增强用户保护能力。【开源项目】 🧩 通义DeepResearch发布全开源AI模型：让AI“会做研究” 多项权威基准名列前茅，性能超越多款国际模型。模型、框架与方案全面开源，推动科研协作与复现。
6分钟 · 10个月前
142
0
【AI日报】EP.216 9月18 阿里云开源通义DeepResearch；夸克推医师考试大模型；迪士
【开源项目】 🧩 阿里云开源通义DeepResearch：轻量级AI代理，对标OpenAI 以300亿参数（实际激活约30亿）实现强劲检索与推理，支持128K超长上下文。适用于多日行程规划、法律文档分析等复杂任务。【行业动态】 📰 夸克发布国内首个全阶段医师考试大模型测试集覆盖12门核心学科、约7600道题，来源于2024年最新考试。以梯度化策略提升推理要求，填补高时效与广覆盖测试集空白。【效率工具】 ⚡ 全球首位AI全栈工程师“Orchids”问世开箱即用前后端开发，内置身份验证、数据库管理与支付，无需第三方服务。从原型、UI到完整应用与网站一站式生成。【效率工具】 ⚡ 微软Copilot将上线类ChatGPT记忆管理，接入Google Drive 可记住用户关键信息，提供更个性化的助理体验；支持访问Drive文件。部分连接器或纳入每月20美元订阅计划，功能将逐步推送多平台。【行业动态】 📰 迪士尼、华纳、环球起诉MiniMax，涉AI训练版权指控海螺AI未经授权使用电影角色进行训练与商业化运营。按每项著作权最高15万美元请求赔偿，或成AI版权里程碑事件。 - 参考链接：https://www.reuters.com/legal/litigation/disney-universal-warner-bros-discovery-sue-chinas-minimax-copyright-infringement-2025-09-16/ 【效率工具】 ⚡ Gamma 3.0发布：用Agent与API重塑演示文稿工作流 Gamma Agent支持提示驱动的智能编辑，一键全面优化内容与结构。 Gamma API助力企业级集成，团队/商业版覆盖不同规模需求。【行业动态】 📰 OpenAI更新ChatGPT搜索：更全面也更及时支持长对话与图像搜索，答案覆盖更广更即时。响应时间可能变长且偶有错误，建议用户交叉核实。【效率工具】 ⚡ Notion将推个性化AI智能体，支持分享与售卖自定义助手头像、名称与行为指令，可用模板或自配流程。 9月18日主题演讲亮相，预计兼容网页版与移动端。【效率工具】 ⚡ Cursor 1.6发布：自定义命令与MCP协议提升协作新增自定义命令与/summarize，优化代理终端性能与稳定性。支持MCP无缝连接外部工具与数据源，拓展AI代理能力边界。 - 参考链接：https://cursor.com/blog/tab-rl 【AI模型】 🤖 谷歌TimesFM-2.5：小型长上下文的时间序列基础模型仅2亿参数的解码器架构，更小更快且准确性提升。支持16,384上下文与本地概率预测，GIFT-Eval点/概率预测均居首。 - 项目链接：https://huggingface.co/google/timesfm-2.5-200m-pytorch 【效率工具】 ⚡ Figma AI编辑功能上新：选中画布一键评论即改稿基于Make扩展成通用AI编辑器，支持自然语言直接修改与实时协作。由Beta转向限量Alpha，面向付费计划用户开放。 - 参考链接：https://docs.google.com/forms/d/e/1FAIpQLSdGtm-FFZIq1mhn62VRvMBP71yGG_zn9mjKgeqKhDUY-ymMvQ/viewform
7分钟 · 10个月前
142
0
【AI日报】EP.215 9月13 MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁
【AI模型】 🤖 MiniMax Music 1.5上线：生成音乐时长提升至4分钟支持强控制力、自然人声、丰富编曲与清晰结构。 16种风格×11种情绪×10个场景自定义，覆盖配乐与虚拟偶像等创作场景。 - 参考链接：https://www.chinaz.com/tags/803315.shtml - 参考链接：https://www.chinaz.com/tags/824394.shtml - 参考链接：https://www.chinaz.com/tags/849274.shtml 【效率工具】 ⚡ 腾讯会议上线AI托管：会议分身、要点记录、一键生成纪要可代替参会并在突发情况下无缝接管，确保信息不遗漏。会后自动输出清晰纪要，缓解“撞会”与时间管理压力。【技术突破】 🚀 蚂蚁发布gPass：AI眼镜可信连接框架聚焦标准不一与跨设备协同难题，推动眼镜向个人智能体演进。可信身份流通、端到端加密与无感核身，强化安全与便捷。【AI模型】 🤖 Anthropic为Claude加入自动记忆与隐身聊天团队/企业对话可被自动记忆并延续到项目内容与产出。新增隐身模式保护隐私，兼顾效率与合规。【行业动态】 📰 苹果AI实时翻译在欧盟受DMA限制暂停苹果称延迟与数据保护无关，主要受制于DMA规则。也折射大型科技公司在多地法规下的落地挑战。【行业动态】 📰 职业球队首度启用AI主教练并取胜奥克兰球手队以AI“AaronLytics”指挥，5:0完胜对手。技术可计算“最优解”，但也引发对体育人性与不确定性的讨论。【效率工具】 ⚡ Google AI Edge Gallery上架：手机端离线多模态AI 集成Gemma系列，支持图像识别、语音转写/翻译、文本对话等。全离线运行与隐私保护，模型可按需切换。【行业动态】 📰 首个企业应用AI成熟度模型AIM²发布定义从“单点试验”到“AI原生”的五级进阶，覆盖六大评估维度。帮助企业识别短板，规划从概念验证到规模收益的路径。【效率工具】 ⚡ Claude上线Web Fetch与Search一体化工作流直接抓取并分析网页与PDF，打通“搜索—抓取—分析”闭环。白/黑名单与次数限制加强安全控制与可信度。【行业动态】 📰 FTC调查多家AI聊天机器人，聚焦未成年人安全涉及Alphabet、CharacterAI、Instagram、Meta、OpenAI、Snap与xAI。重点审视安全评估、盈利模式与家长告知机制，防范负面影响。
6分钟 · 1 年前
141
0
【AI日报】EP.214 9月12 快手推出AI视频制作助手Kwali；字节跳动推出USO模型；Ope
【效率工具】 🛠️ 快手发布 Kwali：一语生成短视频的多Agent助手云端多Agent自动拆解卖点、受众与情境标签，生成脚本、匹配镜头并剪辑合成。大幅降低制作成本，帮助商家更快投放。 - 项目链接：https://kc.kuaishou.com/kwali 【开源项目】 🧩 字节跳动开源 USO 模型：打破“风格与主题”对立以创新训练与海量数据实现风格与主题的灵活融合，显著提升图像生成的精准度与可控性，面向创意与商业设计场景。 - 项目链接：https://github.com/bytedance/USO 【行业动态】 📰 微软推出 Copilot Audio 音频模式：更个性化的语音交互基于 MAI-Voice-1，提供情感、故事、脚本三种模式与多样声音风格；配合 MAI-1 入驻 Office，丰富办公场景语音体验。 - 项目链接：https://copilot.microsoft.com/labs/audio-expression 【AI模型】 🧠 Stability AI 发布 Stable Audio 2.5：专业音频生成再升级支持最长三分钟音轨的高质量生成与音频修补，满足复杂音乐创作，并与 WPP 合作强化品牌音频识别。【技术突破】 ⚡ 阿联酋开源 K2 Think：320 亿参数，号称全球最快最高每秒 2000 tokens 的生成速度，擅长复杂数学与编程推理；开放权重与训练/部署方案，支持商业落地。 - 项目链接：https://www.k2think.ai/guest 【行业动态】 📰 微信公众号上线智能回复：数字分身 7×24 小时在线可学习历史文章与语言风格，提供个性化回复，提升运营效率与用户黏性。【技术突破】 ⚡ OpenAI 推出 ChatGPT 开发者模式：AI 直接控制外部工具支持自定义连接器执行写入与复杂任务，多层安全防护保障准确与安全，迈向自动化代理时代。 - 项目链接：https://platform.openai.com/docs/mcp - 项目链接：https://platform.openai.com/docs/guides/developer-mode 【开源项目】 🧩 字节 Seed 推出 AgentGym-RL 框架：让 LLM 更会决策以强化学习训练多轮交互代理，配合 ScalingInter-RL 方法平衡探索与利用；多项任务表现超越商业模型。 - 项目链接：https://agentgym-rl.github.io/ 【开源项目】 🧩 月之暗面开源 Checkpoint Engine：LLM 推理原地热更新最高可在 20 秒内完成万亿参数权重同步，支持数千 GPU 并行，显著减少停机并利于扩展到 SGLang 等框架。【开源项目】 🧩 B 站开源 IndexTTS-2.0：情感与时长可控的零样本 TTS 引入时间编码实现精准时长控制，音色与情感解耦提升自然度，适用于配音、有声读物与跨语种本地化。 - 项目链接：https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo 【效率工具】 🛠️ Replit 发布 Agent 3：自主性提升 10 倍的编程助手可基于自然语言生成与优化代码，支持多语言与全流程协作（生成、调试、管理），显著提升开发效率。 - 项目链接：https://replit.com/agent3
6分钟 · 1 年前
123
0
【AI日报】EP.214 9月11 腾讯开源图像模型HunyuanImage2.1；爱诗科技获6000
【AI模型】 🤖 腾讯混元生图模型升级至 Hunyuan Image 2.1，支持写字与原生2K 原生2K分辨率与更强复杂语义理解，支持中英文与高质量文本渲染。模型已在社区开源，助力多模态图像生成研究与创作。 - 项目链接：https://hunyuan.tencent.com/image 【行业动态】 📰 爱诗科技完成6000万美元B轮融资，阿里巴巴领投视频生成大模型 PixVerse V5 领跑图生视频赛道，用户规模突破1亿。开放平台 API 计划将推动视频生成技术的规模化应用。【AI模型】 🤖 Freepik 上线豆包 Seedream 4.0 图像模型，会员无限生成图片支持2K/4K分辨率与多种纵横比，满足多场景设计需求。 Premium+与Pro会员享无限生成，火山引擎同步开放 Seedream 4.0 API。【技术突破】 🚀 阿里通义千问 Qwen3-Next-80B-A3B 推理提速10倍，降本增效 MoE专家混合架构实现高效推理与低资源占用，长上下文更稳。训练与推理成本显著下降，降低机构部署大模型门槛。【行业动态】 📰 微软多元化AI供应商，在 Office 365 集成 Anthropic 技术基于性能引入 Anthropic 能力，优化办公场景智能体验。推进自研与多供应链并行，调整对单一伙伴的依赖。【效率工具】 ⚡ 首款 AI Agent 浏览器 Fellou CE 发布，主打“无缝衔接”体验通过自然语言与自主执行处理复杂任务，显著提升工作效率。构建开放智能生态，强调隐私与数据安全。 - 项目链接：https://fellou.ai/ 【开源项目】 🧑‍💻 清华开源 GUAVA：0.1 秒单张照片生成 3D 数字人结合 EHM 与 3D 高斯泼溅，高质量表情还原与极速渲染。覆盖自媒体、直播、电商、教育等场景，效率与体验大幅提升。 - 项目链接：https://github.com/Pixel-Talk/GUAVA - 项目链接：https://eastbeanzhang.github.io/GUAVA/ 【效率工具】 ⚡ Claude 升级：一键生成与编辑 Excel、PPT、PDF 等办公文件面向 Max/Team/Enterprise 预览开放，Pro 将陆续覆盖。支持代码执行与文件处理，协作产出更快落地。
6分钟 · 1 年前
102
0
【AI日报】EP.213 9月10 生数科技上线Vidu Q1参考生图；字节跳动发布Seedream4
【AI模型】 🤖 生数科技全球上线 Vidu Q1 参考生图：支持最多7张图片输入多图参考、多主体一致性与场景生成同步升级，创作可控性更强。支持服装与背景自由替换，推动多模态创作进入新阶段。 - 参考链接：https://www.chinaz.com/tags/854050.shtml 【AI模型】 🤖 字节跳动发布 Seedream4.0：全新多模态图像创作模型支持文生图、图生图和多图编辑，覆盖多样化创作场景。美感与逻辑理解显著提升，推理速度较前代快10倍以上。【效率工具】 🧰 腾讯推出 AI CLI 工具 CodeBuddy：国内首家全形态AI编程覆盖插件、IDE与CLI，自然语言驱动代码生成与部署。官方称编码时间缩短40%，AI生成代码占比超50%。 - 项目链接：https://www.codebuddy.ai/ 【AI模型】 🤖 百度文心大模型 X1.1 发布：学习与执行力再升级在事实性、指令遵循与智能体表现上全面进步。面向个人与企业开放体验，千帆平台提供开发接入。【行业动态】 📰 OpenAI支持AI动画长片《Critterz》：计划2026戛纳首映预算不足3000万美元，30人团队9个月完成，探索AI降本增效拍片。人机协同制作流程，应用GPT-5等生成式AI工具。【开源项目】 🛠️ 上海AI实验室发布 XTuner V1 训练引擎：训练效率显著提升吞吐量提升5%以上，计算资源利用率（MFU）增长超20%。采取开源策略，助推大模型训练技术进步与普及。【行业动态】 📰 谷歌AI搜索模式扩展：新增5种语言支持覆盖印地语、印尼语、日语、韩语与巴西葡萄牙语。基于定制Gemini 2.5，强化多模态与推理，辅助而非替代传统结果。【行业动态】 📰 我国发布30项AI国家标准，15项人形机器人国标在研既有与在制标准覆盖多领域，规范产业发展与应用安全。牵头推进《生成式人工智能风险处理指南》国际标准，输出中国方案。
7分钟 · 1 年前
123
0
【AI日报】EP.212 9月6 拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京点点
【行业动态】 📰 拍我AI接入谷歌 Nano Banana，开启六天免费创作接入 Gemini 2.5 Flash Image（Nano Banana），视频生成速度与质量双升级。限时六天免费，全球用户已突破1亿，创作门槛进一步下降。 - 参考链接：https://www.chinaz.com/tags/992068.shtml 【效率工具】 ⚡ 京东自研「京点点AI文案」上线，3秒出稿面向商家的一站式AI文案工具，支持视频脚本、直播话术等多场景。完全免费，每日可生成多达50条，高效又省成本。 - 项目链接：https://ai.jd.com/ 【行业动态】 📰 腾讯数字人平台“智影”暂停服务，原因未披露官网显示升级维护中，相关公众号与视频号已注销。官方尚未回应，引发业务走向与产品调整的猜测。【AI模型】 🧠 微软发布 GPT-realtime：更逼真语音与多模态输入新增 Marin、Cedar 两种语音，音质更清晰、情感更自然；支持图像输入与更强指令跟随。Real-time API 开放，价格较预览期下调约20%。【开源项目】 🧩 钉钉与 OpenDataLab 联合推出文档解析工具 DLU 基于 MinerU 技术，支持多格式文档，精准提取复杂元素并转化高质量语料。预计开源并深度融入钉钉生态，助力企业内容理解与协同。【效率工具】 ⚡ ChatGPT 新功能向免费用户开放，项目管理更高效免费用户最多可上传5个文件（Plus 25个、Pro/企业版40个）。支持项目颜色与图标自定义，新增项目级记忆控制，切换场景更顺手。【行业动态】 📰 华纳兄弟探索起诉 Midjourney 侵权，涉大量版权角色指控其生成未授权的衍生图像，即便未直接提及角色也会输出相关内容。华纳兄弟请求法院禁止侵权并索赔，版权边界再受关注。【开源项目】 🧩 电子书一键变思维导图：AI解析 EPUB/PDF 自动解析章节结构，生成思维导图与文字总结，支持多种模式与离线缓存。提升长文阅读效率，便于知识整理与复盘。 - 项目链接：https://github.com/SSShooter/ebook-to-mindmap
7分钟 · 1 年前
135
0
【AI日报】EP.211 9月5 苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Pro
【行业动态】 📰 苹果与谷歌联手将Gemini引入Siri，或重塑搜索入口苹果正在测试将谷歌Gemini集成进Siri，并可能扩展到Spotlight等核心功能。Siri的全面AI升级预计推迟到2026年，语音助手有望直接回答更多信息检索需求。【效率工具】 ⚡️ ChatGPT Projects向免费用户开放，任务管理更省心 OpenAI将Projects功能开放给所有用户，支持对话分组、文件上传（每Project至多5个）、自定义颜色与图标。新增Project-only memory，兼顾隐私与专注。【开源项目】 🧩 谷歌发布Gemini CLI GitHub Actions：免费把AI带进代码仓库支持自动化问题分类、PR审核与按需协作命令，降低团队使用AI门槛。内置安全认证方案，便于在现有CI/CD中稳定落地。 - 源链接：https://blog.google/technology/developers/introducing-gemini-cli-github-actions/ 【行业动态】 📰 OpenAI估值飙至5000亿美元，二级出售达103亿美元资本市场对AI的信心继续升温，OpenAI完成大额二级交易。伴随Anthropic等平台融资走强，行业热度与竞争加速升级。【行业动态】 📰 苹果自研“世界知识问答”AI搜索，计划2026年春上线新引擎将嵌入Siri、Safari与Spotlight，强化智能搜索体验。苹果同时与谷歌合作引入其AI模型，并加紧招募AI人才。【AI模型】 🤖 Kimi K2-0905登陆Discord：更强编程与写作，无思考/视觉 Moonshot AI发布K2-0905版本，聚焦代码生成与创意写作能力提升。仍未开源，现阶段通过开放Beta邀请体验。【效率工具】 ⚡️ Raycast上新Cursor Agent插件，AI编码一键直达在Raycast内直接调用Cursor代理执行编辑与运行任务，减少工具切换。提供实时状态显示，进一步优化开发工作流。【技术突破】 🔬 谷歌发布nano banana官方Prompt模板，附完整代码示例六套模板覆盖写实与插画等风格，零门槛生成高质量图像。为创意设计与内容生产提供即用型范式。 - 源链接：https://x.com/GoogleAIStudio/status/19629576152622245111
6分钟 · 1 年前
123
0
【AI日报】EP.210 9月4 抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Sta
【行业动态】 📰 抖音重拳打击AI滥用：违规内容与账号将下架清退平台点名虚假商品展示、夸大宣传与AI仿冒名人等行为，严重扰乱秩序。发布AI生成内容需主动标注，未声明将被重点治理。【AI模型】 🧠 ElevenLabs音效模型升级至V2：长片段、无缝循环与高保真最高支持30秒生成与48kHz采样率，音质与灵活性全面提升。新增无缝循环，适合配乐与背景音效连续播放。【行业动态】 📰 OpenAI收购Statsig：创始人赴任CTO，强化产品数据分析 Statsig每日处理1万亿事件，助力实验与迭代加速。收购后平台将继续独立运营，支撑下一代产品规模化。【效率工具】 ⚙️ 亚马逊上线Lens Live：实景扫描即购，AI助手Rufus加持对准实物即可识别匹配商品，一键加入购物车。 AI自动总结要点、解答问题，提升购物决策效率。【效率工具】 ⚙️ 谷歌推出Stax：按自定义标准评测大模型的开发者工具支持并排对比、多提示批测与预构建评估器，结果更贴近真实需求。项目与数据集管理助力大规模一致性评测。 - 项目链接：https://stax.withgoogle.com/landing/index.html 【效率工具】 ⚙️ WordPress发布AI工具Telex：用提示词构建网站内容通过AI生成可复用内容块，一键打包为.zip下载。仍处实验阶段，旨在降低建站门槛并引发生态讨论。【AI模型】 🧠 Liquid AI推LFM2-VL：轻量多模态模型，端侧推理更快 450M与1.6B两款规模，兼顾资源受限与单GPU部署。高分辨率输入、非重叠切片与工具链兼容，推理提速最高2倍。 - 项目链接：https://huggingface.co/LiquidAI/LFM2-VL-1.6B 【开源项目】 🧩 苹果开源FastVLM与MobileCLIP2：边缘设备多模态性能跃升 FastVLM首词响应提速达85倍，面向高分辨率与移动端。 MobileCLIP2聚焦高效图文对齐，支持实时交互与搜索生成。 - 项目链接：https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e 【开源项目】 🧩 MetaGPT发布RealDevWorld：端到端自动化测试，准确率92% 自然语言生成用例与自愈脚本，显著降低维护成本。覆盖Web/移动端/API全栈流程，提升测试可靠性与效率。 - 项目链接：https://github.com/tanghaom/AppEvalPilot 【开源项目】 🧩 瑞士发布完全开源大模型Apertus：覆盖千余语言 EPFL、ETH与CSCS联合研发，透明公开训练数据与流程。提供面向个人与复杂场景的两个版本，依托可再生能源算力。 - 项目链接：https://huggingface.co/swiss-ai/Apertus-8B-Instruct-2509
7分钟 · 1 年前
133
0

纯公益性的 AI 共学组织，旨在帮助更多普通人将AI技术融入日常工作和生活中，推动AI更广泛地为大众所用。