

- 【AI日报】EP.172 6月26 支付宝推 “AI 打赏” 服务;QQ浏览器上线高考志愿报告功能
【6月26日AI日报】 1. **Claudia发布!优雅界面赋能Claude Code,跨平台AI编程新体验** - Claudia是一款为Claude Code设计的开源图形用户界面工具,基于Tauri框架,结合React和Rust,支持多平台,提供一站式项目管理、自定义AI代理、Token用量追踪等功能。 - 产品地址: https://github.com/getAsterisk/claudia 2. **各地高考分数线公布!QQ浏览器“AI高考通”上线高考志愿报告功能** - QQ浏览器新增“高考志愿报告”功能,考生输入省份、选科、分数等信息后,3至5分钟内可获得个性化的志愿报告。 3. **你的答案能听了!秘塔AI搜索宣布上线“听讲解”功能** - 秘塔AI搜索推出“听讲解”功能,用户可通过点击按钮让AI将搜索结果生动讲述,支持语音输出和多种互动形式。 - 体验地址: https://www.mitat.ai/ 4. **苹果iOS26升级:图乐园功能焕然一新,AI生成图像更真实** - 苹果即将推出的iOS26系统带来了图乐园的重大升级,用户可通过简短描述生成更加真实的图像,并新增ChatGPT集成功能和智绘表情(Genmoji)。 5. **支付宝宣布为AI开发者提供国内首个“AI打赏”服务** - 支付宝推出国内首个“AI打赏”服务,开发者可通过蚂蚁百宝箱平台或阿里云百炼启用该功能,用户的打赏将直接转入开发者账户。 6. **小米AI眼镜官宣亮相:明晚发布 定位下一代个人智能设备** - 小米首款AI眼镜将在明晚发布,采用双芯架构和自带镜头,具备物品识别和语音交互等功能,强调其作为智能穿戴设备的独特价值。 7. **未来已来!奥比中光发布天工Pro机器人,搭载尖端深度相机** - 奥比中光与北京人形机器人创新中心合作,推出升级版天工Pro机器人,配备Gemini330系列深度相机,提升智能识别和环境适应能力。 8. **Deepmind推出新一代机器人AI模型:Gemini Robotics On-Device** - Google DeepMind发布了新一代机器人AI模型Gemini Robotics On-Device,可在无互联网连接的情况下本地运行,只需50至100次演示即可快速学习新任务。 - 产品链接: https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/ 9. **字节跳动推出ProtoReasoning框架:提升大语言模型的逻辑推理能力** - 字节跳动与上海交通大学团队联合推出ProtoReasoning框架,通过Prolog和PDDL的结构化原型表示,显著提升大语言模型在逻辑推理和规划任务上的能力。 - 论文链接: https://arxiv.org/abs/2506.15211 10. **Clikka AI颠覆产品摄影!一张图秒变专业级大片,省钱又吸睛** - Clikka AI是一款创新的产品摄影AI工具,通过上传一张产品图片,用户可以生成高质量的专业效果图,适用于电商和营销领域。 - 体验地址: https://clikka.ai/
- 【AI日报】EP.171 6月25 即梦灰测图片3.1模型;ElevenLabs推出AI语音助理11ai
### AI日报新闻提要 1. **即梦灰测图片3.1模型** - 3.1模型在艺术风格化上表现更精准,视觉特征更明确。 - 生成的图片细节更真实,如皮肤、毛发和材质纹理。 - 增强了电影感和故事感,场景更丰富。 2. **ElevenLabs推出AI语音助理11ai** - 以语音交互为核心,支持超过5000种声音和自定义专属语音。 - 支持MCP多通道协议,可集成多种工具实现高度个性化工作流。 - 支持70多种语言,具备自动检测功能,适合全球市场应用。 3. **百度发布多智能体协同AI IDE“Comate AI IDE”** - AI辅助编码全流程,提升开发效率。 - 多智能体协同,支持自定义任务。 - 设计稿一键转代码,增强前端开发体验。 - 详情链接: [https://comate.baidu.com/zh/download](https://comate.baidu.com/zh/download) 4. **苹果利用“归一化流”技术推出创新AI生图模型** - TarFlow模型通过拆分图像块生成,避免了压缩造成的质量损失。 - STARFlow在潜空间工作,并支持调用现有语言模型优化文本提示处理。 - 苹果采用“归一化流”技术开发新的AI生图模型,区别于传统的扩散模型。 5. **Grok Web即将推出“文件”选项卡** - 整合多种文件类型,提升工作效率。 - 提供统一界面,便于浏览、创建和编辑文件。 - 增强功能性,满足多样化工作需求。 6. **OmniGen2重塑开源多模态模型应用场景** - 双组件架构结合视觉语言模型和扩散模型,实现高效可控生成式AI。 - 文本生成图像功能支持高保真、符合美学标准的图像生成。 - 指令引导图像编辑性能达到开源模型前沿水平,可完成复杂修改任务。 - 详情链接: [https://huggingface.co/OmniGen2/OmniGen2](https://huggingface.co/OmniGen2/OmniGen2) 7. **ScholAI重磅来袭!基于MCP的智能学术神器** - 多源论文搜索:支持从arXiv、专业会议及期刊等多个权威学术平台检索论文。 - 自动获取CCF排名:内置CCF排名查询功能,用户可快速了解目标期刊或会议的学术影响力。 - 语义查询分析:通过自然语言处理技术,理解用户研究兴趣,精准匹配相关论文。 - 详情链接: [https://github.com/oDaiSuno/ScholAI](https://github.com/oDaiSuno/ScholAI) 8. **豆包推出可视化AI编程** - 豆包推出可视化AI编程功能,用户可直接在预览界面编辑网页应用。 - 该功能降低了编程门槛,使非技术背景用户也能快速搭建网页应用。 - 已支持多文件上传、GitHub仓库引入等专业功能。 9. **饿了么推出智能AI助手“小饿”** - 通过语音唤醒“小饿”,骑手可轻松完成接单、确认到店等操作。 - 实时分析骑手位置和订单状态,主动推送天气预警和路线封路提示。 - 根据历史数据和订单热力图,提供收入预估和优化接单策略的建议。 10. **张雪峰直言:AI能取代我最好!** - 张雪峰表示:“能被取代最好!”反映出他对AI的乐观态度。 - AI在高考志愿填报中取得了显著进展,但仍面临挑战。 - 教育工作者需与考生和家长加强沟通,帮助他们更好地运用AI工具。 11. **微软重磅发布设备端小模型Mu** - Mu模型拥有3.3亿参数,专为简化Windows设置设计。 - 高效本地处理,响应速度快,降低隐私风险。 - 未来将支持更多硬件平台,扩展用户群体。
- 【AI日报】EP.170 6月24 月之暗面首款自主智能体Kimi-Researcher;MiniMax推音色设计功能
【AI日报】 1. 月之暗面发布首款自主智能体Kimi-Researcher,多轮搜索与推理能力强,在HLE测试中超越谷歌和OpenAI同类产品。Kimi-Researcher基于k-系列模型,通过端到端强化学习训练,在HLE测试中Pass@1得分率26.9%,Pass@4准确率40.17%。未来将开源基础预训练模型,助力AI社区发展。 2. MiniMax推出Voice Design音色设计功能,用户可通过自然语言描述生成个性化语音,支持多种语言、口音和音色组合。该功能与Speech-02模型结合,降低了语音合成领域的音色匹配难度。 - 国内版: minimaxi.com/audio - 海外版: minimax.io/audio 3. 火山引擎上线AI智能推荐域名功能,依托方舟大模型平台,帮助企业快速找到符合品牌需求的热门域名。用户输入关键词,AI生成关联性强、富有创意的域名,并提供多样化选择。 - 体验地址: https://www.volcengine.com/product/domain-service 4. Anthropic推出Claude Code for VSCode插件,优化开发者编码体验,强化在AI编码领域的战略布局。插件支持代码编辑、测试和Git工作流管理,活跃用户群增长160%。 5. Google推出Gemini2.5 Flash-Lite模型,具备实时生成交互界面的能力,支持多模态输入,内置可控思考预算功能,在多个领域展现潜力,适合高吞吐量场景。 6. 苹果考虑以300亿美元收购AI初创公司Perplexity,旨在提升Siri和Safari服务,增强搜索市场竞争力。这是苹果历史上最大规模并购计划之一。 7. 月之暗面开源Kimi-2506多模态模型,视觉理解能力显著增强,支持更高分辨率图像处理。Kimi-2506在多模态推理和视觉理解方面表现出色,单张图像总像素达320万。 8. Firecrawl即将推出开源AI问答引擎Fireplexity,依托其强大的网页抓取功能,为开发者提供低成本替代方案。Fireplexity核心功能与Perplexity类似,支持定制。 9. 智能机器人公司银河通用获宁德时代领投超10亿元融资。首款具身大模型机器人Galbot G1已推出并实现应用,侧重上肢操作能力,未来有望与宁德时代形成战略协同。 10. 字节跳动发布DreamActor-H1视频生成系统,采用扩散变换器技术,解决视频生成中真实性和自然性问题。输入商品和角色照片,自动生成带货视频,在保持人和产品身份完整性方面优于现有技术。 11. Google Gemma团队发布Magenta RealTime,一个开源AI音乐生成模型,专注于实时创作,助力音乐创作者和开发者。Magenta RealTime基于Transformer架构,参数规模为8亿,支持文本提示,实时调整音乐风格与情感。 - 产品链接: https://huggingface.co/google/magenta-realtime 12. 开源AI设计工具Jaaz发布Lovart AI的本地化替代品,支持本地运行,为设计师提供灵活高效的创作体验。Jaaz兼容多种图像生成模型,具高兼容性。 - Jaaz项目地址: https://github.com/11cafe/jaaz
- 【AI日报】EP.169 6月21 MiniMax发布视频智能体Hailuo Agent;昆仑万维开源 Skywork
### AI日报新闻提要 1. **MiniMax发布视频智能体Hailuo Agent** - 支持文本到视频生成及人脸图片驱动的视频生成。 - 适用于多种场景,展示多模态AI技术实力。 - 提供视频生成API接口,助力开发者和企业创新。 2. **昆仑万维开源Skywork-SWE-32B** - 在SWE-bench Verified基准上取得38.0%的pass@1准确率。 - 引入测试时扩展技术后,准确率提升至47.0%。 - 建立自动化流程,构建超1万条高质量、可验证的SWE任务数据集。 - 详情链接: [https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd](https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd) 3. **B站接入通义千问Qwen3等模型** - 推出数据洞察智能体InsightAgent。 - ‘花火’平台的AI选人功能使商单成交效率提高5倍以上。 - ‘必达’平台利用InsightAgent生成智能报告,缩短品牌投放决策时间。 4. **ChatGPT深度整合谷歌Gmail与日历功能** - 支持自动邮件回复和日程创建。 - 预计2-3个月内全球上线,强化工作与时间管理效率。 5. **新网站“The OpenAI Files”启动** - 汇集OpenAI内部文件及批评,引发公众对其是否偏离非营利目标的讨论。 - 聚焦AI开发的透明度、安全性和监管问题。 - 详情链接: [https://www.openaifiles.org/](https://www.openaifiles.org/) 6. **腾讯云推出全链路AI驱动应用开发平台“AI Builder”** - 通过自然语言处理技术降低应用开发门槛。 - 平台自动配置后端资源,支持用户局部修改与部署。 - 提供低代码编辑器和代码包导出功能。 - 详情链接: [https://tcb.cloud.tencent.com/](https://tcb.cloud.tencent.com/) 7. **HeyGen推出UGC广告数字人** - 利用AI技术生成高质量广告视频。 - 实现高度逼真的面部表情、肢体动作和语音同步。 - 解决传统UGC创作痛点,提高互动性和转化率。 - 详情链接: 视频链接未提供 8. **Manus AI推出Windows桌面应用程序** - 提供从数据分析到代码生成的全面支持。 - 利用本地计算资源,提供更快响应速度和更低延迟。 - 与Windows生态深度融合,适配多种场景。 - 详情链接: 视频链接未提供 9. **研究揭示过度依赖AI或导致损坏批判性思维与记忆力** - 麻省理工学院研究表明,LLM组参与者的大脑连接性减弱。 - 教育环境中结合AI工具与无工具学习阶段有助于平衡即时技能转移与长期神经发展。 10. **Perplexity重磅升级** - 推出定时任务功能,自动整理金融资讯。 - 结合SEC数据,支持多维度查询。 - 适合个人投资者及专业分析师,助力精准投资决策。 11. **Mozilla宣布停运AI内容检测工具“Deep Fake Detector”** - 将于6月26日停运,标志着对AI生成内容态度的转变。 - 活跃用户不足3300人,暴露了用户需求与实际使用之间的差距。 - 关闭检测工具可能暗示Mozilla对AI内容的默认接受。 12. **腾讯AI Lab推出开源音乐生成大模型SongGeneration** - 提升音乐生成的音质与速度,解决行业难题。 - 用户可通过关键词或参考音频生成个性化音乐。 - 基于3B参数的大型架构,经过海量歌曲预训练。 - 详情链接: [https://huggingface.co/spaces/tencent/SongGeneration](https://huggingface.co/spaces/tencent/SongGeneration) 13. **快手推出OneRec推荐系统** - 计算效率提升10倍,降低运营成本。 - 已上线快手App及极速版,显著提升用户体验。 - 推动行业进入‘端到端生成式觉醒’新阶段。 14. **ChatGPT新笔记工具发布** - 主打隐形记录与智能整理,面向会议记录、头脑风暴及个人笔记管理。 - 利用记忆功能与提示词,提供个性化笔记生成。 - 逐步开放至Pro、Enterprise等用户,与API集成后可拓展至更多工作流平台。 15. **宇树科技完成C轮融资交割** - 多家知名投资机构参与,投前估值超100亿元人民币。 - 公司更名为股份有限公司,可能为上市做准备。 - 创始人王兴兴对在香港上市持开放态度。
- 【AI日报】EP.168 6月20 Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5
【AI日报】 1. **Midjourney推出视频生成模型V1** - 主打图像到视频转换功能,支持多种动态模式和文本提示定制。 - 定价亲民,每月10美元即可体验视频生成功能。 - 面临版权争议和技术优化空间,如高动态场景的轻微闪烁问题。 2. **OpenAI宣布GPT-5将在今年夏季发布** - OpenAI CEO确认GPT-5将在今年夏季发布,行业热切期待。 - OpenAI计划重新谈判与微软的合作协议,增强自身市场独立性。 - OpenAI与美国国防部签署2亿美元合同,标志其在国防领域的崛起。 3. **谷歌推出Search Live语音搜索功能** - 通过语音提问并获得AI生成的语音回答,支持连续追问。 - 每次回答附带相关链接,确保信息透明可信。 - 结合Gemini模型与Astra技术,处理复杂语音输入并生成自然连贯的回答。 4. **OpenAI推出开源客户服务代理框架** - 使用OpenAI代理SDK构建智能、工作流意识强的AI代理,支持多种业务场景。 - 设定安全和相关性防护措施,确保系统安全稳定运行。 - 提供Python后端和Next.js前端,展示多代理协作及防护机制的实际应用。 5. **MiniMax Agent重磅发布** - 多场景赋能,包括编程、多模态理解和无缝MCP集成,满足个人及企业级团队需求。 - 从繁琐代码中解放,通过需求理解实现高效任务规划与执行。 - 智能代理引领未来,重塑生产力工具格局,推动智能化、自动化发展。 6. **恶意工具WormGPT新变种重现江湖** - 新版本WormGPT基于Grok和Mixtral模型,专用于网络犯罪活动。 - 这些工具能绕过AI平台的伦理防护,生成恶意脚本和窃取凭证。 - 网络安全专家呼吁加强防御策略,如提升威胁检测与响应能力。 7. **OpenAI推出ChatGPT企业版折扣** - 提供企业版ChatGPT折扣,幅度10%-20%,助力企业降本增效。 - ChatGPT作为对话生成工具,被广泛采用,推动AI技术普及。 - 到2030年,企业客户年收入有望达到150亿美元,显示AI市场巨大潜力。 8. **DeepSite V2升级** - 支持自然语言生成复杂代码,如3D动画,仅需输入描述即可秒级生成可运行代码。 - 实时预览与调整功能让用户即时查看效果并优化结果,确保输出符合预期。 - 完全开源免费,支持多模态任务,涵盖网页、游戏、特效及3D交互内容,降低开发门槛。 - 详情链接: [https://deepsite.hf.co/projects/new](https://deepsite.hf.co/projects/new) 9. **Office-PowerPoint-MCP-Server上线** - 支持从零创建全新PPT或编辑现有文件,覆盖幻灯片管理、内容填充和数据可视化等多功能。 - 无缝集成AI助手,通过自然语言指令或代码批量生成PPT,大幅提升企业报告生成效率。 - 开源特性允许开发者定制功能,如集成图像生成模型或与外部数据源连接,拓展应用场景。 - 详情链接: [https://github.com/GongRzhe/Office-PowerPoint-MCP-Server](https://github.com/GongRzhe/Office-PowerPoint-MCP-Server) 10. **比亚迪与字节跳动携手用AI开发动力电池关键技术** - 比亚迪与字节跳动共建联合实验室,研发动力电池核心技术。 - 共享算法、算力和实验数据,攻克快充、寿命和安全等关键问题。 - 加速电池迭代周期,促进新材料和新配方的发现,推动行业技术进步。 11. **马斯克驳斥xAI巨额亏损传闻** - xAI每月烧钱10亿美元的传闻被马斯克否认,认为是无稽之谈。 - xAI正寻求93亿美元融资以弥补资金缺口,预计全年亏损达130亿美元。 - 尽管面临巨额亏损,马斯克对xAI的未来发展充满信心,目标是在2027年实现盈利。
- 【AI日报】EP.167 6月19 MiniMax推视频生成模型Hailuo Cursor Pro取消500次请求限制
### AI日报新闻提要 1. **Cursor Pro取消500次请求限制,开启无限使用新篇章** - Cursor Pro计划取消每月500次快速请求限制,推出“无限使用”模式。 - 推出全新Ultra计划,月费200美元,提供相当于Pro计划20倍的模型使用量。 - Anysphere估值达99亿美元,年化收入超5亿美元,巩固市场领先地位。 2. **稀宇科技MiniMax推出视频生成模型Hailuo 02** - Hailuo 02基于Noise-aware Compute Redistribution架构,在复杂场景处理和创作质量提升方面表现优异。 - 模型训练和推理效率提升2.5倍,参数量扩大3倍,支持更大规模数据拟合。 - 支持1080p视频生成,已在多个平台更新并提供多种分辨率选项。 - 详情链接: <https://hailuoai.com/create> 3. **谷歌发布超强AI模型Gemini 2.5 Flash-Lite** - Gemini 2.5 Flash-Lite推理速度快,延迟低,适合实时翻译和高吞吐量分类任务。 - 支持超长上下文处理,达到100万token,灵活性强,适合复杂系统开发。 - 集成于Google AI Studio、Vertex AI平台及谷歌搜索,助力开发者高效工作。 4. **科大讯飞再发力!全新星火X1升级版将于7月重磅上线** - 星火X1升级版将于7月发布,性能全面提升,提供更流畅和智能的使用体验。 - 科大讯飞与多家企业合作,加速市场拓展,彰显其在数字经济中的领先地位。 - 用户界面和交互体验显著改善,带来更高效便捷的应用体验。 5. **腾讯元宝推出AI编程模式,实现实时代码生成与预览** - 用户可通过双栏界面实时生成和预览代码,提升开发效率。 - 支持多种编程语言在线运行,无需配置环境,简化操作流程。 - 功能适合教育和亲子场景,激发创造力与编程兴趣。 6. **OpenAI宣布GPT-4.5将在API中下线,开发者感到困惑与失落** - OpenAI将于2025年7月14日从API中下线GPT-4.5预览版。 - GPT-4.5仍可供ChatGPT个人用户使用。 - OpenAI鼓励开发者迁移到GPT-4.1或其他替代模型,以确保业务连续性并降低运营成本。 7. **苹果新Speech API转录速度惊人,胜过OpenAI Whisper 55%** - 苹果新Speech API转录34分钟4K视频仅需45秒,速度超越竞争对手。 - 与OpenAI Whisper相比,苹果技术提升了约55%的效率。 - 本地化运算优势使Yap在多段视频处理上效率更高,为用户节省大量时间。 8. **百度首推双数字人互动直播间,文心大模型4.5T驱动多模态技术新突破** - 文心大模型4.5T实现多模态联合建模,大幅提升数字人交互体验。 - 双数字人直播间助力电商、教育等领域内容创作,降低成本并提升多样性。 - 开源计划推动多模态AI技术普及,助力中小企业和开发者创新应用。 9. **OpenAI CEO揭露Meta曾试图以1亿美元挖OpenAI人才最终失败** - Meta向OpenAI提出高额挖角报价,但未能成功招揽优秀员工。 - Sam Altman认为OpenAI员工更看重公司的创新文化和AGI发展前景。 - OpenAI正在研发基于AI的社交媒体应用,与Meta展开竞争。 10. **告别“AI感”! Krea1公测开放,超现实纹理与细节、多样化艺术风格** - Krea1图像生成模型公测版已开放,解决传统AI图像生成的“AI感”问题。 - 支持1.5K原生分辨率,最高可达4K超高清,展现细腻纹理与逼真材质。 - 精准理解复杂艺术风格需求,避免千篇一律的“AI图像”输出。 - 允许上传参考图像或数据集,实时调整生成结果,增强创作者控制力。 11. **特斯拉Grok车载AI助手即将上线,个性化定制让驾驶更有趣** - Grok车载AI助手将打破人与车的传统界限,提供丰富交流方式,如问答及个性化定制。 - 支持多种个性化选项,例如不同性格版本及儿童模式,适合家庭用户。 - 仅限AMD芯片车型,新车型将享受更强智能科技,推动车载AI技术成熟。 12. **谷歌Gemini重磅升级! 视频上传与分析功能正式上线** - Gemini新增视频上传与分析功能,可在安卓和网页端轻松上传视频进行内容分析。 - 能全面分析视频内容,包括概述、查找片段或物品,并展示相关片段,提升视频处理效率。 - 在视频分析领域超越ChatGPT,提供更便捷的使用体验,巩固市场竞争力。
- 【AI日报】EP.166 6月18 MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构
【AI日报】 1. **月之暗面发布全新开源模型Kimi-Dev-72B** - 专注于软件工程任务的Kimi-Dev-72B在SWE-bench Verified测试中创下最高成绩,以72亿参数量超越了DeepSeek-R1。 - 模型结合BugFixer和TestWriter双重角色,确保代码质量和正确性。 - 未来计划与流行开发工具深度集成,持续优化并推出更强大的版本。 2. **MiniMax-M1开源** - 上下文窗口达1M输入和80k输出,远超GPT-4o,适合复杂文档分析和多轮对话。 - 训练成本仅53万美元,通过MoE架构和CISPO算法实现高效推理与低成本。 - 开源于Hugging Face平台,支持40k和80k思维预算,性能媲美顶级商业模型。 3. **腾讯LeVo来袭** - 支持零样本音色克隆,仅需3秒音频即可精准复制音色,大幅降低音乐创作门槛。 - 提供分轨生成模式,支持人声与伴奏分离,为专业音乐制作提供更高灵活性。 - 以开源形式发布,促进全球音乐创作社区的发展,提升中国AI技术国际影响力。 - 详情链接: https://levo-demo.github.io/ 4. **阿里巴巴发布Qwen3升级版,适配苹果MLX架构** - 新版Qwen3支持119种语言,具备更强性能和混合推理能力。 - 苹果智能尚未在中国上线,可能会在iOS18.6正式公测版中提供预览。 5. **豆包电脑版与网页版上线“AI播客”功能** - 上传PDF或链接即可快速生成自然流畅的双人对话播客。 - 适用于工作、学习等多种场景,利用碎片时间高效获取信息。 - 语音效果逼真,去机器感,提供沉浸式听觉体验。 6. **夸克App推出“夸克老师”** - 集多种学习功能于一体,如讲题、批作业、出题、找试卷等,支持数学和物理难题的深度解析。 - 能够根据学生特点提供个性化辅导,模拟真人教师教学思路,帮助学生理解并提升学习效果。 - 拥有海量题库资源,包括专业题库和名校真题,满足多样化学习需求。 7. **松下全新OmniFlow多模态大模型** - 支持文本、图像和音频的高效转换,带来全新的多模态体验。 - 采用模块化设计,各组件独立预训练,提高资源利用效率并优化训练效果。 - 引入多模态引导机制,用户可精准控制生成过程,满足多样化需求。 8. **TikTok全新Symphony AI工具上线** - 图像转视频功能让静态图片轻松变为动态视频,只需上传图片和添加文字提示即可生成多个AI视频选项。 - 文字转视频功能无需图片或模板,仅凭文字即可制作视频,助力广告商快速测试和完善创意。 - Showcase Products工具融合产品图片与数字化身,打造沉浸式广告体验,提升用户原创内容风格。 9. **极氪与火山引擎携手,豆包大模型赋能智能座舱新体验** - 豆包大模型接入极氪智能座舱,实现精准推荐与个性化服务。 - 升级后的极氪智能语音助手Eva,支持从传统语音交互到大语言模型服务的无缝切换。 - 极氪第50万台车型009光辉下线,刷新豪华纯电车型最快纪录。 10. **Meta Llama3.1能回忆《哈利波特》42%的内容** - Llama3.170B模型在《哈利波特》中能记住42%的内容,远超Llama165B的4.4%。 - 研究采用Books3数据库,通过标记段落测试模型的记忆能力。 - 热门书籍记忆效果更佳,显示AI在理解和处理文本上的进步。 11. **Grok任务功能重磅上线** - 支持多种任务频率,从即时到长期跟踪,满足多样化需求。 - 提供外部通知功能,如邮件推送,结果主动找用户,提升使用便利性。 - SuperGrok用户享有更高配额和优先体验尖端功能,如DeepSearch和Big Brain Mode。 12. **Gemini2.5Pro即将更新Deep Think的功能** - Deep Think功能通过多线程推理显著提升复杂任务中的性能,特别是在数学、编程和多模态任务中表现出色。 - 用户可通过网页UI直观切换至Deep Think模式,功能将逐步向更多用户开放。 - 在正式发布前,Google通过API收集反馈并进行安全评估,确保功能的稳定性和数据安全性。 13. **谷歌地图迎来超大规模升级** - 使用生成式AI搜索功能,通过自然语言实现精准地点查询。 - 智能评论分析功能,自动总结用户评论并解答关于地点的具体问题。 - 推出节油路线优化功能,结合多因素分析推荐更环保的行驶路线。
- 【AI日报】EP.165 6月14 腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任
【AI日报】腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级 1. **腾讯宣布混元3D 2.1大模型对外开源** - 首个全链路开源工业级3D生成大模型,几何生成与PBR材质生成效果显著提升。 - 支持游戏、电影、电商等领域生成高质量3D角色、道具与产品模型,告别传统‘塑料感’。 - 全链路开源且部署友好,适配消费级显卡,适合个人与团队快速上手开发。 - 详情链接: https://3d-models.hunyuan.tencent.com/ 2. **OpenAI Codex 全新升级: 让程序员轻松获取理想代码** - 新增生成多种代码版本功能,满足不同需求,提升开发效率。 - 优化细节包括加载进度查看、取消操作及安装问题修复,操作更灵活。 - 基于codex-1模型优化,提高代码生成准确性,支持GitHub代码库提取。 3. **字节跳动AI Lab负责人李航卸任,Seed团队步入调整期** - 李航卸任AI Lab负责人,转为劳务/顾问身份,标志着字节跳动AI Lab的重大人事调整。 - 自2020年起,AI Lab逐步转型为技术中台,并在2023-2024年将部分大模型团队并入Seed团队。 - 字节跳动AI Lab自2016年成立以来,历经多位负责人领导,逐步成为支撑字节跳动多项业务的技术核心。 4. **微软发布700个真实AI案例,探索智能化工作新模式** - 微软展示了700个AI应用案例,涵盖金融、医疗、教育等多个行业。 - AI智能体通过自动化任务,显著减少工作时间,提升企业效率。 - 众多企业借助AI提升客户体验,推动业务增长与运营优化。 5. **微软AI重磅发布Code Researcher: 58%崩溃解决率震撼业界!** - Code Researcher基于大型语言模型(LLM),能深度分析代码库和提交历史,追踪崩溃根本原因并生成修复补丁。 - 在Linux内核崩溃修复测试中,Code Researcher的崩溃解决率高达58%,远超SWE-agent的37.5%。 - 适用于多种大型代码库,为企业级软件维护提供高效解决方案,推动系统级软件开发自动化进程。 - 详情链接: https://www.microsoft.com/en-us/research/publication/code-researcher-deep-research-agent-for-large-systems-code-and-commit-history/ 6. **AI监工上线! Observer AI让屏幕自动化更高效,解放你的双手** - Observer AI通过高精度捕捉技术完整记录界面变化,确保数据无遗漏。 - 内置先进算法快速解析屏幕内容,识别任务完成情况或潜在问题。 - 支持调用MCP或自定义方案,自动执行下一步操作,实现闭环自动化。 - 详情链接: https://github.com/Roy3838/Observer 7. **Genspark AI 发布革新性AI Browser,开启智能网络浏览新时代** - Genspark AI Browser内置AI代理,提供智能导航与内容分析,例如自动搜索全网最低价。 - 支持MCP Store模块化扩展,用户可通过定制化AI工具满足多样化需求。 - 适用于多种场景,包括学术研究、商业决策及内容创作,提升信息处理与任务自动化效率。 8. **麻省理工利用AI技术迅速修复15世纪名画,仅需三个半小时** - 麻省理工开发新技术,通过AI修复名画,仅需三个半小时。 - 该技术将修复时间从数月缩短到几个小时,大幅提高效率。 - 采用可拆卸掩膜和数字地图,修复过程安全可逆,保护原画。 9. **蚂蚁集团和Inclusion AI联合推出Ming-Omni: 首个开源版多模态GPT-4o** - 支持多模态输入融合处理,无需额外模型或特定任务微调,高效完成多样化任务。 - 提供语音与图像生成功能,支持方言理解、语音克隆及上下文感知对话,提升人机交互体验。 - 首个开源多模态模型,与GPT-4o匹敌,激励社区研究与开发,推动技术进步。 - 详情链接: https://lucaria-academy.github.io/Ming-Omni/ 10. **视频版AI换衣框架MagicTryOn,基于Wan2.1视频模型** - MagicTryOn采用扩散变换器,显著提升视频虚拟试穿的时空一致性。 - 引入粗到细的服装保留策略,增强服装细节表现力。 - 在大幅度运动场景下表现优异,展现服装与人体动作的自然互动。 - 详情链接: https://vivocameraresearch.github.io/magictryon/ 11. **字节跳动Seaweed APT2震撼发布! 实时互动AI视频生成,解锁3D虚拟世界新纪元** - Seaweed APT2采用自回归对抗后训练技术,大幅降低计算复杂性,实现高效实时视频生成。 - 支持实时3D世界探索和互动虚拟人类生成,适用于虚拟主播、游戏角色等多种场景。 - 相比传统模型,Seaweed APT2在动作连贯性和场景多样性方面有显著提升,开启AI视频生成新篇章。 12. **OpenAI升级ChatGPT Search功能,提供更精准、更智能的响应** - 新增图片搜索功能,支持多样化交互方式。 - Projects功能升级,助力高效管理对话和文件。 - 挑战谷歌霸主地位,提供更高效、人性化搜索体验。 13. **字节火山引擎澄清与老凤祥AI智能眼镜合作传闻** - 火山引擎否认与老凤祥合作开发AI智能眼镜,但老凤祥展示的眼镜确实使用了豆包大模型。 - 老凤祥AI眼镜专为老年用户设计,具备多种实用功能如语音导航、实时翻译等。 - 豆包大模型作为公开产品,任何合规客户均可购买并应用到自己的设备中。
- AI日报】EP.165 6月14 阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线
**AI日报** 1. **阿里开源3D数字人项目MNN TaoAvatar** - 阿里巴巴集团开源了在手机上运行的3D数字人应用MNN TaoAvatar,支持虚拟客服和虚拟主播。 - 该应用可在手机上以90FPS流畅运行,结合3D高斯溅射技术实现毫米级精细控制。 - 开源生态提供丰富API和工具,支持多模态输入,降低开发门槛。 - 详情链接: [https://github.com/alibaba/MNN](https://github.com/alibaba/MNN) 2. **MiniMax Agent上线** - MiniMax官方宣布其AI生产力工具MiniMax Agent迎来重大升级,新增智能图像搜索、稳定的图像生成、多语言支持及多样化文档导出功能。 - 新增智能图像搜索与生成功能,适用于设计、营销和内容创作。 - 引入反思模式,增强长任务处理能力,特别适合需要深度推理的场景。 - 新增中文、日文、韩文支持,优化Python绘图功能。 - 详情链接: [https://agent.minimax.io](https://agent.minimax.io) 3. **罗永浩数字人直播即将首秀百度电商** - 知名电商主播罗永浩宣布其数字人形象将在百度电商平台开启直播带货,首次尝试数字人直播。 - 百度电商平台已有超10万数字人主播,数字人直播可使商家运营成本下降超80%,GMV平均提升62%。 - 此次尝试可能推动直播电商行业向智能化、高效率、低成本方向发展。 4. **OpenAI员工套现潮达30亿美元** - 自2021年以来,OpenAI员工通过多次股权出售累计套现近30亿美元,软银成为最大买家。 - 员工股权变现频率高,但可能加速离职。激烈的AI人才竞争中,OpenAI面临巨大压力,如何留住核心团队是关键挑战。 5. **OpenAI重磅升级ChatGPT Projects** - ChatGPT Projects新增深度研究和语音模式,支持内外部数据检索,提升移动办公便捷性。 - 深度研究支持复杂场景,语音模式集成提高实时协作需求。 - 移动端增强支持多模态交互,扩展使用场景。 - 详情链接: [https://help.openai.com/en/articles/10169521-using-projects-in-chatgpt](https://help.openai.com/en/articles/10169521-using-projects-in-chatgpt) 6. **Meta新型模型助力机器人在未知环境中实现物体操控** - Meta推出的V-JEPA2模型通过观察视频和物理交互构建世界模型,提升机器人在动态环境中的操作能力。 - 支持零-shot机器人规划,广泛应用于物流和制造业。 - 详情链接: [https://ai.meta.com/vjepa/](https://ai.meta.com/vjepa/) 7. **AMD与OpenAI联合发布强大AI芯片** - AMD与OpenAI推出了最新的Instinct MI400和MI350系列AI芯片,MI350系列显著提升了AI计算性能,MI400系列则面向下一代旗舰AI计算需求。 - MI350系列GPU提供卓越的AI计算性能,内存带宽高达8TB/s,推理性能提升35倍。 - ROCm7平台整合多个顶级AI平台,提供超过3.5倍推理性能提升,助力开发者高效工作。 8. **Imagen4登陆Gemini** - Google旗下的Gemini平台通过集成最新一代的Imagen4图像生成模型,实现了从复杂细节到文本渲染的全面升级。 - 细节呈现卓越,支持聊天中直接生成和调整图像,适用于设计、营销及教育等领域。 - 详情链接: [https://research.google/blog/zooming-in-efficient-regional-environmental-risk-assessment-with-generative-ai/](https://research.google/blog/zooming-in-efficient-regional-environmental-risk-assessment-with-generative-ai/) 9. **谷歌AI助力气候预测** - 谷歌研究人员结合物理建模与生成AI的新方法,通过R2D2模型将全球气候预测提升至约10公里的分辨率,大幅降低计算成本并提高预测准确性。 - R2D2模型结合物理与AI优势,提升预测准确性且能高效推广至未见过的情景。 - 详情链接: [https://research.google/blog/zooming-in-efficient-regional-environmental-risk-assessment-with-generative-ai/](https://research.google/blog/zooming-in-efficient-regional-environmental-risk-assessment-with-generative-ai/) 10. **Gartner预测生成AI应用将实现50%的交付时间缩减** - Gartner预测到2028年,80%的生成AI商业应用将在现有数据管理平台上开发,交付时间缩短50%。 - 检索增强生成(RAG)将成为开发生成AI应用的重要基础,提供灵活性和可解释性。 - 企业应评估现有平台的转型潜力,整合RAG技术并利用元数据保护安全。
- AI日报】EP.164 6月12 夸克发布首个高考志愿大模型;Trae月活跃用户破100万
### AI日报 1. **夸克发布首个高考志愿大模型** - 夸克APP推出高考志愿大模型及专业高考知识库,帮助考生科学规划志愿。 - 提供智能选志愿功能,支持多种梯队填报策略。 - 定制专属志愿报告,包含策略、志愿表及院校专业推荐说明。 2. **Manus推出免费无限聊天模式** - Manus AI推出免费聊天模式,支持即时问答和复杂任务。 - 已吸引超200万用户,计划拓展日本、中东市场,与阿里巴巴深化合作。 - 免费策略短期吸引用户,长期依赖订阅收入,盈利模式仍需探索。 3. **Trae月活跃用户突破100万** - 字节跳动开发的AI原生IDE Trae在短短几个月内取得了显著成就。 - 月活跃用户突破百万,累计帮助开发者交付超过60亿行代码。 - 国际版支持多模态功能,代码生成准确率达91%,开发效率提升400%。 4. **迪士尼和环球起诉Midjourney** - 迪士尼和环球影业指控Midjourney未经许可使用其影视内容训练AI模型。 - Midjourney被控无视停止侵权要求,继续侵犯知识产权。 - 诉讼可能影响生成式AI行业发展,平衡创新与版权保护成为重要议题。 5. **维基百科暂停AI摘要试点实验** - 维基百科因编辑反对暂停使用AI生成文章摘要的实验。 - 编辑担心AI生成摘要可能导致信息误导,引发信任危机。 - 尽管暂停,维基百科仍对AI技术在提升信息可及性方面抱有期待。 6. **360集团发布“纳米AI超级搜索智能体”** - 360集团推出内置80多款大模型的‘纳米AI超级搜索智能体’。 - 能精准解析用户意图,生成多样化搜索结果,并具备强大的信息整合能力。 - 支持跨平台搜索分析,生成详尽调研报告。 7. **PartCrafter颠覆建模流程** - PartCrafter项目利用单张RGB图像生成高精度、结构化的3D模型。 - 展示了AI在3D生成领域的巨大潜力,支持灵活部件编辑。 - 为游戏、VR、工业设计等领域带来全新可能。 8. **MCP图像下载服务Image Downloader** - MCP图像下载器是一款强大的工具,支持单张与批量下载、实时进度跟踪。 - 内置多种图片处理功能,包括格式转换、尺寸调整和压缩。 - 详情链接: [https://github.com/cced3000/mcp-image-downloader](https://github.com/cced3000/mcp-image-downloader) 9. **Meta发布全新AI视频编辑工具** - Meta推出了基于先进Movie Gen AI技术的全新短视频编辑功能。 - 用户可以通过更换服装、场景和风格等元素,利用超过50种预设效果。 - 自定义提示词功能即将上线,进一步提升视频编辑的灵活性和创造力。 10. **阿里工程师取消春节假期追赶DeepSeek** - 阿里巴巴工程师因中国AI公司DeepSeek的技术突破,取消春节假期全力投入AI研发。 - 推出通义系列模型,竞争力强,体现阿里巴巴快速响应能力。 - 未来三年投入超530亿美元,加速AI及AGI领域布局,提升全球竞争力。 11. **火山引擎发布智能解决方案平台PromptPilot** - PromptPilot是一个面向大模型的智能解决方案平台,致力于解决‘如何有效提问’这一关键难题。 - 提供从Prompt生成到优化的全生命周期解决方案,通过四大创新功能突破应用边界。 - 详情链接: [https://promptpilot.volcengine.com](https://promptpilot.volcengine.com) 12. **OpenAI与沙特和印度投资者探讨400亿美元融资事宜** - OpenAI正与沙特阿拉伯公共投资基金(PIF)、印度信实集团等洽谈高达400亿美元的融资事宜。 - 发布新一代推理模型o3-pro,并调整了API定价策略。 - 计划到2027年再融资170亿美元,显示其扩张意图和市场雄心。
- 【AI日报】EP.164 6月12 豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%
### AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线 1. **火山引擎正式发布豆包大模型1.6和Seedance1.0pro视频生成模型** - 豆包大模型1.6在功能和性能上均有显著提升,采用统一定价模式,大幅降低使用成本。 - Seedance1.0pro在文生视频和图生视频领域表现出色,提供“边想边搜”和“DeepResearch”功能,大幅提升工作效率。 2. **OpenAI推出o3-pro AI模型** - o3-pro提供高可靠性与精准度,适合复杂问题处理,但响应速度较慢且成本较高。 - 支持多种工具功能,如网页搜索、文件分析、视觉输入推理等,但尚不支持图像生成。 3. **Figma官方MCP重磅上线** - Figma推出了Dev Mode MCP服务器的Beta版,通过标准化协议将设计数据直接传递给AI编码工具,显著提升设计到代码的转换效率与准确性。 - MCP作为‘USB-C接口’,提高代码输出保真度和一致性,促进设计与开发深度融合。 - 详情链接: [Figma Blog](https://www.figma.com/blog/introducing-figmas-dev-mode-mcp-server/) 4. **Krea1发布,免费试用解锁无限创意** - Krea1通过技术创新实现高度逼真的纹理和多样化风格表达,适用于各种创作需求。 - 支持风格参考和定制化训练,用户可上传样本或数据集生成符合特定审美的图像。 - 提供免费测试版,降低技术门槛,让设计师和普通用户轻松体验AI艺术创作。 5. **火山引擎豆包日调用量突破16.4万亿,市占率高达46.4%** - 截至2025年5月底,豆包大模型的日均tokens调用量达16.4万亿,较初期增长137倍。 - 火山引擎占据国内46.4%的大模型市场份额,位居榜首。 - 未来将加大研发投入,推动AI能力更广泛地融入企业业务。 6. **法国AI实验室Mistral发布全新推理模型Magistral** - Magistral推出推理模型系列,Small已开放下载,Medium处于预览阶段。 - 支持多语言,答题速度快,适用于多种企业应用场景。 - 详情链接: [Mistral AI News](https://mistral.ai/news/magistral) 7. **苹果新系统引入ChatGPT,图乐园支持吉卜力风格AI生图** - 苹果在iOS26、iPadOS26和macOS26系统中升级了图乐园功能,整合了ChatGPT的图像生成能力,新增多种艺术风格如吉卜力动漫风格。 - 用户可通过文本描述或照片生成图像,但生成速度较慢且有内容限制,免费用户生成次数有限。 8. **OpenAI放大招!o3价格暴降80%,o3-pro强势上线** - o3模型价格下调80%,现价格与GPT-4相当甚至更低,大幅降低开发者成本。 - 新推出的o3-pro模型针对高可靠性需求,定价合理,已在ChatGPT Pro和Team用户中上线。 - 详情链接: [OpenAI Platform](https://platform.openai.com/docs/models/o3) 9. **Hugging Face发布开放权重模型贡献榜:中国团队Qwen与DeepSeek跻身TOP15** - 阿里云支持的Qwen团队凭借Qwen3系列模型在指令跟随和代码生成任务中的卓越表现,位列开源大语言模型前列。 - DeepSeek以高性能低成本的R1系列模型闻名,并在特定领域展现竞争优势。 - 详情链接: [Hugging Face Model Release Heatmap](https://huggingface.co/spaces/cfahlgren1/model-release-heatmap) 10. **阿里开源MaskSearch!AI学会主动搜索+多步推理,复杂问题精准破解** - MaskSearch通过检索增强掩码预测(RAMP)和强化学习技术,显著提升AI在复杂问题解决中的表现。 - DAPO算法结合格式奖励与回答奖励,优化AI生成答案的准确性和逻辑性。 - 完全开源,支持多种模型,推动智能搜索与推理技术在教育、医疗等领域的广泛应用。 - 详情链接: [GitHub MaskSearch](https://github.com/Alibaba-NLP/MaskSearch)
- 【AI日报】EP.163 6月11 双人版
**AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能** 1. **美团王兴详解AI布局:No Code平台免费开放,1680个应用已上线** - 美团创始人王兴在北京美团总部的股东大会上系统阐述了公司的AI战略布局。 - No Code平台让非技术人员也能编程,目前已有1680个应用上线且免费使用。 - AI技术在提升外卖配送效率方面已见成效。 - 网址:[https://nocode.cn/](https://nocode.cn/) 2. **豆包App“一句话P图”功能全新升级** - 豆包App通过SeedEdit3.0模型升级,推出“一句话P图”功能,支持文字添加、风格迁移和局部调整。 - 新增质感风格迁移功能,提供分局部图像编辑增强。 3. **苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能** - Xcode 26新增了AI功能如ChatGPT集成,支持语音控制Swift代码编写。 - 引入Foundation Models框架,简化AI功能集成到应用中的过程。 4. **苹果WWDC2025:iOS 26升级视觉智能,AI助力屏幕内容识别** - iOS 26推出视觉智能功能,通过AI助手ChatGPT实现对屏幕内容的精准识别与操作。 - 支持与ChatGPT等AI助手交互,自动提取事件信息并建议添加至日历。 5. **科大讯飞董事长刘庆峰揭晓:讯飞星火X1升级版即将来袭,性能更强大** - 讯飞星火X1升级版将于7月发布,优化智能应用能力。 - 在高考科目测试中表现出色,涉及数学、逻辑推理、文本生成等领域。 - 参数少一倍,但性能媲美顶级AI模型如OpenAI o1和DeepSeek R1。 6. **比亚迪接入阿里通义大模型,智能座舱再升级** - 比亚迪智能座舱接入阿里通义大模型,用户可一句话完成在线服务。 - 推出“AI壁纸”功能,根据语音指令生成高质量壁纸并自动调节色调。 - 上线“心理伴聊”功能提供情感支持。 7. **DeepSeek R1-0528在OpenRouter支持本地工具调用** - DeepSeek R1-0528模型更新后支持OpenRouter上的本地工具调用。 - 性能在多个基准测试中表现优异,推出轻量级版本DeepSeek-R1-0528-Qwen3-8B。 8. **支持MCP!开源智能体开发框架Rowboat:打造你的智能助手只需几分钟** - Rowboat是一个开源多智能体开发框架,支持MCP和OpenAI Agent SDK,GitHub星标超2000。 - 框架包含Agent、Playground和Co-pilot模块,支持多智能体协作。 - 详情链接:[https://github.com/rowboatlabs/rowboat?tab=readme-ov-file](https://github.com/rowboatlabs/rowboat?tab=readme-ov-file) 9. **Grok AI深度融入X算法:小创作者迎来春天** - X平台推荐算法整合Grok AI技术,优化内容体验,为小型账户提供更多曝光机会。 - Grok AI自动调整评论排序,优先展示高价值和相关性评论。 10. **小模型逆袭!港科大快手联手打造进化搜索技术,让AI作画告别大力出奇迹** - EvoSearch技术通过引入进化论思想,使小参数模型在生成高质量图片和视频方面超越大模型。 - 详情链接:[https://tinnerhrhe.github.io/evosearch/](https://tinnerhrhe.github.io/evosearch/) 11. **硅基流动完成数亿元融资,用户数突破600万** - 硅基流动完成数亿元A轮融资,推出高性能推理引擎和一站式异构算力纳管平台。 - 用户数突破600万,成为国内增长最快的第三方大模型云服务平台。 12. **英伟达与港大携手推出新型视觉注意力机制,提升高分辨率生成速度超84倍** - 香港大学与英伟达合作开发的广义空间传播网络(GSPN)大幅提升高分辨率图像生成速度。 - 详情链接:[https://whj363636.github.io/GSPN/](https://whj363636.github.io/GSPN/)
- 【AI日报】EP.163 6月11 美团No Code平台免费开放;豆包App升级“一句话P图”功能
**AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能** 1. **美团王兴详解AI布局:No Code平台免费开放,1680个应用已上线** - 美团创始人王兴在北京美团总部的股东大会上系统阐述了公司的AI战略布局。 - No Code平台让非技术人员也能编程,目前已有1680个应用上线且免费使用。 - AI技术在提升外卖配送效率方面已见成效。 - 网址:[https://nocode.cn/](https://nocode.cn/) 2. **豆包App“一句话P图”功能全新升级** - 豆包App通过SeedEdit3.0模型升级,推出“一句话P图”功能,支持文字添加、风格迁移和局部调整。 - 新增质感风格迁移功能,提供分局部图像编辑增强。 3. **苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能** - Xcode 26新增了AI功能如ChatGPT集成,支持语音控制Swift代码编写。 - 引入Foundation Models框架,简化AI功能集成到应用中的过程。 4. **苹果WWDC2025:iOS 26升级视觉智能,AI助力屏幕内容识别** - iOS 26推出视觉智能功能,通过AI助手ChatGPT实现对屏幕内容的精准识别与操作。 - 支持与ChatGPT等AI助手交互,自动提取事件信息并建议添加至日历。 5. **科大讯飞董事长刘庆峰揭晓:讯飞星火X1升级版即将来袭,性能更强大** - 讯飞星火X1升级版将于7月发布,优化智能应用能力。 - 在高考科目测试中表现出色,涉及数学、逻辑推理、文本生成等领域。 - 参数少一倍,但性能媲美顶级AI模型如OpenAI o1和DeepSeek R1。 6. **比亚迪接入阿里通义大模型,智能座舱再升级** - 比亚迪智能座舱接入阿里通义大模型,用户可一句话完成在线服务。 - 推出“AI壁纸”功能,根据语音指令生成高质量壁纸并自动调节色调。 - 上线“心理伴聊”功能提供情感支持。 7. **DeepSeek R1-0528在OpenRouter支持本地工具调用** - DeepSeek R1-0528模型更新后支持OpenRouter上的本地工具调用。 - 性能在多个基准测试中表现优异,推出轻量级版本DeepSeek-R1-0528-Qwen3-8B。 8. **支持MCP!开源智能体开发框架Rowboat:打造你的智能助手只需几分钟** - Rowboat是一个开源多智能体开发框架,支持MCP和OpenAI Agent SDK,GitHub星标超2000。 - 框架包含Agent、Playground和Co-pilot模块,支持多智能体协作。 - 详情链接:[https://github.com/rowboatlabs/rowboat?tab=readme-ov-file](https://github.com/rowboatlabs/rowboat?tab=readme-ov-file) 9. **Grok AI深度融入X算法:小创作者迎来春天** - X平台推荐算法整合Grok AI技术,优化内容体验,为小型账户提供更多曝光机会。 - Grok AI自动调整评论排序,优先展示高价值和相关性评论。 10. **小模型逆袭!港科大快手联手打造进化搜索技术,让AI作画告别大力出奇迹** - EvoSearch技术通过引入进化论思想,使小参数模型在生成高质量图片和视频方面超越大模型。 - 详情链接:[https://tinnerhrhe.github.io/evosearch/](https://tinnerhrhe.github.io/evosearch/) 11. **硅基流动完成数亿元融资,用户数突破600万** - 硅基流动完成数亿元A轮融资,推出高性能推理引擎和一站式异构算力纳管平台。 - 用户数突破600万,成为国内增长最快的第三方大模型云服务平台。 12. **英伟达与港大携手推出新型视觉注意力机制,提升高分辨率生成速度超84倍** - 香港大学与英伟达合作开发的广义空间传播网络(GSPN)大幅提升高分辨率图像生成速度。 - 详情链接:[https://whj363636.github.io/GSPN/](https://whj363636.github.io/GSPN/)
- 【AI日报】EP.162 6月10 通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线
**AI日报** 1. **通义千问3大模型全球爆火** - 开源一个月内,全球下载量突破1250万次。 - Hugging Face平台上衍生模型数量超过13万个,跃居全球第一。 2. **即梦图片3.0智能参考全量上线** - 一键生成影视级海报,降低设计门槛。 - 支持多场景应用,保留细节精准,成本低,效率高。 3. **智谱AI企业级超级助手Agent CoCo正式上线** - 以交付为导向,全流程辅助工作。 - 引入独特记忆机制,提供个性化服务,主动跟踪行业动态。 - 无缝嵌入企业系统,融合已有资源,打造专属智能助手。 - 详情链接: [https://aiworker.aminer.cn/ai_worker/verification?utm_source=zhipuai_social&utm_medium=wechat&utm_campaign=p250609](https://aiworker.aminer.cn/ai_worker/verification?utm_source=zhipuai_social&utm_medium=wechat&utm_campaign=p250609) 4. **百度推出金融行业大模型** - 百度智能云发布千帆慧金大模型,专为金融行业设计。 - 与65%的央企合作,证明技术受到市场广泛认可。 - 智能体成为AI竞争新焦点,助力企业数字化转型。 5. **小红书发布首个开源大模型dots.llm1** - 具有1420亿参数的专家混合模型。 - 使用11.2万亿非合成高质量数据,在中文测试中表现优异。 - 详情链接: [https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main](https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main) 6. **Hugging Face LeRobot重磅开源** - 提供高效、易用的机器人AI开发平台。 - 统一接口适配多款硬件,内置海量预训练模型。 - 智能评估与高效训练功能,加速开发进程。 - 详情链接: [https://github.com/huggingface/lerobot](https://github.com/huggingface/lerobot) 7. **ChatGPT语音功能升级** - 语音更自然流畅,情感表达更丰富。 - 新增实时翻译功能,支持多语言对话。 - 存在音频质量波动和无故生成奇怪声音的问题。 8. **谷歌Gemini应用月下载量超越ChatGPT** - 全球Android下载量每周达到600万以上。 - 用户活跃度仅为4.9%,远低于ChatGPT的42.52%。 - 需提升用户日常活跃度,确保市场竞争力。 9. **文档解析LLM MonkeyOCR震撼登场** - 以3B参数量在英文文档解析任务中表现出色。 - 解析速度达0.84页/秒,采用创新的‘结构-识别-关系’三元组范式。 - 详情链接: [https://arxiv.org/abs/2506.05218](https://arxiv.org/abs/2506.05218) 10. **Google Veo3 FAST/TURBO模式上线** - 五倍性价比优势,大幅降低视频生成成本。 - 支持原生音频生成,实现音画同步。 - 适合从社交媒体到专业领域的多样化需求。 11. **Google AI Studio政策变动** - 停止向免费用户提供Gemini2.5Pro系列模型的调用权限。 - 当前免费用户仍能使用Gemini2.0系列模型,但性能有限。
- 【AI日报】EP.161 6月7 通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0
【AI日报】通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型 1、**通义千问正式发布Qwen3-Embedding系列模型** - Qwen3-Embedding系列基于Qwen3基础模型,提供从0.6B到8B参数规模的三种配置。 - 支持超过100种语言,具备强大的多语言、跨语言及代码检索能力。 - 在MTEB多语言榜单中得分70.58,性能超越众多商业API服务。 详情链接: https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48 2、**字节跳动发布图像编辑模型SeedEdit 3.0细节保持能力进一步提升** - SeedEdit 3.0通过多样化数据融合和专用奖励模型,大幅提升图像编辑保持效果。 - 支持4K分辨率编辑,处理复杂场景如人像、光影变换时展现强大细节处理能力。 - 推理加速至10秒级,23类编辑任务评测领先,可用率提升至56.1%。 详情链接: https://seed.bytedance.com/seededit 3、**地表最强AI语音来了! Eleven v3 Alpha版震撼发布** - Eleven v3 Alpha版引入音频标签,可精确控制情感、语速并添加音效,使语音更真实且富有表现力。 - 支持70多种语言,具备多角色对话能力,适用于影视配音、教育及客户服务等多场景。 - 技术升级后,文本理解与对话生成能力显著提升,自动标签功能简化创作流程。 4、**Anthropic发布专为国家安全定制的AI模型Claude Gov** - Claude Gov模型套件专为国家安全机构设计,提升涉密材料处理能力。 - 产品获亚马逊和谷歌支持,仅限最高安全许可机构使用。 - Anthropic面临Reddit提起的法律诉讼,指控其未经授权使用用户数据训练模型。 5、**可灵AI月度付费金额连续两个月超1亿元,用户规模破2200万** - 可灵AI年化收入运行率突破1亿美元,仅10个月达成。 - P端付费订阅会员贡献近70%营业收入。 - 全球用户规模突破2200万,为企业客户提供API服务。 6、**Meta发布Aria Gen2技术细节:四摄像头加持,续航8小时挑战苹果Vision Pro** - Aria Gen2研究眼镜在硬件设计、传感器技术和AI处理能力等方面全面升级。 - 四摄像头加持,全局快门传感器解决运动失真问题,深度测量精度显著提高。 - 新增接触式麦克风,鼻托内置结构声传导技术,嘈杂环境下仍能清晰拾音。 - AI处理能力大幅增强,支持六自由度位置追踪、眼动追踪及3D手部追踪。 7、**爱诗科技PixVerse国内版“拍我AI”正式上线** - 拍我AI通过AI特效和WoW发射器助力用户轻松创作个性化视频内容。 - 国内版支持V4.5版本,提供便捷的视频生成解决方案,满足多种需求。 - 拍我AI开放平台与多家头部企业合作,为企业用户提供高效视频生成工具。 详情链接: https://pai.video 8、**富国银行大胆预测:2030年ChatGPT广告收入将达千亿美元** - 到2030年,ChatGPT预计占据全球搜索广告市场30%份额,年收入接近1000亿美元。 - 目前,谷歌在搜索广告领域占据超90%市场份额,但预计到2030年将降至约60%。 - ChatGPT的商业化进程可能受到与手机制造商合作及反垄断裁决的推动。 9、**王自如感谢董明珠雷军将以AI测评UP主身份二次创业** - 6月6日,王自如的B站账号复更并更名为‘王自如AI’,开启AI测评UP主的二次创业。 - 他曾在格力重塑销售体系,得益于董明珠和雷军的鼓励,怀揣理想继续前行。 - 选择AI领域创业是因为看到其巨大潜力,认为能快速获得回报。 10、**智源发布RoboOS2.0与RoboBrain2.0:首个支持MCP机制的机器人** - RoboOS2.0是首个支持MCP机制的机器人操作系统,降低开发门槛并提升多机器人协作能力。 - RoboBrain2.0任务规划准确率提升74%,在空间推理与智能调度方面表现卓越。 - 已与多家企业合作,共同构建开放、协同的智能机器人生态体系。 11、**谷歌重磅新作! Portraits让你与虚拟专家对话** - Portraits是一款基于AI技术的创新产品,用户能与虚拟专家实时互动学习沟通与领导力等技能。 - 沉浸式对话学习体验,AI驱动个性化学习,动态调整内容确保针对性。 - 应用场景广泛,从职场到教育,助力个人与职业发展。 12、**OpenAudio发布开源TTS模型S1-Mini: 0.5B参数打造超自然AI语音** - S1-Mini基于S1模型的轻量化版本,参数仅0.5B,却具备高表现力和多语言支持。 - 开源后大幅降低开发门槛,为教育、娱乐等领域带来创新可能。 - 支持14种语言与50+情感表达,性能媲美行业巨头。 详情链接: https://huggingface.co/fishaudio/openaudio-s1-mini 13、**AI驱动本地视频编辑工具Diffusion Studio Pro** - Diffusion Studio Pro结合了CapCut和Cursor的优势,提供多模态AI赋能的非线性编辑体验。 - 内置智能代理侧边栏实现自动化工作流,显著提升创作效率。 - 本地优先设计保护隐私,免费无限层级模式吸引独立创作者和小型团队。 14、**智源研究院推出Emu3等‘悟界’系列大模型** - ‘悟界’系列大模型包括Emu3、见微Brainμ、RoboOS2.0、RoboBrain2.0和OpenComplex2。 - Emu3作为原生多模态世界模型,整合视觉、听觉和触觉数据,提升机器对世界的理解能力。 - 见微Brainμ结合神经科学成果,为机器智能发展提供生物学支持。 - RoboOS2.0和RoboBrain2.0推动具身智能协作框架,加速机器人技术进步。 15、**Luma Labs发布Modify Video: AI视频后期一键改风格、换场景** - Modify Video工具利用AI技术简化视频后期制作,实现风格重塑、场景替换等功能。 - 通过文本改变视频艺术风格,将背景换为新的场景,增强视觉效果。 - 调整人物外观和表演,无需重新拍摄。