

- 【AI日报】EP.162 6月10 通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线
**AI日报** 1. **通义千问3大模型全球爆火** - 开源一个月内,全球下载量突破1250万次。 - Hugging Face平台上衍生模型数量超过13万个,跃居全球第一。 2. **即梦图片3.0智能参考全量上线** - 一键生成影视级海报,降低设计门槛。 - 支持多场景应用,保留细节精准,成本低,效率高。 3. **智谱AI企业级超级助手Agent CoCo正式上线** - 以交付为导向,全流程辅助工作。 - 引入独特记忆机制,提供个性化服务,主动跟踪行业动态。 - 无缝嵌入企业系统,融合已有资源,打造专属智能助手。 - 详情链接: [https://aiworker.aminer.cn/ai_worker/verification?utm_source=zhipuai_social&utm_medium=wechat&utm_campaign=p250609](https://aiworker.aminer.cn/ai_worker/verification?utm_source=zhipuai_social&utm_medium=wechat&utm_campaign=p250609) 4. **百度推出金融行业大模型** - 百度智能云发布千帆慧金大模型,专为金融行业设计。 - 与65%的央企合作,证明技术受到市场广泛认可。 - 智能体成为AI竞争新焦点,助力企业数字化转型。 5. **小红书发布首个开源大模型dots.llm1** - 具有1420亿参数的专家混合模型。 - 使用11.2万亿非合成高质量数据,在中文测试中表现优异。 - 详情链接: [https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main](https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main) 6. **Hugging Face LeRobot重磅开源** - 提供高效、易用的机器人AI开发平台。 - 统一接口适配多款硬件,内置海量预训练模型。 - 智能评估与高效训练功能,加速开发进程。 - 详情链接: [https://github.com/huggingface/lerobot](https://github.com/huggingface/lerobot) 7. **ChatGPT语音功能升级** - 语音更自然流畅,情感表达更丰富。 - 新增实时翻译功能,支持多语言对话。 - 存在音频质量波动和无故生成奇怪声音的问题。 8. **谷歌Gemini应用月下载量超越ChatGPT** - 全球Android下载量每周达到600万以上。 - 用户活跃度仅为4.9%,远低于ChatGPT的42.52%。 - 需提升用户日常活跃度,确保市场竞争力。 9. **文档解析LLM MonkeyOCR震撼登场** - 以3B参数量在英文文档解析任务中表现出色。 - 解析速度达0.84页/秒,采用创新的‘结构-识别-关系’三元组范式。 - 详情链接: [https://arxiv.org/abs/2506.05218](https://arxiv.org/abs/2506.05218) 10. **Google Veo3 FAST/TURBO模式上线** - 五倍性价比优势,大幅降低视频生成成本。 - 支持原生音频生成,实现音画同步。 - 适合从社交媒体到专业领域的多样化需求。 11. **Google AI Studio政策变动** - 停止向免费用户提供Gemini2.5Pro系列模型的调用权限。 - 当前免费用户仍能使用Gemini2.0系列模型,但性能有限。
- 【AI日报】EP.161 6月7 通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0
【AI日报】通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型 1、**通义千问正式发布Qwen3-Embedding系列模型** - Qwen3-Embedding系列基于Qwen3基础模型,提供从0.6B到8B参数规模的三种配置。 - 支持超过100种语言,具备强大的多语言、跨语言及代码检索能力。 - 在MTEB多语言榜单中得分70.58,性能超越众多商业API服务。 详情链接: https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48 2、**字节跳动发布图像编辑模型SeedEdit 3.0细节保持能力进一步提升** - SeedEdit 3.0通过多样化数据融合和专用奖励模型,大幅提升图像编辑保持效果。 - 支持4K分辨率编辑,处理复杂场景如人像、光影变换时展现强大细节处理能力。 - 推理加速至10秒级,23类编辑任务评测领先,可用率提升至56.1%。 详情链接: https://seed.bytedance.com/seededit 3、**地表最强AI语音来了! Eleven v3 Alpha版震撼发布** - Eleven v3 Alpha版引入音频标签,可精确控制情感、语速并添加音效,使语音更真实且富有表现力。 - 支持70多种语言,具备多角色对话能力,适用于影视配音、教育及客户服务等多场景。 - 技术升级后,文本理解与对话生成能力显著提升,自动标签功能简化创作流程。 4、**Anthropic发布专为国家安全定制的AI模型Claude Gov** - Claude Gov模型套件专为国家安全机构设计,提升涉密材料处理能力。 - 产品获亚马逊和谷歌支持,仅限最高安全许可机构使用。 - Anthropic面临Reddit提起的法律诉讼,指控其未经授权使用用户数据训练模型。 5、**可灵AI月度付费金额连续两个月超1亿元,用户规模破2200万** - 可灵AI年化收入运行率突破1亿美元,仅10个月达成。 - P端付费订阅会员贡献近70%营业收入。 - 全球用户规模突破2200万,为企业客户提供API服务。 6、**Meta发布Aria Gen2技术细节:四摄像头加持,续航8小时挑战苹果Vision Pro** - Aria Gen2研究眼镜在硬件设计、传感器技术和AI处理能力等方面全面升级。 - 四摄像头加持,全局快门传感器解决运动失真问题,深度测量精度显著提高。 - 新增接触式麦克风,鼻托内置结构声传导技术,嘈杂环境下仍能清晰拾音。 - AI处理能力大幅增强,支持六自由度位置追踪、眼动追踪及3D手部追踪。 7、**爱诗科技PixVerse国内版“拍我AI”正式上线** - 拍我AI通过AI特效和WoW发射器助力用户轻松创作个性化视频内容。 - 国内版支持V4.5版本,提供便捷的视频生成解决方案,满足多种需求。 - 拍我AI开放平台与多家头部企业合作,为企业用户提供高效视频生成工具。 详情链接: https://pai.video 8、**富国银行大胆预测:2030年ChatGPT广告收入将达千亿美元** - 到2030年,ChatGPT预计占据全球搜索广告市场30%份额,年收入接近1000亿美元。 - 目前,谷歌在搜索广告领域占据超90%市场份额,但预计到2030年将降至约60%。 - ChatGPT的商业化进程可能受到与手机制造商合作及反垄断裁决的推动。 9、**王自如感谢董明珠雷军将以AI测评UP主身份二次创业** - 6月6日,王自如的B站账号复更并更名为‘王自如AI’,开启AI测评UP主的二次创业。 - 他曾在格力重塑销售体系,得益于董明珠和雷军的鼓励,怀揣理想继续前行。 - 选择AI领域创业是因为看到其巨大潜力,认为能快速获得回报。 10、**智源发布RoboOS2.0与RoboBrain2.0:首个支持MCP机制的机器人** - RoboOS2.0是首个支持MCP机制的机器人操作系统,降低开发门槛并提升多机器人协作能力。 - RoboBrain2.0任务规划准确率提升74%,在空间推理与智能调度方面表现卓越。 - 已与多家企业合作,共同构建开放、协同的智能机器人生态体系。 11、**谷歌重磅新作! Portraits让你与虚拟专家对话** - Portraits是一款基于AI技术的创新产品,用户能与虚拟专家实时互动学习沟通与领导力等技能。 - 沉浸式对话学习体验,AI驱动个性化学习,动态调整内容确保针对性。 - 应用场景广泛,从职场到教育,助力个人与职业发展。 12、**OpenAudio发布开源TTS模型S1-Mini: 0.5B参数打造超自然AI语音** - S1-Mini基于S1模型的轻量化版本,参数仅0.5B,却具备高表现力和多语言支持。 - 开源后大幅降低开发门槛,为教育、娱乐等领域带来创新可能。 - 支持14种语言与50+情感表达,性能媲美行业巨头。 详情链接: https://huggingface.co/fishaudio/openaudio-s1-mini 13、**AI驱动本地视频编辑工具Diffusion Studio Pro** - Diffusion Studio Pro结合了CapCut和Cursor的优势,提供多模态AI赋能的非线性编辑体验。 - 内置智能代理侧边栏实现自动化工作流,显著提升创作效率。 - 本地优先设计保护隐私,免费无限层级模式吸引独立创作者和小型团队。 14、**智源研究院推出Emu3等‘悟界’系列大模型** - ‘悟界’系列大模型包括Emu3、见微Brainμ、RoboOS2.0、RoboBrain2.0和OpenComplex2。 - Emu3作为原生多模态世界模型,整合视觉、听觉和触觉数据,提升机器对世界的理解能力。 - 见微Brainμ结合神经科学成果,为机器智能发展提供生物学支持。 - RoboOS2.0和RoboBrain2.0推动具身智能协作框架,加速机器人技术进步。 15、**Luma Labs发布Modify Video: AI视频后期一键改风格、换场景** - Modify Video工具利用AI技术简化视频后期制作,实现风格重塑、场景替换等功能。 - 通过文本改变视频艺术风格,将背景换为新的场景,增强视觉效果。 - 调整人物外观和表演,无需重新拍摄。
- 【AI日报】EP.160 6月6 ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布
### AI日报新闻提要 1. **ChatGPT推出MCP支持与会议记录功能** - 支持Model Context Protocol (MCP),实现私域知识的智能检索与分析。 - 新增会议记录模式,自动转录会议内容并生成关键要点和行动计划。 - 与微软Azure合作,增强企业场景中的安全性和可扩展性。 2. **Cursor 1.0正式发布** - BugBot自动化代码审查与修复,减少手动审查时间,提升团队协作效率。 - Background Agent提供流畅远程编码体验,优化多设备开发一致性。 - 新增Jupyter支持与Memories功能,助力数据科学与项目管理。 - 详情链接: [https://www.cursor.com/changelog](https://www.cursor.com/changelog) 3. **Midjourney视频功能即将上线** - 初期仅支持图像到视频转换,价格亲民,年度订阅用户优先体验。 - 服务器扩容加速,支持视频生成与模型优化,确保流畅用户体验。 - 风格引用功能升级,提升准确性并新增随机风格生成,提供更多创意选择。 4. **秘塔AI搜索“今天学点啥”新增PPT导出功能** - 用户可在视频讲解页面点击‘导出PPT’按钮下载包含图文、语音和逐字稿的完整PPT。 - 平台因算力限制,导出功能将在前三天免费,后续需消耗计算额度,注册用户有初始赠送额度。 - 功能上线源于用户反馈,体现了平台对用户需求的重视与快速响应能力。 5. **Manus推出‘文生视频’功能** - Manus发布‘文生视频’功能,支持Basic、Plus和Pro会员抢先体验。 - 最高Pro会员费用约1431元人民币。 - 推动AI视频创作普及,为内容创作者提供高效工具,加速行业创新与发展。 6. **法国AI巨头Mistral推出企业编码助手** - 提供本地部署和深度定制能力,确保代码安全不离开公司服务器。 - 通过垂直集成产品解决企业采用AI编码助手的关键障碍。 - 强大的开源Devstral模型,性能优越且适合企业级数据隐私需求。 7. **英伟达发布Llama Nemotron Nano VL AI** - 参数仅8B但性能卓越,支持多页文档、表格、图表等复杂场景。 - OCRBench v2测试中登顶,展现高精度和泛化能力。 - 灵活部署,支持从云端到边缘设备,开源且兼容多种框架。 - 详情链接: [https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1](https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1) 8. **腾讯公益首次引入AI大模型** - 用户可通过“问AI”功能即时获取腾讯公益项目信息,增强参与感。 - 腾讯与清华大学合作推出AI通识公益课程,惠及7000余名学生。 - 借助AI技术,公益项目效率提升,未来创新路径拓宽。 9. **Firecrawl /search API发布** - 一键搜索与抓取: 通过一次API调用,无需手动解析复杂搜索结果,快速获取网页完整内容。 - 多格式输出: 支持Markdown、HTML、纯链接和截图,满足不同AI模型的数据需求。 - 社区驱动: 开源工具,GitHub获超10K Star,提供Python和Node.js SDK,降低开发门槛。 - 详情链接: [https://github.com/mendableai/firesearch](https://github.com/mendableai/firesearch) 10. **Bland TTS一键克隆任意人声** - 仅需一段短音频即可精准克隆任意人声,大幅降低技术门槛。 - 引入上下文学习,根据语义动态调整语气和情感,提升自然度。 - 支持音效生成,扩展至多维度声音创作,增强沉浸式体验。 - 详情链接: [https://bland.com/enterprise](https://bland.com/enterprise) 11. **Mary Meeker最新报告:AI训练成本逼近百亿美元,推理成本暴跌99%** - 训练成本指数级增长,形成头部玩家才能参与的军备竞赛,将大量中小型企业挤出赛道。 - 推理成本因硬件迭代雪崩式下降,推动AI应用大规模普及,降低开发者创新门槛。 - AI行业面临烧钱与构建技术壁垒的平衡挑战,网络效应成为可持续盈利的关键。 12. **Jaaz开源AI设计Agent** - Jaaz通过简单API配置实现批量图像生成,适合快速生成大量视觉内容。 - 当前版本API支持有限,但开源特性为未来扩展提供了可能。 - 未来可扩展为全能型创意平台,满足多样化需求。 - 详情链接: [https://github.com/11cafe/jaaz](https://github.com/11cafe/jaaz) 13. **《逆水寒》手游与可灵AI合作,上线“图生动图”玩法** - 玩家可轻松创作个性化动图,提升游戏趣味性。 - 支持双人互动,创造温馨有趣的亲密场景。 - 动图生成为付费服务,费用依品质与时长而定。
- 【AI日报】EP.159 6月5 ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型
**AI日报:ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型;Claude Pro升级重磅功能** 1. **OpenAI宣布免费向所有ChatGPT用户开放记忆功能** - OpenAI更新支持文档,宣布将记忆功能免费向所有ChatGPT用户开放,包括登录的免费用户,提升个性化对话体验。 - 记忆功能支持短期对话连续性,免费用户可体验基础版本。 - 付费用户可引用更久远对话记录,享受更高便捷性和深度互动。 - 用户可管理记忆设置,随时关闭或删除特定记忆内容,保护隐私。 2. **蚂蚁集团推出“AI健康管家”,4000万用户享受智能健康服务** - “AI健康管家”通过信通院医疗健康行业大模型可信评估,成为首批通过评估的产品之一。 - 已服务超4000万用户,60多位知名医生AI智能体入驻。 - 提供预约医生、健康评估、医疗报告解读等个性化服务。 3. **Anthropic开设一门关于使用MCP构建AI应用程序的免费课程** - Anthropic与DeepLearning.AI合作推出免费课程‘MCP: 使用模型上下文协议构建富上下文AI应用’。 - 课程涵盖MCP核心概念、架构及实践项目,帮助开发者快速上手并构建智能AI应用。 - MCP开源且支持多种工具和数据源集成,推动AI开发标准化与跨领域融合。 - [详情链接](https://www.deeplearning.ai/short-courses/mcp-build-rich-context-ai-apps-with-anthropic/) 4. **谷歌DeepMind推出新技术: 无3D模型也能生成真实运动视频** - DeepMind团队与布朗大学合作开发了‘力提示’技术,无需3D模型和物理引擎即可生成逼真的运动效果。 - 用户通过指定力的方向和强度就能操控AI生成的视频内容。 - 模型具备强大泛化能力,能适应新场景和物体,甚至掌握部分物理规则。 - [详情链接](https://force-prompting.github.io/) 5. **Exa联手OpenRouter解锁400+AI模型的网络搜索功能** - Exa与OpenRouter合作,为超过400种大语言模型提供实时网络搜索功能。 - 基于RAG技术,模型能动态获取最新网络信息,突破传统知识更新局限。 - 开发者可通过OpenRouter灵活调用,降低开发成本,拓展AI应用场景。 6. **中国知网推出CNKI AI** - 中国知网推出了基于人工智能技术的全新探索成果—CNKI AI。 - 提供问答式增强检索和生成式知识服务,助力学术研究和科技创新。 - 高质数据与可信可控特性确保服务高效、精准且可靠。 - 双路检索与段落检索提升查全查准率,满足多样化需求。 - [详情链接](https://www.wjx.cn/vm/eikFgVh.aspx) 7. **Anthropic推出Claude Explains博客项目,探索AI与人类专家协作新模式** - Anthropic推出了名为‘Claude Explains’的博客项目,展示其AI模型Claude在内容创作中的能力。 - 博客内容由Claude AI生成并经人类专家编辑,首批文章聚焦技术主题,未来计划扩展至更多领域。 8. **Claude Pro升级重磅功能: 研究模式与远程MCP整合全面开放** - Anthropic宣布Claude Pro新增研究模式和远程MCP整合功能,提升AI助手的实用性和生产力。 - 研究模式将复杂研究任务从小时级压缩到分钟级,大幅提升效率。 - 远程MCP整合功能使Claude Pro用户能无缝连接多种工具,简化跨平台协作。 9. **Fish Audio推出OpenAudio S1: 200万小时数据驱动的超自然语音模型** - OpenAudio S1基于200万小时音频训练,支持多样语言风格与情感表达。 - 提供S1(40亿参数)和S1-mini(5亿参数)两种版本,满足不同场景需求。 - 使用RLHF技术,生成情感化语音,提升用户体验并降低成本。 10. **OpenAI Codex升级: 语音输入和联网功能助力编程更智能** - OpenAI对其编程工具Codex进行了全面升级,新增了语音输入和联网能力。 - 新增联网功能,Codex可自动完成环境配置、代码检查和测试。 - 语音输入功能让开发者能更自然地传达指令,提高工具易用性。 - Codex现向ChatGPT Plus用户开放,降低使用门槛,让更多开发者受益。 11. **OpenAI升级AI智能体开发工具,支持TypeScript、改进语音对话** - Agents SDK增加了对TypeScript的支持,使JavaScript和Node.js开发者也能参与智能体开发。 - RealtimeAgent功能支持低延迟语音应用,可暂停执行并手动确认智能体状态。 - 优化语音对语音模型,降低延迟、提高对话自然性与中断处理能力。 12. **华为WATCH 5智能手表接入双大模型,运动健康体验全面升级** - 华为正式发布WATCH 5智能手表,通过接入盘古大模型和DeepSeek大模型,在语音交互、健康监测及生态互联方面实现突破性提升。 - WATCH 5支持双AI大模型,语音交互更便捷且健康数据分析更精准。 - 腕上小艺功能可分析20+运动与健康领域近200项指标,提供个性化指导。 - 支持生态互联,兼容华为设备及其他第三方健康管理平台,助力全面健康生活。 13. **DeepSeek可能使用了Google Gemini数据训练新AI模型** - DeepSeek最近发布的R1推理AI模型更新版在多项基准测试中表现出色,但其训练数据来源引发争议。 - 多位开发者指出DeepSeek模型与Google Gemini系列有相似之处。 - OpenAI发现DeepSeek可能通过“数据蒸馏”技术获取训练数据,违反了相关规则。 14. **松下推出“OmniFlow”多模态生成AI实现文本、图像与音频的自由转换** - 松下控股公司联合UCLA研究人员开发了名为“OmniFlow”的多模态生成AI。 - 创新技术‘OmniFlow’支持文本、图像、音频自由转换,大幅提升多模态生成AI的应用潜力。 - 数据需求低至传统方法的1/60,显著降低数据采集成本,优化模型训练效率。 - 在文本转图像和文本转音频任务中表现最优,展现最佳性能,未来有望应用于工厂与生活方式领域。
- 【AI日报】EP.158 5月31 阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源
### AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext **1、阿里云通义灵码AI IDE正式上线,带来编程新体验** - 阿里云推出了通义灵码AI IDE,这款深度适配千问3的人工智能开发环境具备强大的编程智能体模式、长期记忆和行间建议预测功能。 - 提供行间对话功能,显著提升开发效率,已成为国内最受欢迎的编程辅助工具之一。 - 详情链接: https://github.com/Alibaba-NLP/WebAgent **2、小米多模态大模型Xiaomi MiMo-VL开源** - MiMo-VL-7B在多项多模态任务中表现出色,参数量仅为7B却超越了更大规模的闭源模型。 - 通过高质量预训练数据和混合在线强化学习算法,在图片、视频、语言等多任务上展现了卓越的通用性。 - 详情链接: https://huggingface.co/XiaomiMiMo **3、黑森林实验室推出FLUX.1Kontext: 可通过文本和参考图像对图像进行多次修改** - FLUX.1Kontext是一款强大的图像生成模型,支持文本和参考图像的多次编辑,具有角色一致性、局部编辑、风格参考和低延迟等特性。 - 作为流模型,可从现有图像出发,通过简单文本指令实现即时灵活编辑。 - 详情链接: https://bfl.ai/announcements/flux-1-kontext **4、Midjourney V7重磅更新: 渲染速度飙升40%,新增用户投票决定功能开发** - Midjourney V7版本带来了多项重大更新,包括渲染速度提升40%、AI版主功能升级以及开启第二轮社区路线图投票活动。 - 这些更新不仅提高了工作效率,还增强了用户的创作体验。 - 详情链接: https://midjourney.com/ideas **5、DeepSeek成为世界前二AGI实验室** - DeepSeek R1-0528在技术性能和开源权重领域取得重大突破,超越xAI、Meta和Anthropic,与谷歌并列第二。 - 智能指数得分从60跃升至68,进步幅度媲美OpenAI o1到o3模型。 **6、Hugging Face进军人形机器人市场: 推出售价3000美元的开源机器人HopeJR** - Hugging Face通过发布两款开源人形机器人HopeJR和Reachy Mini,正式进军机器人硬件领域,旨在打破大科技公司在机器人技术上的垄断。 - 机器人开源且价格实惠,避免机器人技术被少数大公司掌控。 **7、字节跳动火山方舟正式接入DeepSeek-R1-0528版本** - 火山方舟平台已接入最新版DeepSeek-R1-0528大模型,其高性能服务体系和丰富功能为企业和开发者带来了高效便捷的应用体验。 - 提供包括Function Call、联网等功能支持,覆盖多元应用场景,满足高并发需求。 **8、Anthropic重磅开源! ‘电路追踪’工具解锁AI大脑,揭秘大模型决策全过程** - Anthropic发布了名为‘电路追踪’的开源工具,通过生成归因图展示大语言模型的内部决策路径,提升对AI决策机制的理解,并推动AI技术的透明化发展。 **9、阿里巴巴开源自主搜索AI智能体WebAgent 让研究更高效** - WebAgent能够模拟人类行为在网络环境中主动搜索、分析和决策,极大提升信息检索效率。 - 通过WebDancer和WebWalker两大模块实现复杂信息检索,其中WebDancer采用创新算法显著提高数据效率和策略鲁棒性。 - 详情链接: https://github.com/Alibaba-NLP/WebAgent **10、Hume发布语音语言模型Hume EVI3: 低延迟、高情感** - Hume公司发布了全新的语音语言模型EVI3,它在语音生成方面具有低延迟和高情感表现力的特点,为语音交互带来了革命性进步。 - 详情链接: https://demo.hume.ai **11、Manus Slides重磅发布: 一键生成专业幻灯片** - Manus推出全新功能Manus Slides,通过单一提示词快速生成结构化幻灯片,适用于多种场景,大幅提升演示文稿创作效率。 **12、手机照片一键变艺术! Runway Gen-4References解锁相机胶卷新玩法** - Runway公司的Gen-4References功能现已支持移动设备,用户可以通过手机上传照片并结合自然语言提示生成风格一致的艺术作品,极大提升了创作便捷性和多样性。
- 【AI日报】EP.157 5月30 DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI
**AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线** 1. **DeepSeek R1-0528震撼发布** - 支持128K超大上下文,推理能力和代码生成能力大幅提升,且保持免费使用。 - 适合复杂任务,文本召回测试准确度显著提升。 - 代码生成与写作能力优化,媲美顶级模型。 - 免费开放策略降低使用门槛,挑战传统AI商业模式。 - 详情链接: <https://huggingface.co/deepseek-ai/DeepSeek-R1-0528> 2. **字节发布图像Agent“小云雀AI”** - 通过简单的指令快速生成高质量的视频和图片,降低内容创作的技术门槛。 - 用户只需一句指令,‘小云雀AI’就能主动思考并生成爆款视频与图片。 - 基于自研‘云雀’大模型,融合深度学习与多模态技术。 - 当前已上线安卓客户端,iOS版本预计6月发布。 3. **可灵2.1重磅上线** - 价格大幅降低65%,性价比显著提升。 - 新增标准版、高品质版与大师版三种模型,满足不同用户需求。 - 生成效果优于前版本,速度更快,适合短视频和广告制作。 4. **全球首款AI代理浏览器Opera Neon发布** - 通过AI驱动的智能聊天、任务自动化及内容创作功能,重新定义了网络体验。 - 能主动执行搜索、表单填写、购物等任务,提升用户效率。 - 内置AI助手Neon Chat支持多语言交互,提供上下文相关答案。 - 详情链接: <https://www.operaneon.com/> 5. **Meta发布Multi-SpatialMLLM** - 通过整合深度感知、视觉对应和动态感知三大组件,显著提升了多模态大语言模型的空间理解能力。 - 利用MultiSPA数据集及五项任务训练,大幅提升了多帧空间推理能力。 - 在多项基准测试中表现出色,超越传统模型。 6. **通义实验室、北大发布新技术ZeroSearch** - 通过模拟搜索引擎激活大语言模型的检索能力,大幅降低训练成本达88%。 - 采用结构化训练模板和“模拟微调”策略,提升生成文档质量及模型泛化能力。 - 实验表明,ZeroSearch性能优于传统方法,尤其在大规模模型中表现更佳。 - 详情链接: <https://arxiv.org/pdf/2505.04588> 7. **字节推出全新AI剪辑应用“剪小映”** - 主打AI视频剪辑,降低创作门槛,让用户轻松制作高质量视频。 - 集成AI技术,鼓励用户分享生活。 - 火山引擎豆包大模型为应用提供强大支持,提升视频处理效率。 8. **MotionPro炸场! AI视频生成革命来袭** - 通过区域轨迹和运动掩码技术实现精细化控制,为视频生成带来灵活性和精确性。 - 同时控制物体与镜头运动,无需特定数据集,支持复杂镜头和物体轨迹的精准生成。 - 开源生态支持,提供优化的训练框架和数据构建工具。 - 详情链接: <https://huggingface.co/papers/2505.20287> 9. **马斯克的xAI与Telegram达成3亿美元合作协议** - xAI支付3亿美元部署Grok AI聊天机器人,提升Telegram用户体验并增加收入。 - Grok AI将提升Telegram用户交流体验,提供智能化聊天服务。 - 合作将使Telegram盈利模式多样化,推动社交媒体智能化进程。 10. **OpenAI CFO透露重组新架构为未来可能的IPO打开大门** - OpenAI正在进行组织重组为IPO做准备,但上市时机取决于市场氛围。 - 微软投资超130亿美元,OpenAI转型公共利益公司平衡股东回报与社会责任。 - 稳定性是关键,上市需公司准备充分且市场窗口合适。 11. **像素蛋糕“方糖大模型”成功获批** - 通过国家网信办备案,成为影像行业首个获官方资质的应用级图像大模型。 - 自主研发彰显像素蛋糕在AI技术领域的实力与创新能力。 - 符合国家政策要求,确保用户使用环境的安全与可靠性。 12. **开源+低成本! Paper2Poster让学术论文秒变学术海报** - 将PDF论文自动转化为结构清晰、视觉友好的学术海报,效率远超传统手动方式。 - 生成一张海报仅需0.005美元,开源特性降低学术工具使用门槛。 - 发布100个论文-海报对的数据集,推动多模态内容生成领域规范化发展。 - 详情链接: <https://arxiv.org/abs/2505.21497> 13. **Resemble AI开源TTS Chatterbox** - 基于0.5B规模的LLaMA架构,训练数据超50万小时。 - 盲测中63.75%的听众更偏好其真实感和流畅度。 - 支持实时合成,延迟低于200ms,具备零样本语音克隆与情感夸张控制功能。 - 开源特性降低门槛,嵌入水印技术确保内容可追溯。 - 详情链接: <https://github.com/resemble-ai/chatterbox> 14. **蚂蚁集团开源Ming-lite-omni** - 220亿参数的多模态模型,具备强大能力。 - 模型权重和推理代码已向公众开放,促进开发者使用。 - 性能对标GPT-4o,成为开源多模态领域的重要选择。
- 【AI日报】EP.157 5月29 腾讯语音数字人模型HunyuanVideo-Avatar,Trae国际版开启付费
**AI日报:腾讯语音数字人模型HunyuanVideo-Avatar;Trae国际版开启付费订阅模式;Claude网页搜索功能全面开放** 1. **腾讯混元开源语音数字人模型HunyuanVideo-Avatar** - 腾讯发布的HunyuanVideo-Avatar模型可依据人物图像与音频生成自然数字人视频,适用于短视频创作、电商广告等领域。 - 创新性地根据图像和音频生成自然数字人视频,处于业内顶尖水平。 - 适用于短视频创作、电商广告等多领域,降低视频制作时间和成本。 - 支持多种风格场景,精准驱动角色与音频完美同步。 - 体验入口: [https://hunyuan.tencent.com/modelSquare/home/play?modelId=126](https://hunyuan.tencent.com/modelSquare/home/play?modelId=126) 2. **Trae国际版开启付费订阅模式** - Trae推出付费订阅,首月Pro订阅仅3美元,后续每月10美元或年付每月7.5美元,支持支付宝支付。 - 推出付费订阅模式,首月仅3美元,性价比高。 - 支持Claude4和Gemini2.5Pro等先进AI模型,优化AI上下文理解能力。 - 基于VS Code架构,支持无缝迁移插件和设置,多语言且界面直观。 3. **Claude网页搜索功能全面开放** - Anthropic宣布Claude网页搜索功能向免费用户开放,可获取实时网络信息并提供内联引用,提升信息查询能力。 - Claude网页搜索功能免费开放,用户可获取实时网络信息。 - 适用于多种场景,如销售分析、文献检索、产品比较等。 - 通过Brave Search提供结果,确保引用透明可靠。 4. **印度程序员冒充AI的初创公司Builder.ai破产** - Builder.ai因财务问题破产,烧光超5亿美元投资,背负巨额债务。 - 实际操作依赖大量人力,未实现AI驱动开发,开发工具效率低下。 - 事件引发对AI在软件开发中真实应用的反思。 5. **腾讯元宝再进化:AI直通微信读书、起点读书平台** - 腾讯元宝实现与微信读书、起点读书无缝连接,用户可直接跳转阅读。 - 腾讯元宝与微信读书、起点读书无缝连接,便捷搜索跳转。 - 推荐优质书籍,支持一键跳转,免去额外查找步骤。 - 推动AI应用与内容生态融合,向多模态、可行动AI助手演化。 6. **快手CFO:预计加大AI开发支出将影响利润率** - 快手计划加大AI投资,虽可灵AI收入增长,但AI支出预计将导致集团整体利润率下降约1%至2%。 - 快手加大AI开发支出,旨在提升工具变现能力。 - 可灵AI第一季度收入超1.5亿元,总收入同比增长11%。 - AI投资对利润增长造成压力,需平衡投资与盈利。 7. **Mistral推出全新Agents API** - Mistral推出Agents API,集成代码执行、图像生成等功能,支持代理协作,适用于多领域提升工作效率。 - Agents API推出,简化AI代理创建,集成多种功能。 - 支持代码执行、图像生成、实时搜索和持久记忆。 - 适用于软件开发、项目管理、财务分析等多个领域。 - 官方博客: [https://mistral.ai/news/agents-api](https://mistral.ai/news/agents-api) 8. **Claude移动端语音对话功能测试版上线** - Claude推出移动端语音对话测试版,支持通过语音指令查询日程、搜索文档等操作。 - Claude移动端语音对话功能上线,支持多种操作。 - 采用“push-to-talk”机制,暂不支持实时打断。 - 支持网页搜索和文件上传,免费用户也将逐步获得该功能。 9. **OpenAI计划推出“使用ChatGPT登录”第三方应用功能** - OpenAI探索使用ChatGPT账号登录第三方应用,已推出开发者预览。 - OpenAI计划推出“使用ChatGPT登录”功能,拓展业务。 - 征集开发者兴趣,要求说明应用用户基础等信息。 - 帮助OpenAI与其他科技巨头竞争,增加用户粘性。 10. **掘金发布MCP,AI生成前端项目一键部署** - 掘金推出MCP功能,开发者可一键将AI生成的前端项目部署至掘金平台。 - 掘金发布MCP,实现AI生成前端项目一键部署。 - 通过简单Token配置,一行命令完成项目部署。 - 提供免费存储空间,支持项目审核,增强社区生态。 11. **多模态大模型视觉推理能力评估:o3仅得25.8%分数** - 近日发布的RBench-V基准测试显示,多模态大模型在视觉推理能力上表现不足,准确率远低于人类专家。 - RBench-V基准测试评估多模态模型视觉推理能力。 - o3模型准确率仅25.8%,低于人类82.3%。 - 当前模型缺乏深层理解,需改进推理方式。 - 项目主页: [https://evalmodels.github.io/rbenchv/](https://evalmodels.github.io/rbenchv/) 12. **中国石油发布3000亿参数昆仑大模型** - 中国石油在北京发布3000亿参数的昆仑大模型,推动油气全产业链的智能化进程。 - 昆仑大模型参数显著提升,语言、视觉、多模态领域均有进展。 - 应用于油气勘探、炼油化工及销售等多个环节。 - 中国石油与多家企业合作,加速数字化转型进程。
- 【AI日报】EP.156 5月28 阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能
【AI日报】 1. **阿里开源长文本深度思考模型QwenLong-L1** - 阿里巴巴发布QwenLong-L1-32B,首个通过强化学习训练的长文本推理模型。 - 该模型在七个长文本情境文档问答基准测试中表现出色。 - 提供高性能模型、优化数据集、强化学习方法及评估体系,推动长文本AI应用产业化。 - 详情链接: [GitHub](https://github.com/Tongyi-Zhiwen/QwenLong-L1) 2. **GPT-4o语音模式新增唱歌功能** - GPT-4o的高级语音模式升级,新增唱歌功能,支持自然语音交互。 - 新增笑声、哭声等情感表达功能,拓展了AI在娱乐和教育领域的应用场景。 - 响应延迟仅320毫秒,支持更自然的情感交流。 3. **秘塔AI搜索推出全新“极速”模型** - 秘塔AI搜索的新模型实现最高400tokens/秒的响应速度。 - 在单张H800GPU上大幅提升搜索效率,大部分问题可在2秒内得到解答。 - 提供测速站点(kuai.metaso.cn)让用户体验快速响应。 4. **谷歌推出LMEval开源框架** - LMEval是用于简化和标准化大型语言及多模态模型评估的工具。 - 支持跨平台模型对比,提供增量评估和可视化分析功能。 - 详情链接: [GitHub](https://github.com/google/lmeval) 5. **谷歌Chrome浏览器新增Gemini AI助手** - Gemini AI助手通过实时感知屏幕内容并提供个性化帮助,提升用户体验。 - 仅向AI Pro和AI Ultra订阅用户开放,目前处于测试版。 - 未来计划扩展至更多场景与设备,提升整体用户体验。 6. **阿联酋全民免费使用ChatGPT Plus** - 阿联酋将成为全球首个向全体居民免费提供ChatGPT Plus服务的国家。 - 计划构建1千兆瓦的人工智能计算集群,提升地区AI地位。 - OpenAI与阿联酋合作,开发符合本土需求的AI解决方案。 7. **苏州成立60亿元人工智能母基金** - 苏州成立了一支60亿元的人工智能产业专项母基金,聚焦算力基础设施、数据、人才等领域。 - 推动‘人工智能+制造业’等行业融合应用,加速产业转型升级。 - 预计2024年园区将聚集超1800家AI企业,助力苏州成为国家级AI发展试验区。 8. **Kyutai Unmute发布** - Kyutai实验室推出的Unmute系统为文本大语言模型赋予强大的语音交互能力。 - 个性化定制功能只需10秒语音样本即可生成专属AI声音。 - 详情链接: [Unmute](https://unmute.sh/) 9. **Claude即将大升级** - 上下文窗口扩展至百万字符,大幅提升超长文本处理能力。 - 新增记忆功能,实现多轮对话更连贯、个性化的响应。 - 扩展输出Token限制及多文件格式支持,增强企业级应用场景。 10. **百度心响iOS版正式上线** - 百度心响iOS版的上线标志着智能体应用普及的新阶段。 - 提供旅游攻略生成、深度研究支持以及健康咨询服务。 - 用户可在APP Store免费下载心响iOS版。 11. **夸克发布行业首个“高考深度搜索”** - 夸克推出的“高考深度搜索”功能,帮助考生和家长高效获取权威信息。 - 数据来源于自建高考知识库,包括历年志愿数据及就业考研信息。 - 使用检索增强生成技术,确保内容准确性。 12. **Chrome v137开发者工具重磅升级** - Chrome v137引入Gemini AI智能助手,通过智能标注、CSS修改、性能洞察等功能提升开发效率。 - 智能标注功能简化性能分析流程,快速理解复杂性能数据。 - AI驱动CSS调试,一键修改与保存,显著提升前端开发效率。 13. **美团AI业务进展** - 美团的基础大模型能力接近GPT-4o水平,将推出业务决策助手。 - 内部工程师的52%代码由AI生成,提升工作效率。 - 推出NoCode编程工具,面向非技术用户,简化编程过程。 14. **Direct3D-S2横空出世** - Direct3D-S2通过创新的空间稀疏注意力机制,大幅提升高分辨率3D图像生成的质量与效率。 - 前向传播速度提升3.9倍,反向传播速度提升9.6倍。 - 开源计划预计5月底前公布,推动3D生成技术在全球范围内的普及与应用。 - 详情链接: [GitHub](https://github.com/DreamTechAI/Direct3D-S2) 15. **OpenAI计划2026年推出首款AI硬件** - OpenAI正在研发一款由ChatGPT驱动的全新AI硬件,预计2026年发布。 - 这款产品将整合到日常生活的方方面面,提供无缝的智能体验。
- 【AI日报】EP.155 5月27 昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体
### AI日报新闻提要 1. **昆仑万维天工超级智能体APP上线** - 昆仑万维集团推出全球首款基于AI Agent架构的Office智能体手机应用——天工超级智能体APP。 - 该应用通过四大智能体协同工作,重新定义移动办公效率,支持跨端协同和私人知识库搭建。 - 计划扩展至教育、医疗、法律等垂直领域,并优化多语言支持。 2. **最新研究:ChatGPT助力中小学生学习成效提升近87%** - 研究表明,利用ChatGPT等大型语言模型可显著提升K12阶段学生的学习成绩,整体提升达86.7%。 - 这些模型还能增强学生的高阶思维能力,减轻精神负担,提升学习积极性。 3. **谷歌通过Gemini应用扩展了其热门新视频机型Veo3的访问权限** - 谷歌的AI视频生成工具Veo3现支持71国用户,但欧盟暂未开放。 - Gemini Ultra用户每月享有125次生成机会,Pro用户仅10次。 - Veo3虽受关注但也引发对虚假信息传播的担忧。 4. **谷歌重磅发布三大Gemini模型变体** - 谷歌推出了MedGemini、SignGemini和DolphinGemini三款基于Gemini架构的人工智能模型。 - 分别针对医疗、手语翻译和海豚语言研究领域,展示了AI技术在跨领域应用的巨大潜力。 5. **AI教育革命:VideoTutor一句话即可生成K12定制教学视频** - VideoTutor是一款创新的AI教育工具,支持一键生成个性化教学视频。 - 支持多语言生成,灵活适配不同年级和语言需求,打破语言障碍。 - 教学内容逻辑清晰,视觉效果直观,有效提升学习效率,减轻教师备课负担。 6. **字节跳动推出开源多模态模型BAGEL** - 字节跳动发布了最新开源多模态基础模型BAGEL,该模型在图像理解和生成方面表现出色。 - 基于70亿参数规模,超越主流VLM如Qwen2.5-VL和InternVL-2.5,在图像理解、生成和编辑任务中表现卓越。 - 提供开源模型、评估脚本、使用文档及Gradio WebUI,鼓励社区参与优化并推动模型进步。 - 详情链接: https://github.com/ByteDance-Seed/Bagel 7. **AI开发神器Rork:一句话打造iOS+Android应用,零编程也能当开发者** - Rork是一款AI驱动的无代码开发工具,通过自然语言描述即可生成完整应用。 - 支持iOS和Android双平台,极大降低开发门槛。 - 智能集成后端,自动整合Supabase、Firebase等数据库,简化开发流程。 - 详情链接: https://rork.com/ 8. **AI新手福音:AingDesk一键打造智能助手,多模型对话即将引爆** - AingDesk是一款对新手友好的AI助手构建工具,支持本地知识库、联网搜索、智能体构建及多模型对话等功能。 - 无需编程经验即可快速构建个性化智能助手,支持本地与云端灵活部署。 - 详情链接: https://github.com/aingdesk/AingDesk 9. **Claude4登陆Amazon Bedrock,企业AI的‘最后一公里’打通了** - Anthropic推出最新Claude4系列大模型,包含Claude Opus4和Claude Sonnet4,分别面向高复杂性和高并发场景。 - 两款模型均支持强大的上下文理解和多步推理能力,在多个行业测试中表现优异。 - 开发者可通过Amazon Bedrock统一API访问Claude4系列,实现与多种主流模型的无缝切换。 10. **Youware重磅更新:MCP加持一键生成复杂网页,AI建站进入新时代** - Youware通过深度集成Model Context Protocol(MCP),显著提升了网页生成的能力与效率。 - 推出积分系统和社区功能,为用户提供收益激励和互动平台。 - 简化建站流程,降低门槛,支持多种MCP服务,提升用户体验。
- 【AI日报】EP.154 5月23 Anthropic推最强编码AI模型Claude4;苹果计划推AI智能眼镜
【AI日报】Anthropic推最强编码AI模型Claude4;苹果计划推AI智能眼镜;QQ浏览器上线首个高考Agent 1. **Anthropic推出最强AI模型Claude4** - Claude4系列包括Claude Opus4和Claude Sonnet4,在多项基准测试中领先,尤其在编程任务中表现出色。 - Opus4面向付费用户,Sonnet4面向免费用户,API定价灵活且具有竞争力。 - Anthropic加强了Opus4的安全措施,符合ASL-3安全规范。 2. **苹果计划推出AI智能眼镜** - 苹果预计在2026年底推出集成了摄像头、麦克风和先进AI技术的智能眼镜。 - Siri将成为核心体验,提升用户互动性和日常使用便利性。 - 研发进度加快,年底前将制造大量原型机以确保产品质量。 3. **字节跳动与清华大学合作推出时序多模态大模型ChatTS** - ChatTS填补了当前市场在时序数据处理领域的空白,具备强大的多变量时序问答与推理能力。 - 采用“纯合成驱动”方式构建端到端数据生成与模型训练框架,提高时序数据的自然语言理解能力。 - 模型能够识别未见过的波动模式并提取异常,展现灵活性与智能化特征。 4. **AI‘神笔马良’3DTown:单张照片变3D城市** - 普林斯顿大学、哥伦比亚大学和Cyberever AI联合推出的3DTown框架,仅凭一张俯视图即可生成逼真的3D城镇场景。 - 采用区域生成策略,提升细节和对齐精度,并通过空间感知3D修复技术实现无缝拼接。 - 免训练框架利用预训练3D生成器,结合独特策略生成高质量3D场景,效果优于现有模型。 - 详情链接: https://arxiv.org/pdf/2505.15765 5. **OpenAI秘密开发无屏幕AI设备** - OpenAI计划开发一款具有革命性的无屏幕紧凑型AI设备,定位为下一代核心设备。 - 由苹果前首席设计官Jony Ive主导设计,尽管保密工作出现漏洞,但其潜力可能为公司带来万亿级市值。 6. **商汤科技推出元萝卜AI下棋机器人五合一版** - 面向3至12岁儿童,支持象棋、围棋、国际象棋、国际跳棋和五子棋五种棋类学习。 - 内置对话智能体,解答学科问题并提供百科知识讲解,激发孩子对AI的兴趣。 - 配备英语语伴功能,帮助孩子在家练习口语,提升语言能力。 7. **微软记事本Notepad推出AI写作功能** - 记事本新增AI写作功能,能快速生成和扩展文本,提升用户创作效率。 - Paint工具新增贴纸生成器和智能对象选择工具,大幅优化图像编辑体验。 - 截图工具加入“完美截图”按钮和实时颜色选择器,让截图与编辑更加精准高效。 8. **深圳设立70亿人民币基金助力AI硬件初创企业** - 深圳市政府设立70亿人民币投资基金支持AI硬件初创企业发展。 - 华为展示首款可折叠平板电脑,搭载HarmonyOS操作系统,标志着技术独立性提升。 - UBTech Robotics推出智能机器人‘萌UU’,EngineAI展示四足机器人,展现行业创新能力。 9. **谷歌Beam发布:2D视频秒变3D沉浸式体验** - Google Beam基于AI技术,将传统2D视频通话升级为3D沉浸式体验,无需佩戴AR/VR设备即可享受真实感。 - 平台集成了实时语音翻译功能,支持多语言交流,为企业协作和个人沟通打开全新可能。 - 初期定位高端企业市场,已与HP、Zoom等巨头合作,计划逐步扩展至消费级市场。 - 详情链接: https://beam.google/ 10. **阿联酋推出“星际之门”计划** - 阿联酋宣布建设‘星际之门阿联酋’超级人工智能数据中心,覆盖2000英里范围内的地区。 - 为国民免费提供ChatGPT服务,成为全球首个为全民支付ChatGPT Plus订阅费用的国家。 11. **Mistral推出开源模型Devstral** - 法国初创公司Mistral推出的开源语言模型Devstral,具有240亿参数且计算资源需求低,适合本地部署及设备端使用。 - 在编程任务中表现出色,尤其擅长处理复杂代码库的上下文关联问题。 - 在SWE-Bench测试中得分46.8%,远超其他开源模型,甚至领先GPT-4.1-mini。 12. **Anthropic API增加四大功能** - 新增代码执行工具、MCP连接器、文件API及扩展提示缓存,提升了Claude AI的功能性与灵活性。 - 代码执行工具使Claude能运行Python代码,从代码助手转变为数据分析师。 - MCP连接器简化了AI与外部系统的集成,支持无缝连接主流平台。 - 文件API增强了上下文处理能力,便于处理复杂文档和多格式数据。 13. **美国众议院通过新法案禁止未来10年监管AI** - 美国众议院通过《HR1》法案,禁止未来10年内各州监管AI。 - 微软、OpenAI等因放宽监管获益,推动技术创新。 - 法案拨款5亿美元,用于提升政府AI应用及智能政务建设。 14. **QQ浏览器上线行业内首个高考Agent“AI高考通”** - QQ浏览器推出“AI高考通”,为高考生提供考前解题答疑和作文辅导服务。 - 整合2800所院校及1600个专业信息,便于查询。 - 提供个性化志愿填报推荐,助考生选择合适院校。
- 【AI日报】EP.154 5月23 昆仑万维天工超级智能体发布;OpenAI核心API支持MCP
### AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源 1. **百度飞桨PaddleOCR 3.0开源发布** - PaddleOCR 3.0版本提升了文字识别精度、多语种支持、手写体识别及文档解析能力,新增对国产硬件的支持。 - 全场景文字识别模型PP-OCRv5支持五种文字类型识别,整体精度提升13%。 - 文档解析方案PP-StructureV3强化版面检测和表格识别能力,在多场景高精度解析中表现卓越。 - 智能文档理解方案PP-ChatOCRv4结合文心大模型,关键信息抽取精度提升15%,支持复杂文档处理。 - 详情链接: [https://github.com/PaddlePaddle/PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) 2. **昆仑万维天工超级智能体发布** - 天工超级智能体基于自研Deep Research技术,是一款AI Office智能代理,成本仅为OpenAI的40%。 - 采用多智能体架构,包含5个专家智能体和1个通用智能体,支持一站式生成多种办公内容。 - Deep Research模型在GAIA基准测试中以82.42分超越OpenAI。 - 开源框架和低成本部署策略使天工成为中小企业和个人开发者的理想选择。 - 详情链接: [https://mcp.so/server/skywork-super-agents/Skywork-ai](https://mcp.so/server/skywork-super-agents/Skywork-ai) https://skywork.ai/ 3. **OpenAI核心API支持MCP** - OpenAI的Responses API新增MCP支持,降低AI模型与外部工具集成难度。 - 新增功能包括图像生成、代码解释器和优化的文件搜索能力,提升开发效率。 - MCP成为AI智能体开发的事实标准,推动跨平台协作与灵活性。 4. **xAI推出网页搜索API: Live Search** - xAI正式推出了Live Search API,让开发者可以利用Grok模型实时搜索来自多种数据源的信息。 - 支持自主搜索决策,Grok能根据对话上下文自动判断是否需要搜索,无需人工干预。 - 提供多样化数据源,包括X平台、网页、新闻和RSS提要,确保信息全面且实时更新。 - 高度灵活且高效集成,支持多种SDK,开发者可轻松调整基础URL和API密钥实现快速接入。 - 详情链接: [https://docs.x.ai/docs/guides/live-search](https://docs.x.ai/docs/guides/live-search) 5. **谷歌Sparkify实验产品上线** - 谷歌推出的Sparkify利用Gemini和Veo模型,将复杂知识点转化为直观的动画短视频。 - 支持多语言扩展,未来将覆盖更多地区和人群。 - 详情链接: [https://sparkify.withgoogle.com/explore](https://sparkify.withgoogle.com/explore) 6. **Mistral重返开源阵营: 发布超高效代码AI模型Devstral** - Mistral AI发布了全新开源语言模型Devstral,专为代理AI软件开发设计,性能优越且支持本地运行。 - Devstral拥有2400万参数,基于Apache2.0许可证发布,允许自由部署和商业化。 - 在SWE-Bench验证中超越多数闭源模型,适用于本地和私有化应用场景。 - 详情链接: [https://github.com/Gen-Verse/MMaDA](https://github.com/Gen-Verse/MMaDA) 7. **Video Ocean发布2K/4K HDR视频生成工具** - 潞晨科技推出全新AI视频生成工具Video Ocean,支持快速生成高质量大片,提供多种特效与功能,价格低廉且完全免费。 - 详情链接: [无] 8. **谷歌推出新工具SynthID Detector** - SynthID Detector旨在帮助用户检测内容是否由其AI工具生成,支持图像、文本、音频和视频。 - 该工具可自动扫描上传内容,查找并突出显示SynthID水印。 - 当前仅向早期测试者开放,未来将逐步推广至更多用户。 - 详情链接: [https://blog.google/technology/ai/google-synthid-ai-content-detector/](https://blog.google/technology/ai/google-synthid-ai-content-detector/) 9. **谷歌AI笔记工具NotebookLM的迅猛崛起** - NotebookLM月访问量增长56%,以其创新功能如‘音频概览’、多语言支持及多样化应用场景受到广泛关注。 - 详情链接: [无] 10. **硅基流动升级DeepSeek-R1等推理模型API** - 硅基流动通过升级其推理模型API,显著提升了最大上下文长度至128K,增强了模型的推理能力和输出质量。 - 引入独立控制思维链与回复内容长度的功能,使开发者能更灵活地调整模型性能。 - 详情链接: [https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning](https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning) 11. **谷歌DeepMind发布新AI音乐生成模型Lyria2** - Lyria2具备高保真音质、实时交互功能和多风格适配性,为音乐创作带来了革命性的变化。 - 详情链接: [https://deepmind.google/models/lyria/](https://deepmind.google/models/lyria/) 12. **多模态大模型MMaDA** - MMaDA实现了文本、图像等多模态间的无缝切换和深度推理,表现远超GPT-4等现有模型。 - 详情链接: [https://github.com/Gen-Verse/MMaDA](https://github.com/Gen-Verse/MMaDA) 13. **微软发布Web智能体Magentic-UI** - Magentic-UI是一款以人为本的AI智能体研究原型,通过网页浏览器实时协助用户完成复杂任务。 - 详情链接: [https://github.com/microsoft/Magentic-UI](https://github.com/microsoft/Magentic-UI) 14. **Framer发布全新AI功能** - Framer在I/O 2025期间推出了全新AI功能套件,包括Wireframer、Workshop、Advanced Analytics和Vectors2.0。 - 详情链接: [无]
- 【AI日报】EP.153 5月22 谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级
### AI日报 1. **谷歌推出AI Ultra订阅计划** - 谷歌发布了全新的AI Ultra订阅计划,提供最高级别的AI模型访问和高级功能。计划包括最新的Gemini应用、Flow工具、30TB存储空间等,每月费用为249.99美元。 - 详情链接: [Google AI Ultra](https://blog.google/products/google-one/google-ai-ultra/) 2. **腾讯混元模型矩阵全面升级** - 腾讯混元宣布其模型矩阵全面升级,推出了T1-Vision和混元Voice等新模型。TurboS模型在全球评测中表现优异,多模态技术取得新进展,并推动开源技术发展。 3. **美图与阿里巴巴达成战略合作** - 美图公司与阿里巴巴达成战略合作,阿里巴巴通过可转债形式投资2.5亿美元。双方将在电商、AI技术、云计算等领域展开深度合作。 4. **豆包·语音播客模型发布** - 火山引擎推出的豆包·语音播客模型通过流式模型构建,实现了文本到播客的快速转化,带来高效、互动性强的创作体验。该模型将在豆包APP及PC端、扣子等上线。 5. **百度文心X1Turbo大放异彩** - 百度文心大模型X1Turbo在信通院评估中获国内首个“4+级”最高评级,展示出卓越的技术实力,在逻辑推理和代码推理方面表现突出。 6. **谷歌发布Flow AI剪辑工具** - 在2025年的Google I/O开发者大会上,谷歌推出了面向影视创作者的全新AI剪辑工具Flow,集成了Veo3、Imagen4和Gemini三大AI模型,简化视频创作过程。 - 详情链接: [Google Flow](https://labs.google/flow/about) 7. **谷歌Veo3震撼发布** - 谷歌发布的Veo3视频生成模型支持音视频一体化生成,具备超高分辨率和多样化风格支持,适用于专业及教育领域。 8. **谷歌Imagen4图像模型发布** - 谷歌推出了最新一代图像生成模型Imagen4,具有超高分辨率、精准文本渲染和多种风格支持,为创作者提供强大工具。 9. **谷歌Gemini2.5Pro Deep Think发布** - 谷歌DeepMind在2025年Google I/O开发者大会上推出Gemini2.5Pro Deep Think模式,采用并行推理技术,大幅提升数学、编码和多模态推理能力。 - 详情链接: [Google Gemini2.5Pro Deep Think](https://jules.google/) 10. **谷歌虚拟试衣间上线** - 谷歌在I/O2025大会上推出了全新的AI虚拟试衣工具,用户上传照片即可快速生成逼真的穿搭效果图,支持多条件搜索、比价分析和自动下单。 11. **谷歌公测AI编码助手Jules** - 谷歌推出的AI编码助手Jules进入全球公测阶段,基于Gemini2.5Pro模型,通过异步任务处理和GitHub集成提升开发者效率。 - 详情链接: [Google Jules](https://jules.google/) 12. **苹果计划在iOS19中开放AI模型** - 苹果计划在iOS19中向第三方开发者开放其AI模型,促进应用创新并增强硬件吸引力,初期将开放能在本地设备上运行的小型AI模型。 13. **京东云五大AI营销产品限时免费** - 京东推出五大AI营销产品,包括数字人直播、商家客服智能体、商品图生成服务、视频混剪平台等,免费提供给商家,以提升销售效率和运营能力。 14. **字节跳动开源多模态模型BAGEL** - 字节跳动发布了一款名为BAGEL的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。该模型在多模态理解、文本到图像生成、图像编辑等方面表现出色。 - 详情链接: [ByteDance BAGEL-7B-MoT](https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT) 15. **英伟达推出新型模型Cosmos-Reason1** - 英伟达发布的Cosmos-Reason1系列模型,通过物理AI监督微调和强化学习提升AI在物理常识和具身推理上的能力,为机器人和自动驾驶领域带来新可能。 - 详情链接: [NVIDIA Cosmos-Reason1](https://github.com/nvidia-cosmos/cosmos-reason1)
- 【AI日报】EP.152 5月21 美团AI编程工具NoCode将上线;火山引擎发布MCP Servers
AI日报 1. **美团AI编程工具“NoCode”即将上线** - 美团即将推出一款名为“NoCode”的AI编程工具,通过对话式交互实现应用构建,面向非程序员用户。 - 该工具采用Code Agent技术架构,支持复杂逻辑推理和多种任务调度,适用于数据分析、原型设计等场景。 - “NoCode”由美团研发质量与效率团队打造,现已实现与美团技术体系的打通。 - 详情链接: [https://nocode.cn/](https://nocode.cn/) 2. **火山引擎发布大模型生态广场MCP Servers** - 火山引擎推出了MCP Servers,这是一个集成了多种工具和服务的大模型生态平台,简化了AI应用开发流程。 - MCP Servers提供丰富的MCP协议适配工具,覆盖高频应用场景,无需复杂代码即可快速调用。 - 火山方舟提升模型智能交互能力,从被动执行到主动调用资源解决问题,优化用户体验。 - 详情链接: [https://www.volcengine.com/mcp-marketplace](https://www.volcengine.com/mcp-marketplace) 3. **B站开源SOTA动画视频生成模型Index-AniSora** - B站于2025年5月19日开源了最新的动画视频生成模型Index-AniSora,基于AniSora模型并引入强化学习技术框架。 - Index-AniSora支持多种二次元风格视频一键生成,涵盖番剧、国创、漫改动画等,大幅提高生产效率与质量。 - 构建高质量奖励数据集,提出AnimeReward和GAPO优化技术,显著改善生成内容的人类偏好对齐。 - 详情链接: [https://github.com/bilibili/Index-anisora/tree/main](https://github.com/bilibili/Index-anisora/tree/main) 4. **字节跳动豆包AI耳机Ola Friend升级** - 字节跳动豆包旗下的AI智能体耳机Ola Friend迎来升级,新增英语学习智能体Owen,支持实时对话,强化口语练习功能。 - Owen专为英语学习设计,问答逻辑与交互模式围绕学习需求,提供高度拟人化交互体验。 5. **GitHub推出全新AI编程智能体** - GitHub在Build大会上推出了AI编程智能体,集成于GitHub Copilot中,能自动修复漏洞、优化代码并提升开发效率。 - AI实时保存更改、记录决策过程,增强透明度与协作效率,支持企业版和Plus用户,Visual Studio Code开源,二次开发更便捷。 6. **腾讯混元上线游戏视觉生成平台** - 腾讯混元游戏视觉生成平台通过AI技术整合了传统繁琐的设计流程,极大提升了创作效率。 - 平台支持多种主流游戏风格和题材的高一致性生成,简化语言描述难度。 - 详情链接: [https://hunyuan.tencent.com/game/](https://hunyuan.tencent.com/game/) 7. **微软宣布VS Code转型开源AI编辑器** - 微软在Build2025大会上宣布,将旗下的Visual Studio Code转型为全球首款开源AI编辑器,GitHub Copilot Chat扩展完全开源。 - VS Code将升级为AI驱动的开发平台,核心在于将AI功能深度嵌入编辑器内核。 - 通过开源VS Code和Co-pilot Chat,巩固GitHub地位,对抗竞争对手的闭源模式。 8. **微软宣布Windows11原生支持MCP** - 微软通过引入模型上下文协议(MCP)使AI应用与Windows系统深度整合,开启以AI为核心的操作系统新时代。 - MCP作为AI应用与Windows互动的新标准,简化了开发者的工作流程。 - 推出Windows AI Foundry,助力开发者轻松集成AI模型至应用中。 - 详情链接: [https://blogs.windows.com/windowsexperience/2025/05/19/securing-the-model-context-protocol-building-a-safer-agentic-future-on-windows/](https://blogs.windows.com/windowsexperience/2025/05/19/securing-the-model-context-protocol-building-a-safer-agentic-future-on-windows/) 9. **Anthropic发布AI代理开发“圣经”** - Anthropic发布的AI代理开发指南强调了构建实用可靠代理的关键策略,包括结构化工作流、内存管理、工具集成等。 - 代理设计需具备推理、行动、反思等结构化工作流,而非简单无状态函数。 - 内存管理优于直接放入完整文件,采用摘要和结构化文件检索提升效率。 10. **谷歌Jules测试版全球上线** - 谷歌推出了基于Gemini2.5的AI编码代理Jules,定位为OpenAI Codex的直接竞争对手。 - Jules能自主分析代码库、制定计划并生成GitHub PR,简化开发流程,提高效率。 - 支持Python和JavaScript项目,与GitHub无缝集成,提供每日5次免费任务和2个并发任务,适合个人开发者和小型团队。 - 详情链接: [https://jules.google.com/home](https://jules.google.com/home) 11. **Google NotebookLM正式推出iOS版本** - Google NotebookLM推出iOS版本,与Android版本同步上线,新增移动端功能如便捷分享与上传、音频概述支持及平板优化。 - 整合Gemini2.5Flash模型,提升文本交互综合性和准确性。 - 详情链接: [https://notebooklm.google.com/](https://notebooklm.google.com/) 12. **Genspark创最快增长神话** - Genspark以惊人的增长速度震惊业界,仅用45天就实现了3600万美元的ARR。 - 推出AI Sheet、Agentic Download Agent和AI Drive,大幅提升生产力。 - 采用零付费分销模式,依靠口碑传播,实现高效市场渗透。 13. **Bright Data MCP服务器发布** - Bright Data推出开源MCP服务器,集成30+工具解决AI代理网络数据交互难题,提升数据采集效率。 - 动态工具选择与平台适配,支持多种平台工具,自动适配目标网站特性,简化开发者配置。 - 100%开源,提供GitHub代码支持,支持多客户端,降低使用门槛。 - 详情链接: [https://github.com/luminati-io/brightdata-mcp](https://github.com/luminati-io/brightdata-mcp) 14. **马斯克与微软携手,Grok人工智能模型将登陆Azure平台** - 在微软Build开发者大会上,马斯克宣布xAI公司的Grok3和Grok3迷你模型将被引入Azure AI Foundry平台。 - Grok模型以追求基本真理为核心,强调透明度、安全性及物理现实基础,未来将在多个领域应用。 - 马斯克展望Grok扩展至更多企业,开发者可参与并提出需求。
- 【AI日报】EP.151 5月20 QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex
【AI日报】 1. **B站团队推出AniSora开源动漫视频生成模型** B站团队通过AniSora开源动漫视频生成模型,填补了动漫视频生成领域的技术空白。支持多种动漫风格的视频创作,引入时空掩码模块,提升生成质量。经过严格测试,人物与运动一致性达到当前最高标准(SOTA)。 - 详情链接:https://www.chinaz.com/feed/0519/16... 2. **OpenAI发布全新编程智能体Codex** Codex智能助手由OpenAI推出,能在30分钟内完成复杂的开发任务,并与GitHub无缝集成,极大提升了开发者效率。通过强化学习训练,确保生成的代码符合人类开发者偏好。 - 详情链接:https://top.aibase.com/ 3. **Google搜索推出AI Mode实验** Google推出了名为"AI Mode"的实验性功能,提供文本、语音和图像提问的智能问答体验,并鼓励用户反馈以持续优化服务。注重用户隐私,采取措施保护数据安全。 - 详情链接:https://support.google.com/websearch/answer/16011537?visit_id=638832352895396136-3267382421&p=aimodeavailability&rd=1#aimodeavailability 4. **ChatGPT将整合MCP协议** ChatGPT即将支持MCP协议,该协议允许其与第三方AI服务无缝对接,提供更个性化的用户体验。企业可通过此协议优化工作流程,提升效率和决策质量。 - 详情链接:无 5. **阿里通义实验室推出ZeroSearch** ZeroSearch是一种新框架,通过强化学习和少量标注数据,使大语言模型能够模拟搜索引擎,提升检索和推理能力,同时减少对真实搜索引擎的依赖,降低训练成本。 - 详情链接:无 6. **Stability AI与Arm推出手机级音频生成AI** Stability AI和Arm联合发布了稳定音频开放小型模型,该模型能在7秒内生成11秒高质量立体声音频,优化后可在移动设备上流畅运行,基于对抗相对对比技术,大幅减少参数量,适合消费级硬件。 - 详情链接:无 7. **Qwen发布全新偏好建模模型系列WorldPM** Qwen团队推出了WorldPM系列模型,包括WorldPM-72B及其衍生版本,通过大规模训练实现偏好建模的突破,为开发者提供高效优化路径。 - 详情链接:https://huggingface.co/Qwen/WorldPM-72B 8. **OpenAI揭秘GPT-5** GPT-5将整合Codex、Operator、Deep Research和Memory,简化用户操作流程。Codex的编程效率提升了三倍,并且OpenAI计划通过这一工具帮助新手开发者更快入门。 - 详情链接:无 9. **ListenHub正式上线** ListenHub是一款基于AI技术的播客生成工具,支持中文和英文,提供个性化播客体验。它以其高效的生成速度和友好的用户界面受到欢迎,适合普通用户及内容创作者。 - 详情链接:https://listenhub.ai/zh 10. **QQ浏览器升级为AI浏览器** QQ浏览器升级为AI浏览器并推出QBot,带来更智能的浏览体验,包括搜索、阅读、翻译、写作及办公辅助等功能。 - 详情链接:无 11. **数学建模的AI助手MathModelAgent** MathModelAgent是一款专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程。 - 详情链接:无 12. **GenSpark推出全球首个Agentic AI下载代理** GenSpark推出的这款Agentic Download Agent工具真正实现了文件管理和信息处理的自动化与智能化,极大地简化了工作流程。 - 详情链接:无 13. **谷歌NotebookLM即将推出Sparks视频概览** 谷歌旗下的NotebookLM计划推出“Sparks”功能,将文档、笔记等转化为1-3分钟的短视频,结合Gemini2.5和Deep Research功能,实现从研究到呈现的端到端解决方案。 - 详情链接:无
- 【AI日报】EP.150 5月17 腾讯混元图像2.0毫秒级生图;Windsurf重磅发布SWE-1系列
【AI日报】 1. **腾讯混元图像2.0发布:毫秒级生图与超写实画质** - 腾讯发布了混元图像2.0模型,实现毫秒级生成速度和超写实画质。 - 新增实时绘画板功能,支持多图融合,优化设计流程。 - 详情链接: https://hunyuan.tencent.com/ 2. **Windsurf重磅发布SWE-1系列:全流程软件工程AI模型** - Windsurf推出SWE-1系列AI模型,涵盖从编码到终端操作的全流程,提高开发效率高达99%。 - 包含SWE-1、SWE-1-lite和SWE-1-mini三种模型,满足不同用户需求。 - 强化了对多工具协作的支持,降低部署成本。 3. **DeepSeek-V3发布新论文:低成本大模型训练的奥秘** - DeepSeek团队发布关于DeepSeek-V3的技术论文,探讨低成本大模型训练方法。 - 采用DeepSeekMoE架构和MLA架构提升内存效率,每个token仅需70KB内存。 - 通过混合专家架构显著降低激活参数数量,训练成本减少一个数量级。 - 详情链接: https://arxiv.org/pdf/2505.09343 4. **Manus推出图像生成Agent:从文字到视觉的任务执行革命** - Manus推出的图像生成Agent不仅能生成高质量图像,还能理解用户意图并协同多种工具完成复杂任务。 - 支持多语言输入与上下文理解,适用于全球市场。 - 应用于创意设计、游戏开发和营销等领域,简化工作流程并增强自动化能力。 5. **ElevenLabs发布可定制音效控制面板SB-1 Infinite Soundboard** - ElevenLabs发布基于AI的可定制音效控制面板SB-1 Infinite Soundboard,支持文本驱动的音效生成。 - 适用于直播、影视、表演等场景,提升沉浸感与创作效率。 - 免费账户解锁全部功能,广受创作者欢迎。 6. **MiniMax Speech-02登顶全球TTS榜首** - MiniMax Audio推出的Speech-02系列语音模型凭借超高语音逼真度和多语言支持,在两大权威榜单上击败众多竞争对手。 - 包括Speech-02-HD和Speech-02-Turbo两款模型,分别针对高保真和实时应用场景优化。 - 核心技术突破包括零样本克隆和多语言支持,支持30+种语言。 7. **DeepL翻译服务升级:推出自研AI模型与写作助手** - DeepL推出了新的API,用户可以通过它访问自主研发的语言模型和写作助手DeepL Write。 - DeepL Write提供写作辅助,专注提升文本质量,支持33种语言。 - 承诺保护用户数据安全,不会利用用户内容训练模型。 8. **OpenAI领跑AI工具流量市场,谷歌暂居第二** - OpenAI的AI工具流量大幅增长,占据近80%市场份额。 - 谷歌的Gemini流量稳定在2500万,未成为首选AI产品。 - DeepSeek和Grok增长迅速,正挑战谷歌市场地位。 9. **Llamafile0.9.3震撼支持Qwen3:单文件运行大模型** - Llamafile0.9.3发布,支持Qwen3系列大语言模型,通过单文件集成实现跨平台便携性。 - Qwen3加持,性能卓越,支持119种语言,适合本地化AI应用。 - 跨平台兼容性强,支持多种CPU架构,提供Web GUI和API接口。 - 详情链接: https://localhost:8080 10. **SmolVLM登场:WebGPU驱动实时网络摄像头AI** - Hugging Face推出的SmolVLM多模态模型通过WebGPU技术实现实时网络摄像头图像识别。 - 无需服务器支持,所有计算在用户设备上完成,提升隐私保护。 - 开源生态里程碑,支持多种任务,包括图像描述、物体识别和视觉问答。 - 详情链接: https://hugging-face.co/spaces/webml-community/smolvlm-realtime-webgpu 11. **Hugging Face上线MCP免费教程:一天速成AI上下文协议** - Hugging Face推出了MCP免费在线课程,帮助开发者快速掌握AI上下文交互系统。 - 详解客户端-服务器架构与JSON-RPC2.0标准,轻松开发并集成外部资源。 - 社区支持与实践导向,开源项目、Discord交流、真实案例作业助力高效学习。 - 详情链接: https://huggingface.co/learn/mcp-course/unit0/introduction 12. **复旦携手腾讯推出说话人视频生成工具DICE-Talk** - DICE-Talk是一项由复旦大学与腾讯联合研发的视频生成工具,通过身份-情感分离处理机制解决了表情跳变的问题。 - 能够解构身份信息并协同情感生成,支持多种情感状态的自然过渡。 - 用户只需上传图像和音频即可生成对应情感的动态视频。 - 详情链接: https://github.com/toto222/DICE-Talk