【AI日报】EP.190 8月1 GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaperAishaobing的个人播客

【AI日报】EP.190 8月1 GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper

7分钟 ·
播放数133
·
评论数0

【开源项目】

🤖 阿里开源WebAgent项目WebShaper

* 模拟人类搜索行为,GAIA评测中性能超越Claude4-Sonnet

* WebSailor-72B模型在权威评测中超越多数闭源模型

* 项目提供工业级训练框架和评估标准,降低AI智能体使用门槛

项目链接: github.com

论文链接: arxiv.org

【AI视频】

📹 Moonvalley发布Sketch-to-Video功能

* 支持通过手绘草图和文本描述生成电影级高质量视频

* 功能依托Marey模型,使用授权素材训练以确保版权安全

* 显著降低视频制作成本与门槛,赋能全球创作者

【大模型】

🎨 腾讯发布X-Omni多模态模型

* 解决AI模型在图像生成中的文字渲染不准确问题,尤其擅长长文本渲染

* 采用强化学习框架和统一建模技术,提升输出的稳定性和准确性

* 在长文本渲染和图像理解任务中超越主流模型

项目链接: x-omni-team.github.io

论文链接: arxiv.org

【行业动态】

🔍 百度搜索测试AI应用中心入口

* 在电脑端首页灰度测试智能体应用入口,提升用户搜索体验

* 智能体主要来源于文心智能体平台、外部优质AI及百度自研应用

* 功能目前处于测试阶段,尚未获得官方正式回应

【AI图像】

✨ Midjourney推出“为您推荐”功能

* 在探索页面新增“为您推荐”按钮,提供个性化的图片与视频内容

* 基于用户历史交互数据(如点赞、moodboard上传)和偏好学习算法进行推荐

* 推荐结果支持参数调整,以优化输出效果

【大模型】

🤫 GPT-5-Auto与GPT-5-Reasoning现身Mac客户端

* GPT-5-Reasoning专注于复杂任务的逻辑拆解与多步推理

* GPT-5-Auto具备高度自动化能力,可执行多步骤任务,减少用户干预

* 预示OpenAI下一代模型已进入内部测试阶段,预计2025年夏季正式发布

【AI工具】

💻 Ollama发布桌面客户端

* 提供图形化界面,支持拖拽文档和多模态识别,告别命令行操作

* 保持本地运行优势,保障用户数据隐私与合规要求

* 降低了本地部署和使用AI模型的门槛

详情链接: ollama.com

【开源项目】

🤝 OWL团队开源多智能体工具Eigent

* 通过多层次并行处理机制,革新复杂任务处理效率

* 支持动态创建Workforce,整合多种数据源和工具,灵活定制

* 引入“Human-in-the-Loop”机制,允许用户在关键节点人工干预

详情链接: github.com

【商业】

💰 OpenAI今年收入激增至120亿美元

* 今年前七个月收入已达120亿美元,月收入预计将达到10亿美元

* 周活跃用户数突破7亿,显示其产品的广泛市场认可

* 目标到2029年实现年收入1250亿美元,展现雄心壮志

【硬件】

⚖️ 英伟达H20芯片因安全风险被国信办约谈

* 国信办关注其“追踪定位”和“远程关闭”技术带来的安全风险

* 要求英伟达详细说明其对华销售芯片的漏洞后门问题

* 网信办依据《网络安全法》等法规要求英伟达提交相关证明材料

【AI视频】

🏆 万兴科技天幕2.0模型携手华为云

* 天幕2.0模型在SuperCLUE权威榜单中位列国内第四

* 与华为云共建AI视频大模型实验室,推动行业技术革新

* 未来合作有望拓展至更多领域,提升用户数字创意体验