【AI日报】EP.192 8月6 阿里推全新图片模型Qwen-Image;小米全量开源MiDashengLM-7BAishaobing的个人播客

【AI日报】EP.192 8月6 阿里推全新图片模型Qwen-Image;小米全量开源MiDashengLM-7B

9分钟 ·
播放数153
·
评论数1

【开源模型】 🔊 小米全量开源MiDashengLM-7B

* 音频理解性能刷新SOTA,推理效率高出业界20倍

* 双核心架构,融合专业音频处理与语言理解

* 支持终端离线部署,降低使用成本

【AI应用】 ✍️ 腾讯AI工作台ima推出新功能

* 支持AI播客生成,帮助消化长篇文章

* 新增文件夹一键导入及Xmind脑图导入功能

* 支持知识库内容置顶,提升检索效率

【AIGC】 🎨 阿里通义千问开源文生图模型Qwen-Image

* 在文本渲染和图像编辑方面表现出色

* 支持多行、段落级文本生成,能精准渲染复杂场景和中文书法

* 具备风格迁移、物体增减等专业级图像编辑能力

详情链接: modelscope.cn

【行业动态】 📈 ChatGPT周活达7亿,OpenAI年化收入达120亿美元

* 周活跃用户达到7亿,同比增长超四倍

* 年化收入达到120亿美元,远超预期

* 新增休息提醒功能,关注用户健康

【AI模型】 🤫 Anthropic疑似内测Claude Opus 4.1,代号leopard

* 新模型主打问题解决能力,强化逻辑推理与复杂任务处理

* 代号"leopard"暗示更快的响应速度和精准分析能力

* 内测版本表明已进入生产环境测试,接近正式发布

【开发工具】 💻 智谱推出开发效率工具Zread.ai,搭载GLM-4.5

* 提供一站式代码理解与文档生成服务

* 可自动生成项目导读,涵盖架构解析、模块说明等

* 背后采用GLM-4.5模型,支持深入技术问答

【AIGC】 🎬 xAI 发布 Grok Imagine4,支持文生图与视频并开放NSFW内容

* 文生图生成速度快,接近实时浏览体验

* 支持图生视频,但画面细节和流畅性有待优化

* 原生支持NSFW内容生成,引发伦理讨论

【AI技术】 📹 阿里与南开大学推出视频压缩新技术LLaVA-Scissor

* 旨在解决传统视频模型中token数量激增的问题

* 通过SCC算法减少token数量,同时保留关键语义信息

* 在低token保留率下仍表现出色,尤其在视频问答任务中

【机器人】 🤖 北京人形机器人创新中心发布全球首个人形机器人3D视觉系统

* 采用Humanoid Occupancy视觉感知系统,实现三维空间精细化建模

* 支持多模态传感器协同工作,提升环境信息整合能力

* 构建大规模数据集,为研究提供宝贵资源

详情链接: arxiv.org

【机器人】 🦾 OpenMind推出机器人操作系统OM1,打造“机器人领域的安卓”

* 专注于机器人软件生态,旨在成为机器人领域的Android

* FABRIC协议构建信任和协作网络,提升群体智能

* 选择家庭场景作为切入点,满足人性化交互需求

展开Show Notes
Baca
Baca
2025.8.06
新闻刚好错过了OpenAI的最新开源模型啊