【AI日报】EP.157 5月30 DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AIAishaobing的个人播客

【AI日报】EP.157 5月30 DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI

9分钟 ·
播放数134
·
评论数0

**AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线**

1. **DeepSeek R1-0528震撼发布**

   - 支持128K超大上下文,推理能力和代码生成能力大幅提升,且保持免费使用。

   - 适合复杂任务,文本召回测试准确度显著提升。

   - 代码生成与写作能力优化,媲美顶级模型。

   - 免费开放策略降低使用门槛,挑战传统AI商业模式。

   - 详情链接: <huggingface.co>

2. **字节发布图像Agent“小云雀AI”**

   - 通过简单的指令快速生成高质量的视频和图片,降低内容创作的技术门槛。

   - 用户只需一句指令,‘小云雀AI’就能主动思考并生成爆款视频与图片。

   - 基于自研‘云雀’大模型,融合深度学习与多模态技术。

   - 当前已上线安卓客户端,iOS版本预计6月发布。

3. **可灵2.1重磅上线**

   - 价格大幅降低65%,性价比显著提升。

   - 新增标准版、高品质版与大师版三种模型,满足不同用户需求。

   - 生成效果优于前版本,速度更快,适合短视频和广告制作。

4. **全球首款AI代理浏览器Opera Neon发布**

   - 通过AI驱动的智能聊天、任务自动化及内容创作功能,重新定义了网络体验。

   - 能主动执行搜索、表单填写、购物等任务,提升用户效率。

   - 内置AI助手Neon Chat支持多语言交互,提供上下文相关答案。

   - 详情链接: <www.operaneon.com>

5. **Meta发布Multi-SpatialMLLM**

   - 通过整合深度感知、视觉对应和动态感知三大组件,显著提升了多模态大语言模型的空间理解能力。

   - 利用MultiSPA数据集及五项任务训练,大幅提升了多帧空间推理能力。

   - 在多项基准测试中表现出色,超越传统模型。

6. **通义实验室、北大发布新技术ZeroSearch**

   - 通过模拟搜索引擎激活大语言模型的检索能力,大幅降低训练成本达88%。

   - 采用结构化训练模板和“模拟微调”策略,提升生成文档质量及模型泛化能力。

   - 实验表明,ZeroSearch性能优于传统方法,尤其在大规模模型中表现更佳。

   - 详情链接: <arxiv.org>

7. **字节推出全新AI剪辑应用“剪小映”**

   - 主打AI视频剪辑,降低创作门槛,让用户轻松制作高质量视频。

   - 集成AI技术,鼓励用户分享生活。

   - 火山引擎豆包大模型为应用提供强大支持,提升视频处理效率。

8. **MotionPro炸场! AI视频生成革命来袭**

   - 通过区域轨迹和运动掩码技术实现精细化控制,为视频生成带来灵活性和精确性。

   - 同时控制物体与镜头运动,无需特定数据集,支持复杂镜头和物体轨迹的精准生成。

   - 开源生态支持,提供优化的训练框架和数据构建工具。

   - 详情链接: <huggingface.co>

9. **马斯克的xAI与Telegram达成3亿美元合作协议**

   - xAI支付3亿美元部署Grok AI聊天机器人,提升Telegram用户体验并增加收入。

   - Grok AI将提升Telegram用户交流体验,提供智能化聊天服务。

   - 合作将使Telegram盈利模式多样化,推动社交媒体智能化进程。

10. **OpenAI CFO透露重组新架构为未来可能的IPO打开大门**

    - OpenAI正在进行组织重组为IPO做准备,但上市时机取决于市场氛围。

    - 微软投资超130亿美元,OpenAI转型公共利益公司平衡股东回报与社会责任。

    - 稳定性是关键,上市需公司准备充分且市场窗口合适。

11. **像素蛋糕“方糖大模型”成功获批**

    - 通过国家网信办备案,成为影像行业首个获官方资质的应用级图像大模型。

    - 自主研发彰显像素蛋糕在AI技术领域的实力与创新能力。

    - 符合国家政策要求,确保用户使用环境的安全与可靠性。

12. **开源+低成本! Paper2Poster让学术论文秒变学术海报**

    - 将PDF论文自动转化为结构清晰、视觉友好的学术海报,效率远超传统手动方式。

    - 生成一张海报仅需0.005美元,开源特性降低学术工具使用门槛。

    - 发布100个论文-海报对的数据集,推动多模态内容生成领域规范化发展。

    - 详情链接: <arxiv.org>

13. **Resemble AI开源TTS Chatterbox**

    - 基于0.5B规模的LLaMA架构,训练数据超50万小时。

    - 盲测中63.75%的听众更偏好其真实感和流畅度。

    - 支持实时合成,延迟低于200ms,具备零样本语音克隆与情感夸张控制功能。

    - 开源特性降低门槛,嵌入水印技术确保内容可追溯。

    - 详情链接: <github.com>

14. **蚂蚁集团开源Ming-lite-omni**

    - 220亿参数的多模态模型,具备强大能力。

    - 模型权重和推理代码已向公众开放,促进开发者使用。

    - 性能对标GPT-4o,成为开源多模态领域的重要选择。