【AI日报】EP.194 8月8 阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1Aishaobing的个人播客

【AI日报】EP.194 8月8 阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1

6分钟 ·
播放数179
·
评论数0

【模型更新】 🧠 阿里新发布Qwen3-4B模型:小巧强劲,手机也能跑 AI!

*   阿里通义千问团队发布的小型语言模型,为移动端AI应用提供新路径。

*   Qwen3-4B-Instruct-2507性能超越闭源模型GPT-4.1-nano,接近大规模模型Qwen3-30B-A3B。

*   Qwen3-4B-Thinking-2507在数学推理评测中表现出强大的逻辑推理能力。

【模型开源】 📖 小红书发布开源多模态大模型 dots.vlm1

*   由小红书Hi Lab发布,基于NaViT视觉编码器和DeepSeek V3大语言模型。

*   在图表推理、STEM数学推理等方面表现突出,性能接近Gemini2.5Pro和Seed-VL1.5。

*   采用原生自研的NaViT视觉编码器,支持动态分辨率,提升了图文对齐质量。

【模型上线】 🗣️ MiniMax Speech 2.5语音生成模型上线

*   新一代语音生成模型,在中文方面保持全球最强水平。

*   支持40种语言切换,音色复刻达到行业天花板级精度。

*   多语种覆盖范围扩展至40个语种,助力全球化内容创作。

【产品更新】 🎬 Midjourney 推出 HD 视频模式

*   为专业用户提供更高清、更高质量的视频生成工具。

*   分辨率和清晰度显著提升,成本约为SD模式的3.2倍。

*   通过不断优化技术,与OpenAI的Sora和Runway的Gen-4等展开竞争。

【工具更新】  CURSOR 1.4正式发布:聚焦异步长程任务

*   增强异步和长程任务处理能力,支持后台Agent运行。

*   优化大型代码库的索引与搜索功能,提升代码补全和查询效率。

*   推动AI编码工具向全自动化转型,增强Agent自主性及协作功能。

详情链接:cursor.com

【行业动态】 📈 谷歌否认AI搜索功能影响网站流量

*   谷歌声称AI搜索未显著影响网站流量,但数据显示零点击搜索比例显著增加。

*   谷歌强调点击质量提高,但未提供具体数据支持其结论。

*   用户趋势转向Reddit和TikTok等其他平台,导致谷歌流量变化。

【模型开源】 📱 MiniCPM-V4.0开源发布,堪称“手机上的GPT-4V”

*   轻量级多模态大模型,参数量仅4.1B,展现强大的图像、视频理解能力。

*   在iPhone16Pro Max上实测,首次响应延迟不到2秒,解码速度超17token/秒。

*   提供丰富的生态支持,兼容主流框架,并提供iOS应用及教程。

详情链接:github.com

【硬件支持】 💻 AMD、高通宣布旗下硬件支持 gpt-oss 系列开放模型

*   AMD与高通联合宣布支持OpenAI的gpt-oss系列模型,推动边缘计算与AI结合。

*   锐龙AI Max+395处理器成为首款运行gpt-oss-120b的消费级AI PC处理器。

*   高通骁龙平台展示了gpt-oss-20b的出色推理能力。

【框架开源】 📦 腾讯重磅开源WeKnora!

*   基于大语言模型的文档理解与检索工具,能从PDF、Word等格式中提取结构化内容。

*   支持多模态文档解析、多轮对话和自然语言查询。

*   采用模块化架构设计,便于灵活配置和扩展。

详情链接:github.com

【行业传闻】 📢 OpenAI 旗舰模型 GPT-5详细信息疑似在 GitHub 上提前泄露

*   一份疑似GPT-5的详细说明信息在GitHub Models平台上意外曝光。

*   GPT-5被描述为OpenAI最先进的模型,在推理、代码质量和用户体验方面有重大改进。

*   信息显示GPT-5将推出gpt-5、gpt-5-mini、gpt-5-nano和gpt-5-chat等多个版本。

【新品发布】 🎤 FlowSpeech: 全球首个书面语转口语的TTS

*   创新的AI文本转语音工具,能将书面文字转化为自然流畅的口语表达。

*   通过上下文感知和多模态技术,解决传统TTS语调和情感表达不足的问题。

*   计划推出个性化声音定制服务,拓展应用边界。

详情链接:listenhub.ai