阿里发布200亿参数图像生成大模型Qwen-Image
阿里通义千问团队在8月4日开源了其最新的图像生成模型——Qwen-Image,这是一个20B参数的MMDiT架构模型,专为下一代文生图任务设计,特别在生成带有原生文本的图形海报方面表现出色。
据项目介绍,Qwen-Image在文本渲染方面达到了业界领先水平,英文表现可与GPT-4o媲美,中文生成效果更是当前最佳。其最大亮点是实现像素级文本生成(In-pixel text generation),无需后期叠加,文字与图像自然融合,毫无违和感。
该模型支持中英文双语、多种字体(包括手写体)以及复杂多行排版,不仅能用于高质量海报、艺术创作,还可处理目标检测、语义分割、深度估计、新视角合成和超分辨率等多种图像理解任务,是一个真正的“全能型”视觉AI。
相关资源已全面开放,包括:
🔹 Hugging Face 模型
🔹 ModelScope 模型
🔹 GitHub 代码库
🔹 在线体验Demo
🔹 技术博客
腾讯混元开源四款端侧小模型,单卡即可部署
腾讯也在同一天宣布开源四款Hunyuan小模型,覆盖0.5B、1.8B、4B、7B四种参数规模,主打设备端轻量化部署,手机、平板、智能家居、车载系统均可运行。
这四款模型均原生支持256K长上下文,具备智能体(Agent)能力,能完成任务规划、工具调用和复杂决策。开发者可选择“快思考”模式进行快速推理,或“慢思考”模式进行深度分析,灵活适应不同场景。
模型已支持SGLang、vLLM、TensorRT-LLM等主流推理框架,单卡即可部署,极大降低了AI应用门槛。腾讯表示此举旨在构建更完整的开源大模型生态,推动垂直领域低成本微调。
项目地址:
🔸 Hunyuan-0.5B
🔸 Hunyuan-1.8B
🔸 Hunyuan-4B
🔸 Hunyuan-7B
👉 试用链接:hunyuan.tencent.com
ChatGPT周活激增至7亿,OpenAI强化心理安全机制
OpenAI旗下ChatGPT用户增长势头惊人,最新数据显示其周活跃用户已接近7亿,较今年3月的5亿大幅增长40%,相比去年同期更是翻了两番。
面对庞大的用户基数,OpenAI近期宣布将加强心理健康安全机制。新功能包括:在长时间对话后提醒用户“是否需要休息一下?”,以避免过度依赖;同时优化模型对情绪困扰和妄想迹象的识别能力。
此外,在涉及高风险决策(如感情问题)时,ChatGPT将不再给出明确建议,而是引导用户分析利弊,帮助其自主思考,而非提供“答案”。
其他AI前沿动态速览
- Cognitive Kernel-Pro:腾讯开源的多模块AI智能体框架,通过高质量数据构建和运行时优化策略,在GAIA等基准测试中实现开源Agent的SOTA表现。👉 GitHub
- PixNerd:无需VAE、无需多阶段流程的端到端像素级图像生成模型,在ImageNet上实现2.15 FID,性能媲美主流方案。👉 论文
- DAEDAL:一种训练-free的动态长度适配策略,解决扩散语言模型(DLLM)的静态长度瓶颈,提升效率与性能。👉 论文
- Price Per Token:一个实时对比主流AI模型价格的工具网站,支持按Prompt计算成本,帮助开发者和企业选择性价比最高的AI服务。👉 pricepertoken.com
结语
从阿里、腾讯的密集开源,到OpenAI对AI伦理的持续投入,AI领域正加速走向开放、高效与负责任的发展路径。模型能力不断提升的同时,轻量化、实用性与安全性也被提上日程。未来,我们或将看到更多‘大模型能力,小模型运行’的创新应用落地于日常设备中。
