【AI日报】EP.186 7月124 通义开源AI编程大模型Qwen3-Coder;​360将推智能眼镜和AI录音笔Aishaobing的个人播客

【AI日报】EP.186 7月124 通义开源AI编程大模型Qwen3-Coder;​360将推智能眼镜和AI录音笔

7分钟 ·
播放数127
·
评论数0

【AI大模型】 谷歌发布全新 Gemini 2.5 Flash-Lite 稳定版

* 速度与成本达到良好平衡,支持高达100万 token 的上下文

* 定价具竞争力:每百万输入token为0.10美元,输出为0.40美元

* 开发者可通过指定模型名 gemini-2.5-flash-lite 使用新版本

【语音技术】 腾讯混元自主研发ASR大模型接入ima平台

* 为ima平台提供高效的语音输入体验,实现手机App端语音输入

* 采用基于双编码器的流式ASR架构,在中英文混杂场景中表现突出

* 支持多语言及方言识别,未来将持续优化

【AI编程】 通义千问开源最新AI编程大模型Qwen3-Coder

* 模型在代码生成和Agent能力上达到顶尖水平

* 拥有强大的MoE架构和256K长上下文处理能力

* 参数量高达480B,适用于大规模代码库和动态数据处理

详情链接:modelscope.cn

Hugging Face:huggingface.co

Qwen Code GitHub:github.com

【AI硬件】 360将推智能眼镜和AI录音笔

* AI录音笔能智能分析不同场景并总结要点

* 智能眼镜将配备显示功能,以创造新应用场景

* 智能眼镜可充当提词器和翻译工具,提升沟通效率

【医疗AI】 国内首个通过主任医师评测的大模型已在夸克AI搜索上线

* 夸克健康大模型成功通过主任医师笔试评测,展现强大医学推理能力

* 通过构建“慢思考能力”,提升复杂医疗问题的处理能力

* 拥有千人规模专业医师标注团队,确保模型输出的专业性

【AI视频】 Hedra Live Avatars震撼发布,开启人机交互新纪元

* 超低成本:每分钟仅0.05美元,降低高质量视频AI代理的准入门槛

* 超低延迟:低于100毫秒的响应时间,确保实时交互的流畅性

* 高度灵活:兼容主流大语言模型和文本转语音技术

详情链接:www.hedra.com

【图像处理】 谷歌 Gemini2.5革新图像处理功能

* 推出“对话式图像分割”,通过自然语言提示分析和突出显示图像内容

* 不止识别物体,更能理解抽象概念、关系查询和逻辑指令

* 开发者可通过 Gemini API 访问该功能,返回 JSON 格式结果

【AI大模型】 Meta 推出创新模型 AU-Nets,革新文本处理方式

* 通过自回归的 U-Net 结构,实现对文本的灵活处理

* 能够从原始字节开始学习并动态组合成多层次的序列表示

* 采用收缩和扩张路径,确保宏观语义信息和局部细节的有效融合

详情链接:github.com

【业界动向】 苹果 AI 团队内部风波:自主研发与开源梦碎

* 苹果AI团队开源计划被高层否决,担忧模型在设备端性能不足

* 苹果坚持设备优先策略,限制了AI技术发展潜力

* 苹果或将转向与OpenAI、谷歌等第三方大模型合作以提升Siri功能

【AI动画】 Fogsight AI革新教育演示,一键生成教学动画

* 基于大型语言模型的AI动画引擎,将抽象概念转化为直观易懂的动画

* 输入关键词或短语,即可生成包含双语旁白和电影级视觉效果的动画短片

* 支持多轮对话调整动画内容,满足个性化需求

详情链接:github.com