【AI日报】EP.186 7月124 通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔

Aishaobing的个人播客

7分钟 ·1 年前

129

·

0

【AI大模型】谷歌发布全新 Gemini 2.5 Flash-Lite 稳定版

* 速度与成本达到良好平衡，支持高达100万 token 的上下文

* 定价具竞争力：每百万输入token为0.10美元，输出为0.40美元

* 开发者可通过指定模型名 gemini-2.5-flash-lite 使用新版本

【语音技术】腾讯混元自主研发ASR大模型接入ima平台

* 为ima平台提供高效的语音输入体验，实现手机App端语音输入

* 采用基于双编码器的流式ASR架构，在中英文混杂场景中表现突出

* 支持多语言及方言识别，未来将持续优化

【AI编程】通义千问开源最新AI编程大模型Qwen3-Coder

* 模型在代码生成和Agent能力上达到顶尖水平

* 拥有强大的MoE架构和256K长上下文处理能力

* 参数量高达480B，适用于大规模代码库和动态数据处理

详情链接:modelscope.cn

Hugging Face:huggingface.co

Qwen Code GitHub:github.com

【AI硬件】 360将推智能眼镜和AI录音笔

* AI录音笔能智能分析不同场景并总结要点

* 智能眼镜将配备显示功能，以创造新应用场景

* 智能眼镜可充当提词器和翻译工具，提升沟通效率

【医疗AI】国内首个通过主任医师评测的大模型已在夸克AI搜索上线

* 夸克健康大模型成功通过主任医师笔试评测，展现强大医学推理能力

* 通过构建“慢思考能力”，提升复杂医疗问题的处理能力

* 拥有千人规模专业医师标注团队，确保模型输出的专业性

【AI视频】 Hedra Live Avatars震撼发布，开启人机交互新纪元

* 超低成本：每分钟仅0.05美元，降低高质量视频AI代理的准入门槛

* 超低延迟：低于100毫秒的响应时间，确保实时交互的流畅性

* 高度灵活：兼容主流大语言模型和文本转语音技术

详情链接:www.hedra.com

【图像处理】谷歌 Gemini2.5革新图像处理功能

* 推出“对话式图像分割”，通过自然语言提示分析和突出显示图像内容

* 不止识别物体，更能理解抽象概念、关系查询和逻辑指令

* 开发者可通过 Gemini API 访问该功能，返回 JSON 格式结果

【AI大模型】 Meta 推出创新模型 AU-Nets，革新文本处理方式

* 通过自回归的 U-Net 结构，实现对文本的灵活处理

* 能够从原始字节开始学习并动态组合成多层次的序列表示

* 采用收缩和扩张路径，确保宏观语义信息和局部细节的有效融合

详情链接:github.com

【业界动向】苹果 AI 团队内部风波：自主研发与开源梦碎

* 苹果AI团队开源计划被高层否决，担忧模型在设备端性能不足

* 苹果坚持设备优先策略，限制了AI技术发展潜力

* 苹果或将转向与OpenAI、谷歌等第三方大模型合作以提升Siri功能

【AI动画】 Fogsight AI革新教育演示，一键生成教学动画

* 基于大型语言模型的AI动画引擎，将抽象概念转化为直观易懂的动画

* 输入关键词或短语，即可生成包含双语旁白和电影级视觉效果的动画短片

* 支持多轮对话调整动画内容，满足个性化需求

详情链接:github.com

在小宇宙打开