【AI日报】EP.217 9月19 可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上

Aishaobing的个人播客

6分钟 ·10个月前

142

·

0

【效率工具】 ⚙️ 可灵AI发布数字人新功能：一张图片生成1分钟高清视频

从静态图片到动态视频，几步即可生成高质量数字人内容。

支持文字/音频驱动与多语种，为教育、培训与宣传降本增效。

- 项目链接：klingavatar.github.io

【技术突破】 🚀 腾讯混元携高校推出SRPO：给生成图像“去油”更逼真

引入语义相对偏好优化与Direct-Align，显著提升真实感并降低重建误差。

训练高效，10分钟即可超越现有方法，真实度与美学评分大幅提升。

- 项目链接：tencent.github.io

【开源项目】 🧩 IBM开源Granite-Docling-258M：企业级文档AI模型上线

端到端保留版式结构，精准提取表格、代码与公式，优于传统OCR。

多语种支持与新架构上阵，相比SmolDocling全面进化。

- 项目链接：huggingface.co

【行业动态】 📰 Meta发布首款带屏幕AI眼镜Ray-Ban：随身智能助理更近一步

镜片内置显示，搭配神经腕带肌电识别，实现更自然的交互。

连接云端可用Meta应用、导航与实时翻译，减少对手机依赖。

【行业动态】 📰 DeepSeek R1登上Nature封面：大模型首次通过同行评审

强化学习驱动自主演化，推理能力显著提升。

AIME2024成绩由15.6%跃升至71.0%，与顶级模型相当。

【行业动态】 📰 OpenAI为ChatGPT网页端上线“Thinking时长”可调功能

用户可在GPT-5模式下调节思考时长，平衡回复速度与智能程度。

同步推进儿童版ChatGPT研发，强化未成年人使用安全。

【行业动态】 📰 抖音上线“AI求真”功能：助你识谣辨真更安心

一键跳转“求真卡”，联合辟谣大模型与团队提升信息透明度。

面向全平台误导内容治理，增强用户保护能力。

【开源项目】 🧩 通义DeepResearch发布全开源AI模型：让AI“会做研究”

多项权威基准名列前茅，性能超越多款国际模型。

模型、框架与方案全面开源，推动科研协作与复现。

在小宇宙打开