端侧AI推理技术周报 | 2025-06-11
8分钟
·
49
·
1
本周聚焦:端侧(Edge & On‑Device)AI 硬件、AI 编译器更新、端侧推理框架 / 引擎,以及它们对新模型的支持。
端侧 AI 硬件快讯
- NVIDIA Jetson Thor SoC:黑威 (Blackwell) 架构边缘 SoC,在 GTC Paris 演示视频 AI 与全栈推理性能,集成安全岛,面向机器人与车端计算。(advantech.com, nvidia.com)
- Qualcomm Snapdragon AR1+ Gen 1:支持高达 1 B 参数的小语言模型,功耗优化 26%,定位下一代智能眼镜。(investors.com)
- Apple M4 Neural Engine:iPad Pro 新 SoC,38 TOPS,超过主流 AI PC NPU,适合本地 LLM 推理。(apple.com)
AI 编译器动态
- Apache TVM Unity:发布 0.14,加入 dynamic shape 支持与端侧 GPU autotune 预设,MLC‑LLM 文档同步更新。(llm.mlc.ai)
- Mojo v25.3:
pip install modular 一键获取 Mojo + MAX,开放 Hopper GPU kernel;Roadmap 提出“简化张量类型、改进 GPU Kernel DSL”。(github.com, forum.modular.com) - ONNX Runtime Mobile 1.20:裁剪版体积降至 4 MB,新增 CPU FP8 Path & Arm Neon 优化。(github.com)
端侧推理框架 / 引擎
- Qualcomm AI Inference Suite 开放免费 Token,支持 XR/IoT 设备一键量化部署。(qualcomm.com)
- NVIDIA TensorRT‑LLM Jetson Preview 上线,集成 FP4/K‑Quant 支持,适配 Orin & Thor 平台。(forums.developer.nvidia.com)
- ONNX Runtime Mobile + Core ML Tools 8:iOS 18 适配完成,支持 M4 Neural Engine FP8。(github.com)
新模型兼容与优化
- Llama‑3 8B‑Q4 推理 在 Jetson Orin 64 GB 实测 15 tokens/s,功耗 < 30 W(GPT‑Q + TensorRT‑LLM)。(forums.developer.nvidia.com)
- Phi‑3 mini 已在 TVM Unity 自动调优列表;Mojo MAX Release 25.2 新增 Granite‑7B、Olmo‑1.5B Kernel。(github.com)
⭐ 一句话点评
端侧 AI 生态正在形成“三位一体”闭环:高效硬件 + 软硬协同编译器 + 轻量化推理框架。Blackwell‑Jetson 与 AR1+ 抢占机器人 / XR 下一波算力入口;TVM Unity 与 Mojo MAX 则为多端通用推理铺路。