端侧AI推理技术周报 | 2025-06-11

端侧AI推理技术周报

8分钟 ·1 年前

49

·

1

本周聚焦：端侧（Edge & On‑Device）AI 硬件、AI 编译器更新、端侧推理框架 / 引擎，以及它们对新模型的支持。

端侧 AI 硬件快讯

NVIDIA Jetson Thor SoC：黑威 (Blackwell) 架构边缘 SoC，在 GTC Paris 演示视频 AI 与全栈推理性能，集成安全岛，面向机器人与车端计算。(advantech.com, nvidia.com)

Qualcomm Snapdragon AR1+ Gen 1：支持高达 1 B 参数的小语言模型，功耗优化 26%，定位下一代智能眼镜。(investors.com)

Apple M4 Neural Engine：iPad Pro 新 SoC，38 TOPS，超过主流 AI PC NPU，适合本地 LLM 推理。(apple.com)

AI 编译器动态

Apache TVM Unity：发布 0.14，加入 dynamic shape 支持与端侧 GPU autotune 预设，MLC‑LLM 文档同步更新。(llm.mlc.ai)

Mojo v25.3：pip install modular 一键获取 Mojo + MAX，开放 Hopper GPU kernel；Roadmap 提出“简化张量类型、改进 GPU Kernel DSL”。(github.com, forum.modular.com)

ONNX Runtime Mobile 1.20：裁剪版体积降至 4 MB，新增 CPU FP8 Path & Arm Neon 优化。(github.com)

端侧推理框架 / 引擎

Qualcomm AI Inference Suite 开放免费 Token，支持 XR/IoT 设备一键量化部署。(qualcomm.com)

NVIDIA TensorRT‑LLM Jetson Preview 上线，集成 FP4/K‑Quant 支持，适配 Orin & Thor 平台。(forums.developer.nvidia.com)

ONNX Runtime Mobile + Core ML Tools 8：iOS 18 适配完成，支持 M4 Neural Engine FP8。(github.com)

新模型兼容与优化

Llama‑3 8B‑Q4 推理 在 Jetson Orin 64 GB 实测 15 tokens/s，功耗 < 30 W（GPT‑Q + TensorRT‑LLM）。(forums.developer.nvidia.com)

Phi‑3 mini 已在 TVM Unity 自动调优列表；Mojo MAX Release 25.2 新增 Granite‑7B、Olmo‑1.5B Kernel。(github.com)

⭐ 一句话点评

端侧 AI 生态正在形成“三位一体”闭环：高效硬件 + 软硬协同编译器 + 轻量化推理框架。Blackwell‑Jetson 与 AR1+ 抢占机器人 / XR 下一波算力入口；TVM Unity 与 Mojo MAX 则为多端通用推理铺路。

展开Show Notes

2026.1.30

怎么不更新了呀

在小宇宙打开