端侧AI推理技术周报 | 2025-06-11

端侧AI推理技术周报 | 2025-06-11

8分钟 ·
播放数49
·
评论数1
本周聚焦:端侧(Edge & On‑Device)AI 硬件、AI 编译器更新、端侧推理框架 / 引擎,以及它们对新模型的支持。

端侧 AI 硬件快讯

  • NVIDIA Jetson Thor SoC:黑威 (Blackwell) 架构边缘 SoC,在 GTC Paris 演示视频 AI 与全栈推理性能,集成安全岛,面向机器人与车端计算。(advantech.com, nvidia.com)
  • Qualcomm Snapdragon AR1+ Gen 1:支持高达 1 B 参数的小语言模型,功耗优化 26%,定位下一代智能眼镜。(investors.com)
  • Apple M4 Neural Engine:iPad Pro 新 SoC,38 TOPS,超过主流 AI PC NPU,适合本地 LLM 推理。(apple.com)

AI 编译器动态

  • Apache TVM Unity:发布 0.14,加入 dynamic shape 支持与端侧 GPU autotune 预设,MLC‑LLM 文档同步更新。(llm.mlc.ai)
  • Mojo v25.3pip install modular 一键获取 Mojo + MAX,开放 Hopper GPU kernel;Roadmap 提出“简化张量类型、改进 GPU Kernel DSL”。(github.com, forum.modular.com)
  • ONNX Runtime Mobile 1.20:裁剪版体积降至 4 MB,新增 CPU FP8 Path & Arm Neon 优化。(github.com)

端侧推理框架 / 引擎

  • Qualcomm AI Inference Suite 开放免费 Token,支持 XR/IoT 设备一键量化部署。(qualcomm.com)
  • NVIDIA TensorRT‑LLM Jetson Preview 上线,集成 FP4/K‑Quant 支持,适配 Orin & Thor 平台。(forums.developer.nvidia.com)
  • ONNX Runtime Mobile + Core ML Tools 8:iOS 18 适配完成,支持 M4 Neural Engine FP8。(github.com)

新模型兼容与优化

  • Llama‑3 8B‑Q4 推理 在 Jetson Orin 64 GB 实测 15 tokens/s,功耗 < 30 W(GPT‑Q + TensorRT‑LLM)。(forums.developer.nvidia.com)
  • Phi‑3 mini 已在 TVM Unity 自动调优列表;Mojo MAX Release 25.2 新增 Granite‑7B、Olmo‑1.5B Kernel。(github.com)

⭐ 一句话点评

端侧 AI 生态正在形成“三位一体”闭环:高效硬件 + 软硬协同编译器 + 轻量化推理框架。Blackwell‑Jetson 与 AR1+ 抢占机器人 / XR 下一波算力入口;TVM Unity 与 Mojo MAX 则为多端通用推理铺路。
展开Show Notes
Rita_Xiong
Rita_Xiong
2026.1.30
怎么不更新了呀