Ollama 携手 MLX 领航苹果芯片性能飞跃M7AI

Ollama 携手 MLX 领航苹果芯片性能飞跃

1分钟 ·
播放数0
·
评论数0

Ollama 迎来 MLX 时代:Apple Silicon 上的本地 AI 性能大爆发

1. 引言:打破本地 AI 的速度瓶颈

在 2026 年的今天,开发者对本地运行大模型(LLM)的追求已不再仅仅局限于隐私,而是对“极致心流”的渴望。过去,在 Mac 上运行 30B 以上规模的模型往往意味着必须在速度与精度之间做痛苦的取舍。缓慢的首字响应和频繁的内存溢出,曾是阻碍本地 AI 进入生产环境的“推理瓶颈”。然而,2026 年 3 月 30 日,Ollama 发布的 0.19 预览版彻底改写了这一现状。通过深度整合 Apple 自家的 MLX 机器学习框架,Ollama 正式打通了硬件底层的加速通道。这不仅是一次简单的版本更迭,更是一场关于计算效率的范式革命。

2. 核心突破:MLX 引擎与 M5 芯片的“化学反应”

此次更新的核心在于 Ollama 架构的重构:它现在原生运行在 MLX 之上,能够百分之百释放 Apple Silicon **统一内存架构(Unified Memory Architecture)**的潜力。在 M5、M5 Pro 和 M5 Max 芯片上,MLX 引擎通过全新的 GPU 神经加速器(GPU Neural Accelerators),实现了推理性能的指数级跃升。根据官方在 2026 年 3 月 29 日的测试数据,在运行 Qwen3.5-35B-A3B 模型时,性能提升令人惊叹:Prefill(预填充/吞吐量):性能从 1154 tokens/s 飙升至 1810 tokens/s。
Decode(生成速度):从 58 tokens/s 翻倍至 112 tokens/s。
极致潜力:在使用 int4 量化模式时,性能进一步压榨至 1851 tokens/s (Prefill) 和 134 tokens/s (Decode)。
“我们要由衷感谢 MLX 贡献者团队构建的加速框架,以及 NVIDIA 在 NVFP4 量化、模型优化器及 MLX CUDA 支持方面的深度贡献;同时感谢 GGML & llama.cpp 团队建立的繁荣社区,以及阿里巴巴 Qwen 团队开源的卓越模型。这种跨厂商、跨阵营的技术协作,是本地 AI 生态最强大的基石。”这种底层优化意味着,即便是在处理数千级的 Context Window 时,Mac 用户也能享受到近乎“零延迟”的反馈。

3. 跨界融合:NVFP4 格式带来的生产级一致性

在一个 Apple 设备驱动的框架中深度集成 NVIDIA 的技术,这听起来似乎有些反直觉,但 Ollama 0.19 引入的 NVFP4 格式正是这种技术融合的精华。NVIDIA 贡献者甚至参与了 MLX CUDA 支持 的开发,这种巨头间的协作让开发者获益匪浅。NVFP4 格式能够在大幅降低内存带宽和存储需求的同时,保持极高的模型精度。对于开发者而言,这实现了关键的**“生产环境对齐(Production Parity)”**:你在本地 Mac 上调试的模型表现,将与生产环境中 NVIDIA GPU 集群运行的结果保持高度一致。此外,这也意味着 Ollama 现在能够直接运行经由 NVIDIA Model Optimizer 深度优化的各类尖端模型。

4. 更聪明的缓存:为 AI Agent 时代的到来铺路

对于依赖 Claude Code、OpenClaw、Pi、OpenCodeCodex 等编程智能体及辅助工具的开发者来说,响应性就是生命线。Ollama 0.19 针对 Agent 工作流引入了三大缓存升级:低内存占用(跨对话重用):支持在不同对话间复用缓存。这意味着在使用 Claude Code 等工具进行**分支对话(Branching)**或共享系统提示词(System Prompt)时,内存开销大幅降低。
智能检查点(Intelligent Checkpoints):在 Prompt 的逻辑关键位自动存储缓存快照,大幅减少重复处理时间,实现瞬间响应。
更智能的驱逐机制(Smarter Eviction):即使旧的对话分支被清理,共享的前缀缓存也能持久保留,确保高频上下文始终处于就绪状态。
这些改进让本地 AI 在处理复杂、多分支的编程任务时,能够提供媲美甚至超越云端的流畅体验。

5. 即刻上手:配置要求与启动指令

由于 Qwen3.5-35B-A3B 模型规模较大且性能强劲,本次预览版有着明确的硬性硬件要求:Mac 设备需配备 32GB 以上的统一内存。针对这一特定的 qwen3.5:35b-a3b-coding-nvfp4 模型标签,其命名涵盖了架构、任务调优(Coding)以及 NVFP4 量化格式。你可以通过以下指令快速体验:适配编程助手模式(Claude Code):ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
适配智能体模式(OpenClaw):ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
通用终端交互:ollama run qwen3.5:35b-a3b-coding-nvfp4

6. 总结与展望:本地算力的未来跃迁

Ollama 0.19 预览版的发布,标志着本地 AI 性能瓶颈的全面瓦解。通过 MLX 的底层加速、NVFP4 的精度对齐以及针对 Agent 优化的缓存系统,本地设备正从“备用选项”进化为“首选推理平台”。官方已明确表示,未来将支持更多模型架构,并进一步简化自定义模型的导入流程。当本地设备的推理速度开始超越云端,且无需担心隐私与成本时,我们的工作流将发生怎样的范式转移?这种跨越硬件厂商的技术共建,是否预示着一个更加开放、无边界的 AI 时代的到来?

MLX框架主要通过以下几个核心机制显著提升了Ollama在Mac(特别是Apple Silicon)上的性能:

  • 充分发挥统一内存架构的优势: Ollama现在基于Apple的机器学习框架MLX构建,这使其能够最大化利用Apple Silicon独有的统一内存架构,从而在所有Apple Silicon设备上实现了大幅度的速度提升。
  • 调用全新的GPU神经加速器: 在最新的Apple M5、M5 Pro和M5 Max芯片上,Ollama通过MLX调用了GPU神经加速器(GPU Neural Accelerators),这不仅加快了首字生成时间(TTFT),还显著提高了整体生成速度(即每秒生成的token数量)
  • 处理速度的直接跃升: 在具体性能表现上,得益于MLX框架,Ollama的预填充(Prefill)性能从之前版本的 1154 tokens/s 提升至 1810 tokens/s,解码(Decode)性能更是从 58 tokens/s 提升至 112 tokens/s,实现了近乎翻倍的提升。

此外,伴随此次基于MLX的更新,Ollama还引入了对NVFP4格式的支持(在保持模型精度的同时降低内存带宽和存储需求),并且升级了缓存机制(包括更低的内存占用、智能检查点和更智能的缓存淘汰机制)。这些底层和机制上的优化共同作用,使得在macOS上运行如OpenClaw、Claude Code等对性能要求极高的个人助手和代码代理时,响应速度得到了质的飞跃。

NVFP4格式对模型质量和推理速度有以下显著影响:

对模型质量的影响:

  • 保持模型准确性: NVFP4格式能够在压缩模型的同时保持模型的准确性,从而提供更高质量的生成响应。
  • 实现生产环境级表现: 随着越来越多的推理提供商开始使用NVFP4格式,该格式让本地用户能够获得与生产环境完全一致的高质量推理结果

对推理速度的影响:

  • 降低系统资源占用: NVFP4格式有效减少了推理工作负载对内存带宽和存储空间的需求,从底层提升了运行效率。
  • 大幅提升生成速度: 采用NVFP4格式后,模型的处理速度(包括首个token的生成时间和每秒生成token数)得到了极大的加速。根据测试数据,使用NVFP4格式的Qwen3.5-35B-A3B模型相比此前使用Q4_K_M量化的旧版本,其预填充(Prefill)速度从1154 tokens/s跃升至1810 tokens/s解码(Decode)速度也从58 tokens/s几乎翻倍至112 tokens/s

Ollama 0.19版本对缓存机制进行了升级,主要目的是让编程和代理(agentic)任务变得更加高效。具体的改进包含以下三个方面:

  • 更低的内存占用(Lower memory utilization): Ollama现在能够跨对话重用缓存。这意味着在使用像Claude Code这样的工具并共享系统提示词进行分支时,可以减少内存的占用并提高缓存的命中率。
  • 智能检查点(Intelligent checkpoints): Ollama现在会在提示词(prompt)中的智能位置存储缓存快照,从而减少提示词的处理过程并实现更快的响应速度。
  • 更智能的淘汰机制(Smarter eviction): 即使旧的分支被丢弃,共享的前缀(shared prefixes)也能保留更长时间

这种性能提升以及相关底层机制的优化,对Claude Code等代码代理(Coding agents)工具产生了以下显著影响:

  • 全面加速响应速度: 性能的飞跃直接加速了Claude Code等代码代理工具的运行,使其能够更快速地响应,从而更高效地处理在macOS上最繁重的工作任务。
  • 更高效的内存利用与分支处理: 得益于升级后的缓存机制(跨对话重用缓存),在使用Claude Code等工具并通过共享系统提示词进行对话分支时,可以显著降低内存的占用率,并大幅提高缓存命中率
  • 提升代理任务的整体流畅度: 这些针对底层性能和缓存的改进共同作用,使得Claude Code在执行编程和复杂的代理任务(agentic tasks)时变得更加高效和流畅

Ollama现在基于Apple的机器学习框架MLX构建,能够充分利用其统一内存架构,这为所有Apple Silicon设备都带来了大幅度的速度提升。因此,即使是旧款的Apple Silicon芯片也能从中受益。

在Mac上运行Ollama 0.19的硬件要求主要包括以下两点:

  • 内存容量: 请确保您的Mac拥有超过32GB的统一内存(unified memory)
  • 处理器架构: 需要配备Apple Silicon芯片的Mac,因为Ollama现在是基于Apple的机器学习框架MLX构建的。该版本支持所有的Apple Silicon设备,但如果您使用的是最新的M5、M5 Pro或M5 Max芯片,系统还可以额外调用全新的GPU神经加速器(GPU Neural Accelerators),以获得更极致的性能提升。

运行包含NVFP4加速机制的Ollama 0.19预览版,主要对Mac的芯片架构和内存有以下要求:

  • 支持所有Apple Silicon设备: 得益于底层切换至Apple的机器学习框架MLX,所有搭载Apple Silicon芯片的Mac都能利用统一内存架构的优势,实现大幅度的速度提升。
  • M5系列芯片拥有专属加速: 如果您的Mac搭载的是最新的M5、M5 Pro或M5 Max芯片,Ollama还可以调用全新的GPU神经加速器(GPU Neural Accelerators),从而在首字生成时间(TTFT)和整体生成速度上获得更为极致的加速体验。
  • 统一内存要求: 无论您使用的是哪款Apple Silicon芯片,运行此版本都必须确保您的Mac拥有超过32GB的统一内存(unified memory)