十倍提速,丐版Mac Mini用本地模型,多并发爽玩Openclaw,oMLX苹果生态的新星
By 小天fotos
Summary
## Key takeaways - **丐版Mac Mini数十倍提速**: 连16G的盖板Mac Mini经过优化,都能有数十倍速度提升,还能高并发跑Qwen2.5 3.5B 4bit模型,速度一点都不慢。LM Studio部署同样模型问三个问题用了五分钟。 [00:13], [01:34] - **瓶颈是Prefill而非输出**: Mac跑AI慢不是输出速度慢,而是Prefill处理20K token的CPU计算极慢,每次问问题都要等几十秒读一篇万字长文才能开始回答。 [03:35], [03:53] - **缺少前缀缓存致重复计算**: LM Studio不支持Qwen2.5的前缀缓存,每次提问都重新处理19K不变的系统提示词和工具描述,导致每回都要等几十秒。 [04:09], [05:13] - **OMLX支持SSD分页缓存**: OMLX把KV缓存存到无线SSD上,支持分页缓存,相同提示词部分只保存一份,即使开10个Cloud Code窗口也能高效并发,秒开新session。 [06:37], [07:10] - **高并发榨干Apple Silicon**: 传统MLX假设单用户,缺乏agent时代多并发设计灵魂;OMLX用生产级分页缓存,让盖板Mac Mini养多只虾同时用,2-4线程最大化利用算力。 [06:04], [13:20] - **基准测试显并发优势**: OMLX内置基准测试不同并发和上下文速度,相同提示词触发缓存命中产生5倍多速度,在一台设备上用2-4线程并发最大程度榨干显存和计算资源。 [12:16], [13:10]
Topics Covered
- Mac慢因prefill而非输出
- 前缀缓存复用系统提示
- KV缓存存SSD支持高并发
- OMLX分页缓存共享提示
- M5芯片或实现agent swarm
Full Transcript
朋友 们 这次 是 一个 拯救 你们 手里 Mac 设备 的 视频 啊 我 最近 刷 的 好多 视频 有 很多 博主 都 在
Mac mini 上 部署 龙虾 嘛 有 的 甚至 还是 上 万块 钱 的 设备 但是 都 有 一个 通病 就是 巨漫 无比 问 一个
问题 要 好几分钟 但是 哎 经过 我 的 一番 折腾 啊 连 我 这个 盖板 的 16G 的 Mac mini 居然 都 有 数十倍
的 优化 而且 还 可以 高 并发 的 跑 千万 3.54 B 的 模型 而且 速度 一点 都 不慢 所以 如果 你们 也 想 拯救
手里 的 Mac 想要 让 这个 Mac 发光 发热 那 一定 要 把 这期 视频 看 完 这次 不光 有 一些 干货 的 知识 分享
还有 手把手 的 教程 事情 是 这 样子 前 几天 我 的 小龙虾 给 我 找到 了 一个 23 天前 的 帖子 就是 这个
帖子 我 看 完 之后 十分 震惊 我 还 找到 这个 作者 的 repo 居然 只有 140 多个 星 我 还 发现 他 在 这个
小龙虾 的 repo 就 open cloud 的 repo 上 他 还 留言 推广 他 这个 但是 居然 没有 一个
回复 我 那一刻 我 就 明白 了 可能 从来 就 没有 人想 过 一个 盖版 的 Mac mini 也 能 部署 本地 模型 也
能 玩 龙虾 吧 为什么 呢 如果 你 用 过 一次 LM Studio 或者 奥拉 玛跑 过 一次 你 就 知道 了 可能 就 直接 劝退 了
哪怕 是 你 跑 了 一个 4bit 千万 3.5 那个 速度 叫 一个 乌龟 般的 慢 啊 我们 来看 一个 测试 啊 我用
LMSt udio 部署 了 一个 千万 3.5 的 4B 模型 然后 测试 场景 很 简单 就是 我 问 他 三个 问题
然后 这 三个 问题 你们 知道 用 了 多少 秒 吗 他 用 了 五分钟 这 合理 吗 我 再 给 你们 看 一下 我用
那个 框架 优化 后 他 能 提速 多少倍 哇 这 速度 离谱 吧 这 优化 了 多少 呀 我 的 小龙虾 给 我 发现 的
帖子 是 一个 叫 OMLX 的 推理 服务器 我用 它 替换 掉 了 目前 在 桌面 端 统治 地位 的 LM Studio 它 就 实际上 提速 就
这么 简单 为什么 这么 慢 我 得 要说 一下 不是 它 的 原因 是因为 它 底层 的 社区 还 没有 很 好 的 支持 千万
3.5 的 部分 但是 它 也 有 过 因为 我 觉得 它 的 设计 灵魂 就是 给 单用户 问答 设计 的 而 不是 为 agent
的 时代 设计 的 所以 今天 我 想 给 大家 分享 的 是 这个 推理 速度 如此 的 归宿 它 背后 的 秘密 是 什么 以及
这个 OMLX 作者 是 如何 通过 一个 杀鸡 用 牛刀 般的 方法 解决 了 这个 问题 当然 如果 您 只是 想
解决问题 不想 知道 为什么 那请 直接 跳 到 最后 的 这个 手把手 教程 吧 首先 呢 我 解释一下 无论是 Cloud Code
还是 Open Cloud 当 我们 问 AI 一加 一 等于 几时 实际 发给 AI 的 并 不 只有 一加 一 而是 有 20K
的 Token 这 20k 的 token 里 包括 了 系统 提示 词 工具 描述 mcp 配置 所以 无论 你 问 他
多少 次 他 每次 都 会发 同样 的 东西 大家 记住 啊 当 我们 把 这 20k 的 请求 发送到 后台 的 时候 后台 会先 做
一个 叫 提示 词 处理 prom proc essing 或者 是 叫 pref uel 你们 应该 经常 听到 pref uel
这个 词 他 会 把 这 20k 的 token 通过 这个 计算 加工 成 一个 大 模型 能看懂 的 矩阵 这个 计算
部分 呢 是 用 CPU 做 的 如果 你 用 老 黄 的 GPU 啊 这个 过程 就 非常 快 但 CPU 不 擅长 干 这事 所以
如果 你 是 用 Mac mini 或者 什么 其他 的 AI max 啊 就 十分 慢 了 所以 大家 一定 要 清楚 如果 你
觉得 你 的 Mac 跑 AI 响应 慢 那 其实 不是 因为 它 的 输出 速度慢 它 输出 速度 都 差不多 的 最卡手 的 其实
是 这个 pref uel 的 速度 pref uel 速度 最 直接 体现 就是 到 你 来 第一个 字 之前 你 起码 要 等 上
二三十 秒 那 20K token 是 一个 什么样 的 概念 呢 ?
它 大概 是 15000 个 英文单词 也就是说 你 每次 在 Open Cloud 里 问 AI1 加 1 等于 几他 都 要 先读
一篇 万 字长 文 才能 开始 回答 你 这 在 Mac 上 是 无可避免 的 这 就是 几十秒 的 时间 而且 现在 因为
LM Studio 对 签问 3.5 还 没有 完美 支持 它 不 支持 一个 叫 前缀 缓存 的 东西 所以 就 很 离谱 了 当 你
第二次 第三次 问 AI 的 时候 他 每 一次 都 要 把 这个 万 字长 文 重新 读 一遍 也就是说 每 一次 都 要 等 几十秒
用头 的 是 Cloud Code 和 Open Claw 他们 是 属于 那种 频繁 调 工具 的 A 人单 比如说 一个 任务
基本上 就 有 几十次 的 工具 调用 虽然 每次 调用 他 就 输出 一个 JSON 他用 不了 这个 Token 但是 你
要 知道 每次 工具 调用 前 他 都 要 花 几十秒 去 处理 Prompt 处理 那个 提示 词 所以 即便 你 用 的 是 顶级
的 Mac 输出 速度 极快 但 你 顶不住 他 每次 都 要 重新 等 那 几十秒 对 不 对 每次 都 要 重新
计算 其实 是因为 社区 对 千万 3.5 的 前缀 缓存 支持 的 还 不好 但是 我 觉得 现在 整个 的 这个 MLX
社区 他们 缺乏 一个 agent 时代 的 设计 灵魂 这个 我们 等 会 再说 我 先 给 你们 解释一下 什么 叫 前缀
缓存 其实 道理 很 简单 你 每次 问 AI 的 20k 的 token 里 前面 19k 都 是 系统 提示 词 工具 描述
mcp 之类 的 这些 是 不会 变化 的 只有 你 问 的 那个 问题 1 加 1 或者 是 2 加 1 他们 是 变化 的 前缀 缓存 啊
其实 就是 把 这些 不变 的 东西 已经 算好 的 这个 矩阵 保存起来 下次 拿来 直接 用 可 问题 是 啊 即使
千万 3.5 的 这个 前缀 缓存 问题 解决 了 你 养 一只 龙下 有 了 缓存 它 变快 了 如果 我想养 三只 呢 或者 是
我 用 clou dcode 同时 开 三个 窗口 呢 那么 即使 它 前置 的 20k token 都 是 一样 的 可 它 就是 要存
三份 所以 呢 这 就是 对 你 的 显存 有 一个 巨大 的 考验 了 如果 你 的 显存 不够 对不起 咱 还是 得 重新 算 所以 我
为什么 说 这个 MLX 的 社区 缺乏 一种 agent 的 时代 的 灵魂 因为 他 完全 没 考虑 过 就是 有没有 一种 可能
我们 花 这么 多钱 买 硬件 就是 想 尽可能 的 用 更 高 的 并 罚 来 榨干 这些 算力 让 我们 的 盖板 小麦 克
也 能养 好几只 这种 虾 同时 用 对 吧 但是 他们 就 觉得 你 是 一个 人 在 用 那 这个 OMLX 的 作者 简直 就是 我
肚子 里 的 蛔虫 太 懂 我 了 他 做 了 好几个 很 聪明 的 事 我们 就 只 关注 这 两件事 就行了 首先 第一 他
支持 了 前缀 缓存 这 不用说 吧 但 他 能 把 KV 缓存 存到 SSD 上 这 你 敢 信 我们 内存 可能 是 有线 的
但 SSD 是 无线 的 可以 比 内存 大 很多 倍 这时候 你 来 100 个 agent 的 请求 他 都 能 存下 大家
轮流 谁 现在 请求 就 被 加载 的 内存 没有 请求 的 就 放到 SSD 上 而且 更 离谱 的 是 他 还是 分页 缓存 的 什么 叫
分页 缓存 传统 的 MLX 他 是 存 三份 对 吧 但是 这里 你们 看 如果 你 Cloud Code 开 10 个 窗口 这 10
个 窗口 的 提示 词 他们 都 是 一样 的 不 一样 的 是 这部分 一样 的 部分 它 只 保存 一份 剩下 的 不 一样 的 部分 它 在
各自 存储 这 可是 VLM 等 推理 框架 最 引以为傲 的 被 称为 分页 缓存 的 技术 居然 也 被 这个 作者 偷失 了
我 看到 这个 都 震惊 了 这 可是 大 模型 厂商 才 会 有 的 多层 缓存 的 推理 架构 这 玩意 可是 生产 级 的 架构 但 现在
我 的 盖板 小 mini 也 用 上 了 你 说 这 是不是 杀机 用 牛刀 你 可能 会 说 SSD 比 内存 比 显存 都 慢
了 很多 是不是 没错 SSD 确实 很慢 比 内存 慢多 了 但是 相比 起 你 在 Mac 上 你 重新 计算 在 20K
你 要 花 的 几十秒 这 SSD 的 这个 性能 损耗 就 可以 忽略不计 的 这 可是 个 近 百倍 的 差距 所以 从 LMSt
udio 底层 的 比如说 Lama .
CPP 或者 MLX 他们 都 假设 了 一个 场景 就是 你 是 用 CPU 做 推理 你别 想着 多病发 了 FN99
的 人 应该 就是 一个 人 玩玩 就行了 老实 说 我 以前 一直 不太 看好 Apple Sili con 生态 就是
因为 他们 这些 底层 的 想法 太 保守 了 但 这个 新 框架 以及 新 的 M5 芯片 的 出现 我 感觉 又 有 希望 了 M5 芯片
大家 知道 吗 据称 是 极大 的 优化 了 pref uel 的 速度 再 加上 一个 更快 的 SSD 和 内存 带宽 再 一个 M
芯片 的 机器 里 跑 多个 agent 的 并发 甚至 说 可能 实现 一个 agent swarm 都 成为 了 可能 加上 OMX 的 框架
让 我 觉得 更 有 信心 了 我 甚至 有点 冲动 啊 想 把 我 的 4090 卖 了 买 一个 M5 的 顶配 所以 小伙伴
们 你们 觉得 我 应不应该 这么 做 不过 说 到 这里 啊 我 还是 得 提 一下 实测 用 的 Mac mini 16G 内存 的 盖板
确实 也 只能 跑 4B 的 量化 模型 这是 这个 级别 的 硬件 的 物理 的 限制 但 它 确实 可以 让 一个 入门 玩家 先
在 本地 把 龙虾 玩起来 你 可以 不花 一分钱 先 只是 把 它 跑 起来 然后 你 再 看 这个 东西 够不够 你 值不值得
你 去 买 coding plan 买 token 再 去 进阶 的 玩 所以 我 建议 大家 真的 值得 去 试一试 这个
平台 接下来 我 给 大家 做 一个 演示 我们 先 来到 Github 大家 记住 这个 Github 地址 这里 有 这个
rele ase 当然 你 可以 也 可以 从 他 这个 网页 点 进去 网页 是 这个 样子 的 就是 这个 DMGMac 就 可以 直接 装
演示 一下 这个 OMLX 怎么 用 啊 这个 直接 拖进去 就行了 我 是因为 装好 的 装好 了 之后 呢 在 第一次
启动 的 时候 他会弹 一个 welc omeS tream 这个 里头 有 几个 重要 的 点 就是 你 需要 指定 他 的 Base
dire ctory 然后 这个 比较 重要 就是 它 的 模型 存 哪 然后 端口 和 API key 你 随便 指定 一个
自己 喜欢 的 然后 点 这个 start 它 就 启动 起来 了 好 吧 然后 这个 时候 它 就 会 有 一个 面板 给 大家 看
一下 这个 面板 有 一个 小 bug 就是 它 这个 中文 支持 就 每次 都 保存 不上 所以 我们 每次 进来
如果 要 用 中文 的话 把 它 点 一下 它 就 变成 中文 了 我们 一个 一个 说 啊 先 从 状态 来看 他 的 这个 缓存 啊 重启
之后 他 依然 存在 也就是说 你 之前 开 过 多少 个 open cloud 他 的 这个 都 会 缓存 进去 所以 你 下次 再开
一个 他 就是 秒 开 他 的 new sess ion 就 不会 等 很 久 然后 你 包括 你 问问 提他 的 前置 的 prompt 都 已经
缓存 起来 这 是 他 的 缓存 命中率 还是 蛮高 的 然后 这是 这里 是 他 的 这个 生成 速度 你 看 我 的 这个
生成 速度 平均 就是 20 多 token 盖板 嘛 然后 这个 这 是 他 提示 词 的 处理速度 这里 好像 有个 小
bug 他 没有 把 他 这个 把 我 的 IP 获取 到 大家 等候 面 版本 应该 能 解决 但 有 一个 他 就 做 的 很 好
的 当 你 配置 好 了 所有 的 模型 之后 他会 生成 一个 启动 Cloud Code 的 命令 参数 比如说 你们
经常 会 问 怎么样 用 Cloud Code 用 国产 模型 那 你 现在 如果 你 部署 了 一个 本地 模型 他 把 这个 命令行
给 你 了 你 直接 复制到 你 的 终端 里头 就 能 启动 你 现在 机器 能 跑 多少 上下文 你 在 这 指定 之后 就 能 触发
这个 Cloud Code 的 自动 压缩 上下文 这个 机制 我 觉得 这个 也 是 哇 这个 作者 是 真的 懂 用户 特别 有
不 像是 一个 传统 的 程序员 他 更 像是 一个 产品 他 懂 的 好多 呀 然后 设置 这里 啊 模型 设置 就是 设
模型 参数 这 你们 研究 一下 如果 你 只是 本地 用 你 就 选 这个 如果 你 希望 在 局域网 里 还给 别人 用 那 你
就 选 这个 0.0 . 0
. 0 对 吧 然后 模型 目录 你 可以 改 然后 这个 很 关键 就是 你 的 这个 冷 存储 现在 是 能 设置 多少 根据 你
的 SID 的 大小 吧 然后 热 缓存 限制 就是 内存 缓存 我 现在 是 不限 的 然后 你 的 内存 总量 的 限制 我 现在
开到 80% 如果 你 的 内存 大 一点 你 这 可以 再 给 它 更 充裕 一点 然后 接下来 我 给 大家 讲 一个 特别 我
觉得 特别 好 的 就是 基准 这 啥 基准 的 就是 它 是 一个 做 测评 的 他 能测 并 这个 模型 的 多 并发 还有 他 不同 上下文
的 生成 速度 我 觉得 这个 哥们 真的 是 太 厉害 了 像 我 的 包括 我 的 粉丝 其实 都 特别 需要 知道 一个 新
模型 出来 他 的 生成 速度 是 多少 他 的 不同 硬件 的 生成 速度 是 多少 我 以前 都 是 要 通过 自己 去 编 编译 那个
Lama .
cpp 然后 用 他 的 这个 命令行 去 写 脚本 去测 但是 以后 就 不用 了 我 直接 用 他 这个 界面 你 看 一下
我 给 大家 跑 一下 我们 跑 个 0.8 B 的 然后 你 看 这个 结果 就 出来 了 啊 这个 速度 是不是 0.8 B 当然
速度 很 惊人 了 我们 我们 不用 看 这个 东西 我们 就 看 这个 连续 批处理 它 分为 相同 提示 词 和 不同 提示 词
什么 意思 呢 就是 相同 提示 词 比如说 就 模拟 我 现在 是 cloud code 然后 我 大家 提示 词 就 有点 类似
然后 他 就 能 触发 缓存 命中 嘛 就 能 产生 5 倍 多 的 速度 其实 是 这样 说 的 就是 在 一台 设备 上 用单 进程 是
比较 亏 的 因为 你 没有 榨干算力 你 一般 用上 二到 四个 线程 并发 的话 其实 是 对 这个 显存 也好 计算资源
也好 是 一个 最大 程度 的 利用 而且 他 等 的 时间 也 不是 很长 啊 最后 我们 看 这个 聊天 啊 聊天 这个
没有 什么 说 的 了 就是 跟 一般 的 LM studio 一样 你 下载 好 了 模型 可以 立刻 上手 去 跟 他 聊聊 我 总结
一下 这个 平台 就是 一个 简单 版 的 LM studio 他 没有 LM studio 那么 重 但是 他 把 核心 的 该 做 的
能 优化 性能 全做 了 我 认为 这个 引擎 绝对 会火 的 现在 他 只有 一百多个 star 过 一个月 可能 就 一万个
star 了 很 有 可能 啊 所以 你们 现在 去 试一试 你们 就是 最早 一批 吃 上 螃蟹 的 人 相信 我 吧 最后 呢 我
觉得 我 还是 要叠个 假 如果 你 是 偶尔 聊天 我 觉得 你 完全 不 需要 折腾 你 有 啥 你 就 用 啥 就行了 但是
如果 你 是 个 有 追求 的 人 比如说 你 想 用 Open Cloud 想用 Cloud Code 你 还 希望 多开 那 OMLX
绝对 是 一个 你 需要 去 关注 的 一个 秘密武器 现在 它 只有 一百多个 Star 但 我 觉得 再 过 一个月 它 绝对 要 起飞
你们 一定 要 相信 我 所以 早点 用 起来 你们 就是 早点 吃 上 螃蟹 的 人 好 了 以上 就是 本期 的 全部内容
了 谢谢 大家
Loading video analysis...