oMLX: 面向 Mac 本地部署的高性能 LLM 推理与管理工具
• 基于 Apple Silicon 优化,支持连续批处理与分层 KV Cache,可将热缓存放在内存、冷缓存落到 SSD,显著提升本地大模型的响应效率与上下文复用能力
• 同一服务可统一承载 LLM、VLM、Embedding 与 Reranker,支持模型自动发现、按需加载、LRU 淘汰、Pin 常驻和 TTL 卸载,适合多模型并行工作流
• 提供 macOS 菜单栏应用与 Web 管理面板,兼容 OpenAI / Anthropic API,并内置模型下载、性能测试、聊天界面与 MCP 工具集成,降低本地 AI 服务运维门槛
https://github.com/jundot/omlx
#本地大模型 #Mac AI #Apple Silicon #LLM 推理 #KV Cache #多模型服务 #OpenAI API #Anthropic API #MCP #GitHub #AI
• 基于 Apple Silicon 优化,支持连续批处理与分层 KV Cache,可将热缓存放在内存、冷缓存落到 SSD,显著提升本地大模型的响应效率与上下文复用能力
• 同一服务可统一承载 LLM、VLM、Embedding 与 Reranker,支持模型自动发现、按需加载、LRU 淘汰、Pin 常驻和 TTL 卸载,适合多模型并行工作流
• 提供 macOS 菜单栏应用与 Web 管理面板,兼容 OpenAI / Anthropic API,并内置模型下载、性能测试、聊天界面与 MCP 工具集成,降低本地 AI 服务运维门槛
https://github.com/jundot/omlx
#本地大模型 #Mac AI #Apple Silicon #LLM 推理 #KV Cache #多模型服务 #OpenAI API #Anthropic API #MCP #GitHub #AI