ollm：在仅8GB显存的GPU上，利用SSD卸载技术运行超大语言模型（LLM）并支持10万token上下文，无需量化处理。这意味着即使硬件受限，也能处理海量上下文数据。 🔹 速度约为0.5 token/秒，虽不适合实时交互，但适合非实时 | 硬核开源智库

2025/12/22 06:00

ollm：在仅8GB显存的GPU上，利用SSD卸载技术运行超大语言模型（LLM）并支持10万token上下文，无需量化处理。这意味着即使硬件受限，也能处理海量上下文数据。
🔹 速度约为0.5 token/秒，虽不适合实时交互，但适合非实时、离线或后台任务。
🔹 这种做法对SSD寿命有较大影响，需权衡性能与硬件耐用性。
🔹 业内讨论关注点：
- 是否值得牺牲SSD寿命换取超大上下文？
- 未来能否结合新内存扩展技术（如三星CXL DRAM扩展）实现更高效方案？
- 量化与混合硬件策略是否更实用？
这项技术拓宽了超大模型的部署边界，尤其适合资源有限但需要处理海量上下文的场景。未来优化空间巨大，值得持续关注。
当前主流LLM部署受限于显存大小，SSD卸载为“显存瓶颈”提供了新思路，但速度和硬件磨损是现实挑战。结合硬件创新（如CXL内存扩展）与软件优化（量化、分布式推理），未来或能实现高效、耐用的超长上下文推理，为复杂任务提供更强支持。