oLLM 这个轻量化推理库,专为消费级 GPU 优化,用 8GB 显存就能跑 80B 参数的大模型

Linux网站管理员

7 月前

G2gYtOIbMAAegMB

在自己电脑上跑大模型处理长文档，但动辄几十 GB 的模型参数让普通显卡根本吃不消，更别说处理 10 万字的超长上下文了。

无独有偶，找到了 oLLM 这个轻量化推理库，专为消费级 GPU 优化，用 8GB 显存就能跑 80B 参数的大模型。

通过巧妙的内存管理策略，将模型权重和 KV 缓存分层加载到 GPU 和硬盘，再配合 FlashAttention 优化，在不使用任何量化的情况下实现了惊人的内存效率。

GitHub：http://github.com/Mega4alik/ollm

主要特性：

- 支持在 8GB 显存上运行 80B 参数模型，处理 5 万字长上下文；
- 无需量化技术，保持 fp16/bf16 原始精度；
- 智能权重和缓存管理，按需从 SSD 加载到 GPU；
- 支持多模态模型，可处理图像和文本混合输入；
- 兼容主流模型如 Llama、Qwen、GPT 等；
- 优化的 FlashAttention 实现，大幅减少显存占用。

提供了详细的上手指南，需要在本地部署大模型的同学，不妨看一下这个工具是否有帮助。