站点图标 Linux-技术共享

oLLM 这个轻量化推理库,专为消费级 GPU 优化,用 8GB 显存就能跑 80B 参数的大模型

G2gYtOIbMAAegMB

在自己电脑上跑大模型处理长文档,但动辄几十 GB 的模型参数让普通显卡根本吃不消,更别说处理 10 万字的超长上下文了。

无独有偶,找到了 oLLM 这个轻量化推理库,专为消费级 GPU 优化,用 8GB 显存就能跑 80B 参数的大模型。

通过巧妙的内存管理策略,将模型权重和 KV 缓存分层加载到 GPU 和硬盘,再配合 FlashAttention 优化,在不使用任何量化的情况下实现了惊人的内存效率。

GitHub:http://github.com/Mega4alik/ollm

主要特性:

- 支持在 8GB 显存上运行 80B 参数模型,处理 5 万字长上下文;
- 无需量化技术,保持 fp16/bf16 原始精度;
- 智能权重和缓存管理,按需从 SSD 加载到 GPU;
- 支持多模态模型,可处理图像和文本混合输入;
- 兼容主流模型如 Llama、Qwen、GPT 等;
- 优化的 FlashAttention 实现,大幅减少显存占用。

提供了详细的上手指南,需要在本地部署大模型的同学,不妨看一下这个工具是否有帮助。

退出移动版