08 2025-10 AI人工智能 oLLM 这个轻量化推理库,专为消费级 GPU 优化,用 8GB 显存就能跑 80B 参数的大模型 在自己电脑上跑大模型处理长文档,但动辄几十 GB 的模型参数让普通显卡根本吃不消,更别说处理 10 万字的超长上下文了。 无独有偶,找到了 oLLM 这个轻量化推理库,专为消费级 GPU 优化,用 8GB 显存... 阅读全文 2025年10月08日 01:06:20 周三 2025-10-08 周三 760 0 0