站点图标 Linux-技术共享

手把手从零教你搭建大模型知识库

本项目从零开始实现了大模型外接知识库的流程:

  1. 中文数据集处理
  2. 词向量模型训练
  3. 文档向量化
  4. 向量数据库存储知识库
  5. 本地ChatGLM2-6B大模型部署
  6. 简单的知识库应用

项目结构

运行

生成持久化知识库

cd vector_db
pip install -r requirements.txt
python main.py
 

main.py会自动创建名为COLLECTION_NAME的向量数据库,并将corpus文件夹中的文档向量化存储到数据库中

运行应用

cd llm_server
pip install -r requirements.txt
python main.py
 

运行本地部署的ChatGLM2-6B

退出移动版