Linuxword Global
当前位置: 建站相关 > 手把手从零教你搭建大模型知识库

本项目从零开始实现了大模型外接知识库的流程:

  1. 中文数据集处理
  2. 词向量模型训练
  3. 文档向量化
  4. 向量数据库存储知识库
  5. 本地ChatGLM2-6B大模型部署
  6. 简单的知识库应用

3

项目结构

  • corpus:存放知识库文档的文件夹
  • data:词向量模型训练相关的数据(模型文件较大,请自行下载模型)
  • doc:词向量模型训练的源码、文档
  • llm_server:简单的知识库应用
  • vector_db:将corpus里的文档存入qdrant向量数据库
  • config.json:项目的一些配置
    • OPENAI_API_KEY:openai的api key
    • EMBEDDING_MODEL_TYPE:文本向量化的模型openai或word2vec
    • CHAT_MODEL_TYPE:对话大模型openai或chatglm
    • CHATGLM_PORT:ChatGLM本地部署的端口
    • **PATH:一些路径,以项目根目录为起点
    • COLLECTION_NAME:向量数据库Collection的名称

运行

生成持久化知识库

cd vector_db
pip install -r requirements.txt
python main.py
 

main.py会自动创建名为COLLECTION_NAME的向量数据库,并将corpus文件夹中的文档向量化存储到数据库中

运行应用

cd llm_server
pip install -r requirements.txt
python main.py
 

运行本地部署的ChatGLM2-6B

「梦想一旦被付诸行动,就会变得神圣,如果觉得我的文章对您有用,请帮助本站成长」

赞(0) 打赏
一分也是爱

支付宝扫一扫打赏

微信扫一扫打赏

上一篇:

下一篇:

相关推荐

博客简介

本站CDN采用VmShell免费提供离中国大陆最近的香港CMI高速网络做支撑,ToToTel打造全球最快速的边沿网络支撑服务,具体详情请见 :https://vmshell.com/ 以及 https://tototel.com/,网站所有的文件和内容禁止大陆网站搬迁复制,谢谢,VPS营销投稿邮箱: admin@linuxxword.com,我们免费帮大家发布,不收取任何费用,请提供完整测试文稿!

精彩评论

友情链接

他们同样是一群网虫,却不是每天泡在网上游走在淘宝和网游之间、刷着本来就快要透支的信用卡。他们或许没有踏出国门一步,但同学却不局限在一国一校,而是遍及全球!申请交换友链

站点统计

  • 文章总数: 2534 篇
  • 草稿数目: 19 篇
  • 分类数目: 6 个
  • 独立页面: 0 个
  • 评论总数: 2 条
  • 链接总数: 0 个
  • 标签总数: 10493 个
  • 注册用户: 139 人
  • 访问总量: 8,654,367 次
  • 最近更新: 2024年9月15日