手把手从零教你搭建大模型知识库

2024-08-07 分类：建站相关作者：Linux网站管理员阅读（792）

本项目从零开始实现了大模型外接知识库的流程：

中文数据集处理
词向量模型训练
文档向量化
向量数据库存储知识库
本地ChatGLM2-6B大模型部署
简单的知识库应用

项目结构

corpus：存放知识库文档的文件夹
data：词向量模型训练相关的数据（模型文件较大，请自行下载模型）
doc：词向量模型训练的源码、文档
llm_server：简单的知识库应用
vector_db：将corpus里的文档存入qdrant向量数据库
config.json：项目的一些配置
- OPENAI_API_KEY：openai的api key
- EMBEDDING_MODEL_TYPE：文本向量化的模型openai或word2vec
- CHAT_MODEL_TYPE：对话大模型openai或chatglm
- CHATGLM_PORT：ChatGLM本地部署的端口
- **PATH：一些路径，以项目根目录为起点
- COLLECTION_NAME：向量数据库Collection的名称

运行

生成持久化知识库

cd vector_db
pip install -r requirements.txt
python main.py

main.py会自动创建名为COLLECTION_NAME的向量数据库，并将corpus文件夹中的文档向量化存储到数据库中

运行应用

cd llm_server
pip install -r requirements.txt
python main.py

运行本地部署的ChatGLM2-6B

「梦想一旦被付诸行动，就会变得神圣，如果觉得我的文章对您有用，请帮助本站成长」

赞(0) *** 在线联系博主***

标签：

手把手从零教你搭建大模型知识库

上一篇：Google 开发者大会,今年终于轮到北京了

下一篇：今天手把手教大家从搭建环境开始实现本地部署ChatGLM2 6B 大模型

博客简介

本站CDN采用VmShell免费提供离中国大陆最近的香港CMI高速网络做支撑,ToToTel打造全球最快速的边沿网络支撑服务，具体详情请见 :https://vmshell.com/ 以及 https://tototel.com/,网站所有的文件和内容禁止大陆网站搬迁复制,谢谢,VPS营销投稿邮箱: admin@linuxxword.com，我们免费帮大家发布，不收取任何费用,请提供完整测试文稿!

sexcam（2个月前 (04-20)）
WOW just what I was searching for. Came here b...
评：深度解析《让子弹飞》
张麻子是杂种（7个月前 (12-09)）
从有人以来就没有比张麻子更邪恶张口闭口为人民，害死几千万人还为人民，为自己的皇位还差不多，...
评：深度解析《让子弹飞》
al2359（3年前 (2023-02-06)）
求科学离线插件，谢谢！34401355@qq.com
评：改版梅林固件安装SS【shadowsocks】科学上网插件教程
al2359（3年前 (2023-02-06)）
求科学离线插件，谢谢！！！
评：改版梅林固件安装SS【shadowsocks】科学上网插件教程

文章总数： 3469 篇
草稿数目： 8 篇
分类数目： 9 个
独立页面： 0 个
评论总数： 4 条
链接总数： 0 个
标签总数： 63643 个
注册用户： 139 人
访问总量： 8,668,471 次
最近更新： 2026年6月21日

手把手从零教你搭建大模型知识库

项目结构

运行

生成持久化知识库

运行应用

运行本地部署的ChatGLM2-6B

相关推荐

博客简介

最近更新

随机文章

热门标签

精彩评论

关于VmShell INC

站点统计