Home

Langchain-Chatchat Wiki

[Read this in English]

项目介绍

总体介绍

📃 LangChain-Chatchat (原 Langchain-ChatGLM): 基于 Langchain 与 ChatGLM 等大语言模型的本地知识库问答应用实现。

🤖️ 一种利用 langchain 思想实现的基于本地知识库的问答应用，目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

💡 受 GanymedeNil 的项目 document.ai 和 AlexZhangji 创建的 ChatGLM-6B Pull Request 启发，建立了全流程可使用开源模型实现的本地知识库问答应用。本项目的最新版本中通过使用 FastChat 接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型，依托于 langchain 框架支持通过基于 FastAPI 提供的 API 调用服务，或使用基于 Streamlit 的 WebUI 进行操作。

✅ 依托于本项目支持的开源 LLM 与 Embedding 模型，本项目可实现全部使用开源模型离线私有部署。与此同时，本项目也支持 OpenAI GPT API 的调用，并将在后续持续扩充对各类模型及模型 API 的接入。

⛓️ 本项目实现原理如下图所示，过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的 top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt中 -> 提交给 LLM生成回答。

算法流程

📺 原理介绍视频

从文档处理角度来看，实现流程如下：

实现原理图2

支持功能简介

开发环境部署

配置要求

软件要求

要顺利运行本代码，请按照以下软件要求进行配置 最低要求

Python版本: >= 3.8.5, < 3.11
Cuda版本: >= 11.7

推荐要求

开发者在以下环境下进行代码调试，在该环境下能够避免最多环境问题。

Python 版本 > 3.10.8, < 3.11
Cuda版本: == 12.2
- 硬件要求

如果想要顺利在GPU运行本地模型的 int4 量化版本，你至少需要以下的硬件配置:

chatglm2-6b & LLaMA-7B 最低显存要求: 7GB 推荐显卡: RTX 3060, RTX 2060
LLaMA-13B 最低显存要求: 11GB 推荐显卡: RTX 2060 12GB, RTX3060 12GB, RTX3080, RTXA2000
Qwen-14B-Chat 最低显存要求: 13GB 推荐显卡: RTX 3090
LLaMA-30B 最低显存要求: 22GB 推荐显卡：RTX A5000,RTX 3090,RTX 4090,RTX 6000,Tesla V100,RTX Tesla P40
LLaMA-65B 最低显存要求: 40GB 推荐显卡：A100,A40,A6000

若为 int8 推理则显存大致为 int4 推理要求的1.5倍

若为 fp16 推理则显存大致为 int4 推理要求的1.5倍

💡 例如：使用fp16 推理Qwen-7B-Chat 模型则需要使用16GB显存。

以上数据仅为估算，实际情况以 nvidia-smi 占用为准。

请注意，如果使用最低配置，仅能保证代码能够运行，但运行速度较慢，体验不佳。

VPN

如果您位于中国(含港，澳，台) 需要调用OpenAI 或者其他境外模型的API，需要使用VPN工具或访问镜像站。

docker部署

开发组为开发者们提供了一键部署的docker镜像文件懒人包。开发者们可以在 AutoDL 平台和 Docker平台一键部署。

🌐 AutoDL 镜像

🐳 Docker 镜像

💻 一行命令运行 Docker 🌲：

docker run -d --gpus all -p 80:8501 registry.cn-beijing.aliyuncs.com/chatchat/chatchat:0.2.5

该版本镜像大小 35.3GB，使用 v0.2.5，以 nvidia/cuda:12.1.1-cudnn8-devel-ubuntu22.04 为基础镜像
该版本内置两个 embedding 模型：m3e-large，text2vec-bge-large-chinese，默认启用后者，内置 chatglm2-6b-32k
该版本目标为方便一键部署使用，请确保您已经在Linux发行版上安装了NVIDIA驱动程序
请注意，您不需要在主机系统上安装CUDA工具包，但需要安装 NVIDIA Driver 以及 NVIDIA Container Toolkit，请参考安装指南
首次拉取和启动均需要一定时间，首次启动时请参照下图使用 docker logs -f <container id> 查看日志
如遇到启动过程卡在 Waiting.. 步骤，建议使用 docker exec -it <container id> bash 进入 /logs/ 目录查看对应阶段日志

本地部署

环境安装

环境检查

# 首先，确信你的机器安装了 Python 3.8 - 3.10 版本
$ python --version
Python 3.8.13

# 如果低于这个版本，可使用conda安装环境
$ conda create -p /your_path/env_name python=3.8

# 激活环境
$ source activate /your_path/env_name

# 或，conda安装，不指定路径, 注意以下，都将/your_path/env_name替换为env_name
$ conda create -n env_name python=3.8
$ conda activate env_name # Activate the environment

# 更新py库
$ pip3 install --upgrade pip

# 关闭环境
$ source deactivate /your_path/env_name

# 删除环境
$ conda env remove -p  /your_path/env_name

项目依赖

# 拉取仓库
$ git clone https://github.com/chatchat-space/Langchain-Chatchat.git

# 进入目录
$ cd Langchain-Chatchat

# 安装全部依赖
$ pip install -r requirements.txt

# 默认依赖包括基本运行环境（FAISS向量库）。如果要使用 milvus/pg_vector 等向量库，请将 requirements.txt 中相应依赖取消注释再安装。

此外，为方便用户 API 与 webui 分离运行，可单独根据运行需求安装依赖包。

如果只需运行 API，可执行：

$ pip install -r requirements_api.txt

# 默认依赖包括基本运行环境（FAISS向量库）。如果要使用 milvus/pg_vector 等向量库，请将 requirements.txt 中相应依赖取消注释再安装。

如果只需运行 WebUI，可执行：
```
$ pip install -r requirements_webui.txt
```

注：使用 langchain.document_loaders.UnstructuredFileLoader进行 .docx 等格式非结构化文件接入时，可能需要依据文档进行其他依赖包的安装，请参考 langchain 文档。

模型下载

如需在本地或离线环境下运行本项目，需要首先将项目所需的模型下载至本地，通常开源 LLM 与 Embedding 模型可以从 HuggingFace 下载。

以本项目中默认使用的 LLM 模型 THUDM/chatglm2-6b 与 Embedding 模型 moka-ai/m3e-base 为例：

下载模型需要先安装Git LFS，然后运行

$ git clone https://huggingface.co/THUDM/chatglm2-6b

$ git clone https://huggingface.co/moka-ai/m3e-base

初始化知识库

当前项目的知识库信息存储在数据库中，在正式运行项目之前请先初始化数据库（我们强烈建议您在执行操作前备份您的知识文件）。

如果您是从 0.2.4 以及之前的版本升级过来的用户，请直接删除旧的知识库中的向量文件，重新生成。
```
$ python init_database.py
```
如果您是第一次运行本项目，知识库尚未建立，或者配置文件中的知识库类型、嵌入模型发生变化，或者之前的向量库没有开启 normalize_L2，需要以下命令初始化或重建知识库：
```
$ python init_database.py --recreate-vs
```

一键启动

启动命令

一键启动脚本 startup.py,一键启动所有 Fastchat 服务、API 服务、WebUI 服务，示例代码：

$ python startup.py -a

并可使用 Ctrl + C 直接关闭所有运行服务。如果一次结束不了，可以多按几次。

可选参数包括 -a (或--all-webui), --all-api, --llm-api, -c (或--controller), --openai-api, -m (或--model-worker), --api, --webui，其中：

--all-webui 为一键启动 WebUI 所有依赖服务；
--all-api 为一键启动 API 所有依赖服务；
--llm-api 为一键启动 Fastchat 所有依赖的 LLM 服务；
--openai-api 为仅启动 FastChat 的 controller 和 openai-api-server 服务；
其他为单独服务启动选项。

启动非默认模型

若想指定非默认模型，需要用 --model-name 选项，示例：

$ python startup.py --all-webui --model-name Qwen-7B-Chat

更多信息可通过 python startup.py -h查看。

参数配置

您可以编辑configs下的配置文件来控制项目的运行逻辑，推荐从项目提供的*_config.py.example文件复制修改。

基础配置项 basic_config.py

模型配置项 model_config.py

知识库配置项 kb_config.py

提示词配置项 prompt_config.py

服务和端口配置项 server_config.py

最佳实践

使用自定义的分词器

在text_splitter文件夹下新建一个文件，文件名为您的分词器名字，比如my_splitter.py，然后在__init__.py中导入您的分词器，如下所示：

from .my_splitter import MySplitter

修改config/model_config.py文件，将您的分词器名字添加到text_splitter_dict中，如下所示：

MySplitter: {
        "source": "huggingface",  ## 选择tiktoken则使用openai的方法
        "tokenizer_name_or_path": "your tokenizer", #如果选择huggingface则使用huggingface的方法，部分tokenizer需要从Huggingface下载
    }
TEXT_SPLITTER = "MySplitter"

完成上述步骤后，就能使用自己的分词器了。

使用自定义的 Agent 工具

1. 创建自己的Agent工具

开发者在server/agent文件中创建一个自己的文件，并将其添加到tools.py中。这样就完成了Tools的设定。
当您创建了一个custom_agent.py文件，其中包含一个work函数，那么您需要在tools.py中添加如下代码：

from custom_agent import work
Tool.from_function(
    func=work,
    name="该函数的名字",
    description=""
    )

请注意，如果你确定在某一个工程中不会使用到某个工具，可以将其从Tools中移除，降低模型分类错误导致使用错误工具的风险。

2. 修改 custom_template.py文件

开发者需要根据自己选择的大模型设定适合该模型的Agent Prompt和自自定义返回格式。在我们的代码中，提供了默认的两种方式，一种是适配于GPT和Qwen的提示词：

"""
    Answer the following questions as best you can. You have access to the following tools:
    
    {tools}
    Use the following format:
    
    Question: the input question you must answer
    Thought: you should always think about what to do
    Action: the action to take, should be one of [{tool_names}]
    Action Input: the input to the action
    Observation: the result of the action
    ... (this Thought/Action/Action Input/Observation can be repeated zero or more times)
    Thought: I now know the final answer
    Final Answer: the final answer to the original input question
    
    Begin!
    
    history:
    {history}
    
    Question: {input}
    Thought: {agent_scratchpad}
"""

另一种是适配于GLM-130B的提示词：

"""
尽可能地回答以下问题。你可以使用以下工具:{tools}
请按照以下格式进行:
Question: 需要你回答的输入问题
Thought: 你应该总是思考该做什么
Action: 需要使用的工具，应该是[{tool_names}]中的一个
Action Input: 传入工具的内容
Observation: 行动的结果
       ... (这个Thought/Action/Action Input/Observation可以重复N次)
Thought: 我现在知道最后的答案
Final Answer: 对原始输入问题的最终答案

现在开始！

之前的对话:
{history}

New question: {input}
Thought: {agent_scratchpad}
"""

3. 局限性

在我们的实验中，小于70B级别的模型，若不经过微调，很难达到较好的效果。因此，我们建议开发者使用大于70B级别的模型进行微调，以达到更好的效果。
由于Agent的脆弱性，temperture参数的设置对于模型的效果有很大的影响。我们建议开发者在使用自定义Agent时，对于不同的模型，将其设置成0.1以下，以达到更好的效果。
即使使用了大于70B级别的模型，开发者也应该在Prompt上进行深度优化，以让模型能成功的选择工具并完成任务。
Qwen系列模型已经对Agent进行了对其，但是经过开发组调试，其效果尚且不能完成大规模的Agent任务。

使用自定义的微调模型

使用自定义的嵌入模型

使用自定义的文本类型

日志功能

支持列表

LLM 模型支持列表

本地模型

本地 LLM 模型接入基于 FastChat 实现，支持模型如下：

meta-llama/Llama-2-7b-chat-hf
Vicuna, Alpaca, LLaMA, Koala
BlinkDL/RWKV-4-Raven
camel-ai/CAMEL-13B-Combined-Data
databricks/dolly-v2-12b
FreedomIntelligence/phoenix-inst-chat-7b
h2oai/h2ogpt-gm-oasst1-en-2048-open-llama-7b
lcw99/polyglot-ko-12.8b-chang-instruct-chat
lmsys/fastchat-t5-3b-v1.0
mosaicml/mpt-7b-chat
Neutralzz/BiLLa-7B-SFT
nomic-ai/gpt4all-13b-snoozy
NousResearch/Nous-Hermes-13b
openaccess-ai-collective/manticore-13b-chat-pyg
OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5
project-baize/baize-v2-7b
Salesforce/codet5p-6b
StabilityAI/stablelm-tuned-alpha-7b
THUDM/chatglm-6b
THUDM/chatglm2-6b
tiiuae/falcon-40b
timdettmers/guanaco-33b-merged
togethercomputer/RedPajama-INCITE-7B-Chat
WizardLM/WizardLM-13B-V1.0
WizardLM/WizardCoder-15B-V1.0
baichuan-inc/baichuan-7B
internlm/internlm-chat-7b
Qwen/Qwen-7B-Chat/Qwen-14B-Chat
HuggingFaceH4/starchat-beta
FlagAlpha/Llama2-Chinese-13b-Chat and others
BAAI/AquilaChat-7B
all models of OpenOrca
Spicyboros + airoboros 2.2
VMware's OpenLLaMa OpenInstruct
baichuan2-7b/baichuan2-13b
任何 EleutherAI 的 pythia 模型，如 pythia-6.9b
在以上模型基础上训练的任何 Peft 适配器。为了激活，模型路径中必须有 peft 。注意：如果加载多个peft模型，你可以通过在任何模型工作器中设置环境变量 PEFT_SHARE_BASE_WEIGHTS=true 来使它们共享基础模型的权重。

以上模型支持列表可能随 FastChat 更新而持续更新，可参考 FastChat 已支持模型列表。

联网模型

支持的联网模型

Embedding 模型支持列表

本地模型

本项目支持调用 HuggingFace 中的 Embedding 模型，已支持的 Embedding 模型如下：

联网模型

除本地模型外，本项目也支持直接接入 OpenAI的在线嵌入模型。支持的联网模型

OpenAI/text-embedding-ada-002

分词器支持列表

Langchain 中的分词器

本项目支持调用 Langchain 的 Text Splitter 分词器以及基于此改进的自定义分词器，已支持的 Text Splitter 类型如下：

CharacterTextSplitter
LatexTextSplitter
MarkdownHeaderTextSplitter
MarkdownTextSplitter
NLTKTextSplitter
PythonCodeTextSplitter
RecursiveCharacterTextSplitter
SentenceTransformersTokenTextSplitter
SpacyTextSplitter

自定义分词器

已经支持的定制分词器如下：

向量数据库支持列表

本地向量数据库

目前支持的本地向量数据库列表如下：

联网向量数据库

目前，本项目还不支持联网的向量数据库，我们将在未来提供支持。

Agent插件支持列表

本地工具

翻译工具，实现对输入的任意语言翻译。
数学工具，使用LLMMathChain 实现数学计算。

联网工具

天气工具，使用自定义的LLMWetherChain实现天气查询，调用和风天气API。
我们支持Langchain支持的Agent工具，在代码中，我们已经提供了Shell和Google Search两个工具的实现。

目前，框架的Agent生态较为原始，因此支持的工具不多，我们期待开发者共享更多的工具，帮助项目生态完善

如何做出贡献

issue 规范

什么issue是不会被回复的

在提出issue前，请查看您的提出的问题是否已经在issue内出现，重复的问题将 不会被回复 。
关于环境配置问题的issue将 不会被回复 。
与项目无关的issue将 不会被回复 。
超过30天没有更新动态的issue将 被关闭 。

如何提出issue

PR规范

提出新的通用自定义分词器

将您的分词器所在的代码文件放在text_splitter文件夹下，文件名为您的分词器名字my_splitter.py，然后在__init__.py中导入您的分词器。
发起PR，并说明您的分词器面向的场景或者改进之处。我们非常期待您能举例一个具体的应用场景。

提出新的 Agent 工具

将您的Agent工具所在的代码放在 server/agent文件夹下，文件名为您的工具名字my_tools.py，然后在tools.py中导入您的工具。
发起PR，说明您的工具面向的场景或改进之处，并说明如何进行测试和调用。我们非常期待您能举例一个具体的应用场景。

提出新的自定义模型

将您的模型贡献到huggingface平台上，并开放给开发人员下载。
发起PR，说明您的工具面向的场景或改进之处，并说明如何进行测试和调用。我们非常期待您能举例一个具体的应用场景。
由开发人员测试通过后，将您的模型添加到合作模型名单中。

修复bug & 增加其他新功能

一个PR中必须 只有一个或者一类功能增加，或者修复一个bug ，多个功能混合的PR将 不会被接受 。
说明您增加的功能或者改进之处，并说明如何进行测试和调用。我们非常期待您能举例一个具体的应用场景。

常见问题

关于我们

主要开发者名单

以下使我们团队主要开发者名单和负责的模块：

小明

分词器优化板块
不同文件读入优化

小红

主要框架设计

合作伙伴名单

项目荣誉

荣誉A

项目在 xx比赛中获奖

加入我们

telegram

微信公众号

🎉 Langchain-Chatchat 项目官方公众号，欢迎扫码关注。

微信交流群

由于微信交流群一次只能容纳200人，需要经常更换二维码，您可以前往 README.md 的文件中扫描最新的微信交流群二维码加入我们的微信咨询群。

导航栏，一切从这里出发

Home

Langchain-Chatchat Wiki

项目介绍

总体介绍

算法流程

支持功能简介

开发环境部署

配置要求

软件要求

硬件要求

VPN

docker部署

本地部署

环境安装

环境检查

项目依赖

模型下载

初始化知识库

一键启动

启动命令

启动非默认模型

参数配置

基础配置项 basic_config.py

模型配置项 model_config.py

知识库配置项 kb_config.py

提示词配置项 prompt_config.py

服务和端口配置项 server_config.py

最佳实践

使用自定义的分词器

使用自定义的 Agent 工具

1. 创建自己的Agent工具

2. 修改 custom_template.py文件

3. 局限性

使用自定义的微调模型

使用自定义的嵌入模型

使用自定义的文本类型

日志功能

支持列表

LLM 模型支持列表

本地模型

联网模型

Embedding 模型支持列表

本地模型

联网模型

分词器支持列表

Langchain 中的分词器

自定义分词器

向量数据库支持列表

本地向量数据库

联网向量数据库

Agent插件支持列表

本地工具

联网工具

如何做出贡献

issue 规范

什么issue是不会被回复的

如何提出issue

PR规范

提出新的通用自定义分词器

提出新的 Agent 工具

提出新的自定义模型

修复bug & 增加其他新功能

常见问题

关于我们

主要开发者名单

合作伙伴名单

项目荣誉

荣誉A

加入我们

前期准备

部署代码

Clone this wiki locally