根据统计学语料生成高质量统计学知识问答。语料的获取方式是将教材转化为文本后分成小段。
参数配置
CONVERTER_INPUT_DIR
:
CONVERTER_OUTPUT_DIR
: 转化成$\texttt{.mmd}$的输出文件夹
MODEL
: 选用的模型名称
TEMPERATURE
: 模型温度
FREQUENCY_PENALTY
: 重复token惩罚项
PRESENCE_PENALTY
: 现有token惩罚项
PROCESSOR_INPUT_DIR
: 需要处理的文本所在文件夹
PROCESSOR_OUTPUT_BASE_DIR
: 经过处理的文本的输出文件夹
问答生成模型
QAModel
: 使用OpenAI的API接口模型生成问答
SYSTEM_PROMPT
: 系统提示词
HUMAN_PROMPT
: 第一轮对话的用户提示
AI_PROMPT
: 第一轮对话的结果
INPUT_TEMPLATE
: 第二轮对话中用户输入的模板
CHAT_HISTORY
: 包含以上所有prompts的最终输入的模板
对文本进行分段,有若干分段策略供选择
ChunkPiece
: 固定长度段落
SectionPiece
: 小节段落
Text
: 包含原始的文本,可以通过调用segment
对其进行分段