1.2.4
v1.2.4版本
- 实现了BGE微调训练方法 ,支持自定义样本集训练 https://github.com/shibing624/text2vec/blob/master/examples/training_bge_model_mydata.py ;支持构建训练样本集 https://github.com/shibing624/text2vec/blob/master/examples/data/build_zh_bge_dataset.py ;支持使用C-MTEB评估 https://github.com/shibing624/text2vec/blob/master/tests/eval_C-MTEB.py
- 发布了中文匹配模型shibing624/text2vec-bge-large-chinese,用CoSENT方法训练,基于BAAI/bge-large-zh-noinstruct用人工挑选后的中文STS数据集shibing624/nli-zh-all/text2vec-base-chinese-paraphrase-dataset训练得到,并在中文测试集评估相对于原模型效果有提升,相较于原模型在短文本区分度上提升明显。
Full Changelog: 1.2.3...1.2.4