基于语言模型的知识图谱构建与问答系统。
在根目录下创建.env
文件,内容如下:
OPENAI_API_KEY=sk-your-OPENAI_API_KEY
OPENAI_BASE_URL=<https://api.openai.com/v1>
执行如下命令:
pip install -r requirements.txt
cd src
python main.py
python -m unittest discover -s test -p "parse_test.py"
-
基于Marker的PDF图文抽取
marker_single ../papers/2312.11970v1.pdf examples/paper --batch_multiplier 2 --max_pages 10 --langs English
-
使用开源多模态大模型的图文实体抽取和对齐
含文字的图片,全文检索文字片段连同图片一同发给LLM,提取实体,然后对齐 实体/关系,辅助溯源的属性,如images, chunkid
-
结构溯源
实体/关系,辅助溯源的属性,比如images, chunkid,
- Benchmark
- 数据集: 科技论文,CS论文,NLP论文,CV论文,医学论文, 维基百科,en/zh
- 评测标准:实体抽取,关系抽取,实体对齐,关系对齐,准确性
- LLM的选择,开源/上下文长度