Skip to content

Commit

Permalink
devopseval
Browse files Browse the repository at this point in the history
  • Loading branch information
chenryn authored Nov 8, 2023
1 parent 6286ef0 commit 154fa6c
Showing 1 changed file with 1 addition and 0 deletions.
1 change: 1 addition & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -126,6 +126,7 @@ AIOps 的论文、演讲、开源库的汇总手册。按照[《企业AIOps实
* 微软亚研/南开发表的《Assess and Summarize: Improve Outage Understanding with Large Language Models》论文,对比 GPT2(本地单卡微调),GPT3(6.7b)和 GPT3.5(175b) 的告警概要水平。3 到 2 确实差异非常明显,但 6.7b 到 175b 倒没有提升特别多:<https://arxiv.org/pdf/2305.18084.pdf>
* 北航/云智慧开源的 Owl 运维大模型数据集,包括问答题和多选题两类:<https://github.com/HC-Guo/Owl>。对应论文中还评测了 MoA 微调、NBCE 长上下文支持、在 loghub 日志模式识别上的差异,不过优势都很微弱。
* 清华/必示发表的 OpsEval 论文,场景和 Owl 类似,不过仅对比开源模型的表现,并区分中英文差异。实践发现中文问答质量差很多:<https://arxiv.org/pdf/2310.07637.pdf>
* 北大/蚂蚁金服开源的 CodeFuse-DevOpsEval 评测数据集,包括 DevOps 和 AIOps 两大块12类场景的选择器:<https://github.com/codefuse-ai/codefuse-devops-eval/blob/main/README_zh.md>,不过 AIOps 里根因分析场景 qwen 的分数异常的高,我个人怀疑是不是 qwen 预训练用到了阿里巴巴内部资料。

## 标注

Expand Down

0 comments on commit 154fa6c

Please sign in to comment.