Skip to content

Commit

Permalink
更新两个运维问答大模型的论文进展
Browse files Browse the repository at this point in the history
  • Loading branch information
chenryn authored Oct 16, 2023
1 parent 5e72019 commit 6286ef0
Showing 1 changed file with 2 additions and 0 deletions.
2 changes: 2 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -124,6 +124,8 @@ AIOps 的论文、演讲、开源库的汇总手册。按照[《企业AIOps实
* 华为/北邮发布的 LogPrompt 论文,利用 ChatGPT 和 Vicuna-13B 验证 zero-shot、CoT、ICL 几种不同 prompt 方案下的日志模板提取和异常检测效果:<https://arxiv.org/pdf/2308.07610.pdf>。对比基准就是上面的 LogPPT,结论是 ChatGPT 即使 zero-shot 也比 LogPPT 强一点。而开源的 Vicuna-13B 在 zero-shot 情况下差很多,但 ICL 方案下效果提升很大,接近可用水准。
* 微软发表的《Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language Models》论文,通过对微软内部4万个故障数据复盘,研究 GPT 模型对比 BERT 模型是否在故障诊断方面更有优势。大概的结论可以认为是:有优势,但依然没啥用。:<https://arxiv.org/pdf/2301.03797.pdf>
* 微软亚研/南开发表的《Assess and Summarize: Improve Outage Understanding with Large Language Models》论文,对比 GPT2(本地单卡微调),GPT3(6.7b)和 GPT3.5(175b) 的告警概要水平。3 到 2 确实差异非常明显,但 6.7b 到 175b 倒没有提升特别多:<https://arxiv.org/pdf/2305.18084.pdf>
* 北航/云智慧开源的 Owl 运维大模型数据集,包括问答题和多选题两类:<https://github.com/HC-Guo/Owl>。对应论文中还评测了 MoA 微调、NBCE 长上下文支持、在 loghub 日志模式识别上的差异,不过优势都很微弱。
* 清华/必示发表的 OpsEval 论文,场景和 Owl 类似,不过仅对比开源模型的表现,并区分中英文差异。实践发现中文问答质量差很多:<https://arxiv.org/pdf/2310.07637.pdf>

## 标注

Expand Down

0 comments on commit 6286ef0

Please sign in to comment.