Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.77 KB

2406.12624.md

File metadata and controls

20 lines (15 loc) · 2.77 KB

背景

  • 背景
    本文针对的是LLMs在作为评判时的对齐(alignment)和评判弱点。LLM-as-a-judge模式是一个有希望的方法,它能够应对与人类评估相关的可扩展性挑战,并且正逐渐成为评估大规模语言模型(LLMs)的流行方法。然而,关于这种模式的优势和弱点,以及可能存在的偏见,目前仍有许多问题尚未解决。

  • 已有的工作 之前的研究侧重于使用MMLU、TruthfulQA和GSM8K等基准测试或者Chatbot Arena和Open LLM Leaderboard等排行榜来自动评估LLMs的特定能力。然而,这些方法中的大多数依然需要人工参与评分,导致成本高、时间消耗大,并且实际应用有限。此外,即使使用多项选择问题(MCQ)的基准测试,它们也限制了能够评估的能力范围,并且与实践中使用LLMs的方式越发背离。

核心贡献

  • 提出了一个对LLMs作为评判绩效和偏差的全面评估
    • 挑战1:如何在较高的人类协作一致性(高达96%)的条件下评估LLM评判的准确性 为了应对这个挑战,研究者们使用了TriviaQA作为基准测试来评估LLMs的客观知识推理,并与人类注释比较。他们发现引入Cohen's Kappa作为对齐度量评定标准而不是简单的百分比一致性能够更好地区分评判者,从而发现即使高百分比一致性也可能赋予极为不同的评分。

    • 挑战2:判断模型在指令长度和宽容性偏差方面的效果 研究发现即使是在简单的情形中,也只有最好的模型才适合作为评判者。GPT-4 Turbo和Llama-3 70B虽然显示出与人类很高的一致性,但他们的对齐幅度还是比人类评判的对齐系数为低,并通过进一步的错误分析和其他研究来提供未来使用LLMs作为评判者的有用经验。

实现与部署

研究使用了九个评判模型和九个参试模型(包括基础和指令调优模型)进行了评估。结果显示,虽然中Llama-3 70B和GPT-4 Turbo在对齐度上进表现出色,但在对参试模型进行排名时,却被JudgeLM-7B和依赖词汇匹配的方法如Contains所超越,它们的人类对齐度低至34个百分点。评判模型与人类评判之间的平均百分比一致性和Cohen's Kappa得分的对比也揭示了,大多数评判模型对齐度较差,但Llama-3 70B和GPT-4 Turbo的Cohen's Kappa系数表明有着出色的对齐度。。

总结

本研究通过评估LLMs作为评判在对齐和评判弱点方面的表现,为使用LLMs作为未来评判提供了有用的洞察。重要的发现包括适合作为评判的仅有部分顶尖模型,以及Cohen's Kappa是一个更好的对齐度量标准,能在区分评判者方面做得比百分比对齐更好。