-
背景
文章介绍了时域推理是自然语言处理和人工智能研究中的一个重要问题,目前的大型语言模型(LLM)尚未能充分解决。尽管取得了一定的进步,但与人类的表现相比仍存在显著差距,尤其是在时间推理能力方面。 -
已有的工作 现有研究没有解决时间推理问题,主要是因为缺乏一个全面且层次分明的时间推理基准(benchmark),以及强有力的挑战和复杂场景。此外,语言模型在时间推理任务中面临诸多困难和挑战,如基本时间表达的理解、世界知识的时间方面的理解以及事件之间的时间关系等的建模能力。
- 提出了一个TIMEBENCH基准
-
挑战1:丰富和层次化的时间推理评估 该基准覆盖10个数据集与总共16个子任务,深入评估语言模型在具有挑战性和复杂场景下的时间推理能力,体现了解决该挑战的方法。
-
挑战2:提出了符号时间推理、常识性时间推理和事件时间推理三个层次化类别 符号时间推理关注基本抽象时间表达的理解;常识性时间推理强调时间原则、概念和世界知识的掌握;事件时间推理专注于在真实场景中的事件之间时间关系建模。通过这种划分,能够更好地对语言模型进行全面的评估。
-
评估工作选择了多种任务形式,包括多选与多答案问题(MCQ和MCMAQ),以覆盖时间推理现象的广泛范围。评估显示,即使是最先进的语言模型与人类相比也存在显著差距,提示在该领域有大量研究机会。研究通过深入分析揭示了模型在时间推理中面临的困境,并试图找出潜在的解决方案。
TIMEBENCH基准的提出是对大型语言模型时间推理能力综合评估的重要步骤,它展示了当前模型与人类在这方面的差距,并为未来的研究提供了指引。