-
背景
文章介绍了大型语言模型(LLMs)在理解和决策能力上取得了巨大进步,并且能够与用户进行自然的对话。为了弥补LLMs无法获取训练数据之外的知识、展示有限的数学推理和计算能力以及与外界交互能力的不足,近期的研究工作中提出将LLM为基础的助手与外部工具整合起来,以便于访问私有或最新信息,代表用户执行操作。 -
已有的工作 现有工作通常提出了将能够使用工具的LLM驱动的聊天机器人集成,如搜索引擎、计算器或网络API。为了在工具使用方面取得有意义的进步,需要相关的基准和评估数据集,这些数据集能够通过切实与具挑战性的对话充分地测试这些系统。然而,由于现有的基准和数据集无法充分模拟用户与工具使用助手的典型互动,因此,本文引入了 ToolTalk,旨在实现这一目标。
- 提出了一个名为 ToolTalk 的基准
-
挑战1:如何评估助手在对话环境中使用工具的性能 ToolTalk 包含了 28 个工具,它们被分为 7 类插件,且每个工具都包括了一个完整的模拟实现,这允许对依赖执行反馈的助手进行全自动评估。ToolTalk 强调了会对外界产生影响的工具,而不仅仅是用于参考或搜索信息的工具。评估方法专门针对数据集设计的细节,超越了常见的精确匹配准确度指标,独立评估动作工具和非动作工具的调用。如果助手实现了正确的非动作工具调用,即使有一些不正确的,多余的调用,这些调用可能仍然会为用户提供有用的信息。因此,在单次会话转中使用工具调用回忆和不正确动作率作为主要指标,并定义了会话级别的成功概念。
-
挑战2:创建符合实际对话需求的数据集 为了模拟用户与基于LLM的助手可能进行的典型对话,ToolTalk 被设计成对话式的,并且允许用户与助手间就单一意图进行多轮对话,反映了用户可能不希望一次性表述出他们的全部要求,并且在从助手那里收到一些反馈后,可以添加额外的条件或者发出更正。这样设计不仅保证了对话的自然性,而且也包括了一系列复杂的工具调用,而不是过长的发言。ToolTalk 包含了 78 个对话,总共 178 个轮次,这些对话使用了 28 个独特的工具,这些工具被分成了 7 个类别。
-
通过实验,评估了使用 ToolTalk 的 GPT-3.5 和 GPT-4,分别得到了 26% 和 50% 的会话级成功率。这进一步显示出在对话环境中使用工具仍然是对最先进模型的一个巨大挑战。此外,ToolTalk 的错误分析揭示了三大类错误,并提出了未来改进的方向。
ToolTalk 是一个致力于评估和提高 LLM 在对话环境中使用多步骤外部工具性能的基准。它通过创新的评估方法和真实场景模拟,挑战和扩展了现有 LLMs 的能力边界,并为未来的研究指出了方向。