Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.37 KB

2404.12872.md

File metadata and controls

20 lines (15 loc) · 2.37 KB

背景

  • 背景
    文章介绍了在现代数据库系统中,查询重写是优化查询处理的一个关键环节。已有的查询重写技术往往专注于规则-based的重写方法,这在确保重写查询的可执行性和等价性方面是必要的,但是目前的方法在发现最优重写规则及其序列的方法上仍存在局限,且重写过程经常消耗大量资源。而新的重写规则的发现需要复杂的结构逻辑验证或广泛的用户交互。此外,当前的查询重写方法高度依赖数据库管理系统(DBMS)成本估算器,这些估算器通常并不准确。

  • 已有的工作 现有的查询重写研究主要集中在规则-based的重写技术,通过发现新的重写规则或者有效地应用已有规则。例如,Learned Rewrite利用Apache Calcite平台上的现有重写规则,并学会选择适用的规则。然而,挑战在于Monte Carlo算法的计算需求和成本估算模型的准确性,并且大型语言模型(LLM)的出现也带来了直接输出新重写查询的方法。

核心贡献

  • 提出了一个LLM-R2大型语言模型增强的规则based重写系统
    • 挑战1:选拔规则的自动化与减少资源消耗 系统提出利用大型语言模型(LLM)来推荐可能的重写规则,从而自动化挑选更有效的重写规则的过程,确保重写查询的可执行性和等价性。

    • 挑战2:克服幻觉问题和提升执行效率 为了克服幻觉问题和提升执行效率,作者收集了一个有效查询重写示例池,并学习了一个对比模型来选择最有用的示例以引导系统优化LLM的规则选拔。同时,为了应对有限训练数据的挑战,提出了使用学习课程技术来计划训练数据。

实现与部署

LLM-R2通过在三个不同数据集(TPC-H, IMDB和DSB)上的应用,证明了其在查询执行效率上的显著提升。与原始查询时间相比,我们的方法仅需52.5%,56.0%,39.8%的查询时间,而且与最先进的基线方法相比分别减少到94.5%,63.1%,40.7%。

总结

LLM-R2是一种利用大型语言模型增强的查询重写系统,通过自动选择一组给定重写规则中的有效规则,有效地提升了查询重写的执行效率,解决了目前其他方法的局限性,并在多个数据集上取得了优越的性能。