llm-paper-daily/summary/2024-04/2404.12872.md at main · xianshang33/llm-paper-daily · GitHub

背景

背景
文章介绍了在现代数据库系统中，查询重写是优化查询处理的一个关键环节。已有的查询重写技术往往专注于规则-based的重写方法，这在确保重写查询的可执行性和等价性方面是必要的，但是目前的方法在发现最优重写规则及其序列的方法上仍存在局限，且重写过程经常消耗大量资源。而新的重写规则的发现需要复杂的结构逻辑验证或广泛的用户交互。此外，当前的查询重写方法高度依赖数据库管理系统（DBMS）成本估算器，这些估算器通常并不准确。
已有的工作 现有的查询重写研究主要集中在规则-based的重写技术，通过发现新的重写规则或者有效地应用已有规则。例如，Learned Rewrite利用Apache Calcite平台上的现有重写规则，并学会选择适用的规则。然而，挑战在于Monte Carlo算法的计算需求和成本估算模型的准确性，并且大型语言模型（LLM）的出现也带来了直接输出新重写查询的方法。

核心贡献

提出了一个LLM-R2大型语言模型增强的规则based重写系统
- 挑战1：选拔规则的自动化与减少资源消耗 系统提出利用大型语言模型(LLM)来推荐可能的重写规则，从而自动化挑选更有效的重写规则的过程，确保重写查询的可执行性和等价性。
- 挑战2：克服幻觉问题和提升执行效率 为了克服幻觉问题和提升执行效率，作者收集了一个有效查询重写示例池，并学习了一个对比模型来选择最有用的示例以引导系统优化LLM的规则选拔。同时，为了应对有限训练数据的挑战，提出了使用学习课程技术来计划训练数据。

实现与部署

LLM-R2通过在三个不同数据集（TPC-H, IMDB和DSB）上的应用，证明了其在查询执行效率上的显著提升。与原始查询时间相比，我们的方法仅需52.5%，56.0%，39.8%的查询时间，而且与最先进的基线方法相比分别减少到94.5%，63.1%，40.7%。

总结

LLM-R2是一种利用大型语言模型增强的查询重写系统，通过自动选择一组给定重写规则中的有效规则，有效地提升了查询重写的执行效率，解决了目前其他方法的局限性，并在多个数据集上取得了优越的性能。