背景

背景
文章介绍了即使在获得指定提示或指令后，大型语言模型（LLMs）在文本生成方面的表现仍然具有挑战性，特别是数十亿规模的模型。此外，训练过程中可能会出现像毒性或幻觉等不受欢迎的行为。尽管更大的模型（例如ChatGPT）在减轻这些问题方面表现出了优势，但仍无法保证完全预防这些问题。
已有的工作 现有工作未能有效地预防大型语言模型在生成文本时的不良行为。过去的技术（如贪婪解码、核抽样或束搜索）主要关注以往的生成内容，而没有考虑在生成过程中满足未来的约束条件。

核心贡献

提出了一个规范化的文本生成方法
- 挑战1：如何在生成中考虑未来的约束满足 为了解决这一挑战，文中提出使用LLMs评估的评分机制来量化未来的约束满足情况。这样做可以在生成过程中更好地控制输出。
- 挑战2：评分机制的有效性 提出的评分机制通过跟踪LLMs使用这些约束信号，观察到与评分信号相关的明显和可识别趋势，验证了评分机制的有效性。未来的研究可以探索各种信号并提高其有效性，例如通过调整来改善约束分数评估。

实现与部署

评估结果表明，提出的方法在三个不同的文本生成任务（关键字约束生成、毒性降低和问题回答中的事实正确性）中表现出了有效性。与其他方法（贪婪解码，束搜索）相比，在速度、流畅性、信息量和正确性方面均有所提高。人工评估通过亚马逊机械土工请求工人对模型响应进行评估，结果也证实了所提出的解码方法在所有纬度上的性能，特别是在正确性上的得分更高。

总结

本文提出了一种通过考虑未来约束满足来改善大型语言模型解码方法的新途径。提出的正式方法和评分机制通过与LLMs的基准测试，可以显著提高文本生成的质量和控制。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2312.06149.md

2312.06149.md

背景

核心贡献

实现与部署

总结

Files

2312.06149.md

Latest commit

History

2312.06149.md

File metadata and controls

背景

核心贡献

实现与部署

总结