Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.38 KB

2312.10466.md

File metadata and controls

20 lines (15 loc) · 2.38 KB

背景

  • 背景
    文章介绍了现代社交媒体,尤其是Twitter等平台上用户生成的微博每日成千上万,用户往往难以理解这些大量信息。为帮助快速和容易理解这些内容,广泛使用标签(hashtags)来传递核心的观点和主题,增加内容的可见性,并吸引更多观众。其中,主流标签是最普遍且语义准确的标签,但面临如何理解新发布微博内容以及精准辨认主流标签的双重挑战。

  • 已有的工作 文章提到过去针对上述挑战已有两条研究路径:一是基于检索的方法,它通过检索固定预定义主流标签列表来缓解第二个问题,但这种方式不能很好理解持续更新的信息;二是基于生成的方法,它能很好的理解新发布的微博,但在识别没有额外特征的主流标签方面能力有限。

核心贡献

  • 提出了一个RIGHT框架
    • 挑战1:如何同时理解新发布的微博并精确识别主流标签 本文提出的RIGHT框架通过检索增强技术,结合了检索与生成方法,旨在克服这一挑战。RIGHT框架包括三部分:检索器从整个微博-标签集中寻找相关的标签;选择器通过引入全球信号来增强主流标签的识别;生成器结合输入的微博和选定的标签直接生成需要的标签。

    • 挑战2:如何降低检索和选择器的成本,同时保证检索到的信息质量 通过在生成器中加入多维度的特征(如输入微博与检索到的微博和其标签之间的相似度,以及标签的频率等),提高了选择器识别主流标签的能力,从而避免了在检索器上的高成本投入,并提高了检索到信息的质量。

实现与部署

RIGHT框架在两个大型数据集(即英文Twitter (THG) 和中文微博 (WHG))上进行了实验,与现有的最先进方法相比,取得了显著的改进。此外,由于RIGHT能够轻松集成到大型语言模型中,研究人员还将该框架应用于ChatGPT,并通过零样本指令学习,使THG的性能提高了12.7%,WHG提高了18.3%。

总结

本文提出了一种新的检索增强型生成主流标签推荐系统(RIGHT),通过结合检索器、选择器和生成器的优势,克服了现有方法在理解新信息和识别主流标签方面的限制,并在实验中取得显著成效。