-
背景
论文介绍了在进行自动语音识别或者口语理解任务时,如果能够访问前导文本或音频来获取上下文信息,可以提高性能。然而,现有的方法存在一些限制,例如需要访问前导对话,以及在微调和推理阶段可能需要巨大的文本语言模型。 -
已有的工作 论文指出,虽然使用前导对话或历史对话生成上下文信息的方法是有效的,但现有的研究没有充分利用先进的大型语言模型生成相应的上下文信息。前者在实际应用中需要具备真实前导段落的访问,或者依赖于文本模型,在推理时可能带来资源上的负担。
- 提出了一个いうGenerative Context-aware Fine-tuning的方法
-
挑战1:如何不依赖于实际前导段落 论文提出通过使用大型语言模型(LLM)来生成文本,并从这些文本中提取上下文嵌入信息,而不需要在推理时访问真实的前导段落。这样可以在不降低性能的情况下,减少在应用阶段对其他文本语言模型的依赖。
-
挑战2:如何提高生成文本的实用性和相关性 论文分析了利用前导文本生成有用上下文信息的不同提示方式,并探索了多种大小的大型语言模型的有效性。论文进一步开发了一个生成上下文感知型微调模块,以将上下文嵌入信息蒸馏成更紧凑的网络,使得系统能够在没有其他语言模型的前提下,能够预测相关的上下文信息。
-
论文通过SLUE和Libri-light基准数据集对提出的方法进行评估,涵盖多个下游任务:自动语音识别、命名实体识别和情感分析。结果显示,生成上下文感知型微调在不访问真实前导文本的情况下,表现出优于访问真实前导文本的上下文注入型微调方法,并且与在推理阶段需要大型语言模型的生成上下文注入型微调方法具有竞争力。
论文介绍了一种新的自监督语音模型微调方法,它使用大型语言模型生成的文本信息作为上下文,以提高任务执行的表现力,同时在不牺牲性能的情况下减少对额外大型语言模型的依赖和减少推理时的资源消耗。