改稿_草庐IT

近年来，自动摘要技术取得了长足的进步，这主要归功于范式的转变——从在标注数据集上进行有监督微调转变为使用大语言模型（LLM）进行零样本prompt，例如GPT-4。不需要额外的训练，细致的prompt就能实现对摘要长度、主题、风格等方面特征的精细控制。但一个方面常常被忽视：摘要的信息密度。从理论上讲，作为对另一个文本的压缩，摘要应该比源文件更密集，也就是包含更多的信息。考虑到LLM解码的高延迟，用更少的字数涵盖更多的信息非常重要，尤其是对于实时应用而言。然而，信息量密度是一个开放式的问题：如果摘要包含的细节不足，那么相当于没有信息量；如果包含的信息过多，又不增加总长度，就会变得难以理解。要在固