草庐IT

「字少信息量大」,Salesforce、MIT 研究者教 GPT-4「改稿」,数据集已开源

近年来,自动摘要技术取得了长足的进步,这主要归功于范式的转变——从在标注数据集上进行有监督微调转变为使用大语言模型(LLM)进行零样本prompt,例如GPT-4。不需要额外的训练,细致的prompt就能实现对摘要长度、主题、风格等方面特征的精细控制。但一个方面常常被忽视:摘要的信息密度。从理论上讲,作为对另一个文本的压缩,摘要应该比源文件更密集,也就是包含更多的信息。考虑到LLM解码的高延迟,用更少的字数涵盖更多的信息非常重要,尤其是对于实时应用而言。然而,信息量密度是一个开放式的问题:如果摘要包含的细节不足,那么相当于没有信息量;如果包含的信息过多,又不增加总长度,就会变得难以理解。要在固