摘要
将长篇文章的要点浓缩为短文本的处理。分为抽取式 (从原文中选取重要句子) 和生成式 (用新的语句改写) 两种方法,是在字数限制下传递信息的关键技术。
摘要 (summarization) 是在保留原文含义的前提下,将文本压缩为更短内容的处理。新闻标题、书籍腰封、论文摘要、搜索结果片段 - 日常生活中处处可见摘要的应用。在有字数限制的场景中,摘要技术直接决定了信息传递的质量。
摘要有两种基本方法。抽取式摘要 (extractive summarization) 从原文中直接抽取重要度高的句子并排列组合。通过 TF-IDF 或 TextRank 等算法对每个句子进行重要度评分,选取得分最高的句子。由于直接使用原文表述,准确性较高,但句子之间的衔接可能不够自然。
生成式摘要 (abstractive summarization) 在理解原文内容的基础上,用新的语句进行改写。人类所做的摘要大多属于这种方式。近年来,GPT、BART 等大语言模型使机器生成式摘要的质量有了飞跃性提升。但存在将原文中没有的信息作为"幻觉" (hallucination) 生成出来的风险,需要建立事实准确性的验证机制。
摘要的质量通过"压缩率"和"信息保留率"的平衡来评估。将 1,000 字的文章压缩为 200 字,压缩率为 80%,但如果遗漏了重要信息就不能算好的摘要。反之,为了涵盖所有信息而写到 800 字,摘要的价值就大打折扣。一般认为,原文 20% 至 30% 的字数是摘要的合理目标。
实际工作中的摘要需要配合不同媒介的字数限制。百度搜索的描述片段约 80 字 (中文)、微博 140 字、微信公众号摘要约 120 字、新闻推送标题 15 至 20 字。将同一内容压缩为 120 字和压缩为 15 字,所需的技巧完全不同。字数越少,每个字承载的信息密度就需要越高。
字符计数工具是摘要工作的必备工具。在实时确认当前字数与目标字数差距的同时,判断"还需要删减多少""这条信息是保留还是舍弃"。提升摘要能力的有效练习是:将同一篇文章分别压缩为 100 字、50 字、20 字。字数限制越严格,越能锻炼辨别真正重要信息的能力。