自然语言处理 (NLP)

利用计算机对人类日常使用的语言 (自然语言) 进行处理、理解和生成的技术总称。涵盖分词、句法分析、语义分析、机器翻译、情感分析等领域。

自然语言处理 (Natural Language Processing,NLP) 是用计算机处理人类语言的技术领域。"自然语言"是相对于编程语言等人工语言而言的概念,指中文、英文、日文等人类自然发展出来的语言。搜索引擎、语音助手、机器翻译、聊天机器人、垃圾邮件过滤器等日常使用的服务,背后都依赖 NLP 技术。

NLP 的处理是分层进行的。最底层的分词将文本切分为词语并标注词性。句法分析解析词语之间的语法关系 (主谓、修饰等)。语义分析理解句子的含义,消除词义歧义。篇章分析处理跨句子的上下文 (指代消解、句间逻辑关系)。每一层都依赖下层的结果,因此分词的准确度直接影响整体质量。

中文 NLP 面临英文所没有的特殊挑战。第一,中文词语之间没有空格,分词是必不可少的预处理步骤,jieba、pkuseg、LAC 等工具是中文 NLP 的基础设施。第二,中文主语经常省略,需要从上下文推断。第三,中文的量词系统复杂,不同名词搭配不同量词 (一"条"鱼、一"只"猫)。第四,同一个汉字在不同语境下读音不同 (多音字,如"行"读 xíng 或 háng),给语音合成带来困难。

2017 年 Transformer 架构问世后,NLP 经历了飞跃式发展。BERT (2018 年) 学习了考虑上下文的词向量表示,GPT 系列 (2018 年至今) 实现了大规模文本生成。这些大语言模型 (LLM) 不仅在翻译、摘要、问答等传统 NLP 任务上达到了接近人类的水平,还拓展到了编程和创作等以往 NLP 范畴之外的领域。

NLP 与字符计数密切相关。分词结果直接决定了"词数"的统计。句子边界检测是"句数"统计的基础。阅读时间的估算需要用到词数和句子复杂度的分析。情感分析可以衡量在社交媒体字数限制内能传达多少情感。字符计数工具的高级功能,离不开 NLP 技术的支撑。

分享这篇文章