文本挖掘
运用统计学和语言学方法从大量文本数据中提取有价值的模式和知识的技术。综合运用分词、频率分析、共现分析、情感分析等方法。
文本挖掘 (text mining) 是从非结构化的自然语言文本中自动提取人工难以发现的模式和趋势的技术。它广泛应用于客户评论分析、社交媒体舆情监测、学术论文趋势把握、客服工单分类等一切积累了文本数据的领域。
文本挖掘的基本处理流程分为四个阶段。第一阶段是预处理,包括文本清洗 (去除 HTML 标签、符号正规化、统一表述差异)。第二阶段是分词,将句子切分为词语并标注词性。中文与英文不同,词与词之间没有空格分隔,因此需要使用 jieba、HanLP、pkuseg 等中文分词工具。第三阶段是特征提取,使用 TF-IDF 或词向量将文本转换为数值向量。第四阶段是分析与可视化,应用聚类、分类、主题建模等方法。
频率分析是最简单的文本挖掘方法。统计文本中各词语的出现次数,找出高频词。但「的」「了」「是」等虚词 (停用词) 虽然频率很高却不携带有效信息,需要排除。频率分析的结果常以词云的形式可视化,能直观地把握文本整体的倾向。
共现分析用于检测特定词语在同一上下文中共同出现的模式。例如,在商品评论中「电池」和「续航」高频共现,说明电池续航是用户关注的焦点。将共现关系可视化为网络图,可以揭示词语之间的关联结构。
情感分析 (sentiment analysis) 判断文本属于正面、负面还是中性。「这个产品太棒了」属于正面,「再也不会买了」属于负面。中文的情感分析面临反讽和委婉表达的挑战 (如「还行吧」是真的觉得还行,还是在表达不满),准确率通常低于英文。此外,中文网络用语的快速演变 (如「绝绝子」「yyds」) 也给情感词典的维护带来持续挑战。
从字符计数的角度看,文本挖掘的预处理阶段中,字符数和词数统计是基础数据。文档长度 (字符数) 是分类模型的有效特征,在垃圾邮件检测中,「过短的邮件」或「异常长的邮件」都可以作为判别线索。此外,N-gram 分析中会区分字符级 N-gram 和词语级 N-gram,从字符层面的模式到语义层面的模式进行多层次分析。