固有表現抽出 (NER)
テキストから人名、地名、組織名などの固有表現を自動的に識別・分類する自然言語処理技術。
固有表現抽出 (NER: Named Entity Recognition) は、テキストから人名、地名、組織名、日付、金額などの固有表現を自動的に識別・分類する自然言語処理技術です。
NER は情報抽出、質問応答システム、知識グラフ構築、文書要約など多くの NLP アプリケーションの基盤技術です。spaCy、Stanford NER、BERT ベースのモデルなどが広く使われています。自然言語処理実践の書籍で実装方法を学べます。
日本語の NER では、形態素解析の精度が結果に大きく影響します。人名と一般名詞の区別、新語や略語への対応が課題です。
文字数カウントの観点では、NER で抽出された固有表現の文字数分布を分析することで、テキストの情報密度や構成を把握できます。NLP と機械学習の書籍も参考になります。