要約
長い文章の要点を短くまとめる処理。抽出型 (原文から重要な文を選ぶ) と生成型 (新たな文で言い換える) の 2 種類があり、文字数制限下での情報伝達に不可欠な技術。
要約 (summarization) は、元の文章の意味を保ちながら、より短いテキストに凝縮する処理です。新聞の見出し、書籍の帯文、論文のアブストラクト、検索結果のスニペット - 日常のあらゆる場面で要約が使われています。文字数制限のある媒体では、要約の技術が情報伝達の質を左右します。
要約には 2 つのアプローチがあります。抽出型要約 (extractive summarization) は、原文から重要度の高い文をそのまま抜き出して並べる方法です。TF-IDF やテキストランクなどのアルゴリズムで各文の重要度をスコアリングし、上位の文を選択します。原文の表現がそのまま使われるため正確性は高いですが、文と文のつながりが不自然になることがあります。
生成型要約 (abstractive summarization) は、原文の内容を理解した上で、新たな文で言い換える方法です。人間が行う要約はほとんどがこの方式です。近年は GPT や BART などの大規模言語モデルにより、機械による生成型要約の品質が飛躍的に向上しました。ただし、原文にない情報を「幻覚」(hallucination) として生成してしまうリスクがあり、事実の正確性を検証する仕組みが必要です。
要約の品質は「圧縮率」と「情報保持率」のバランスで評価されます。1,000 文字の文章を 200 文字に要約すれば圧縮率は 80% ですが、重要な情報が欠落していれば良い要約とは言えません。逆に、情報を網羅しようとして 800 文字になれば、要約としての価値が薄れます。一般的に、元の文章の 20〜30% の文字数が要約の目安とされています。
実務での要約は、媒体ごとの文字数制限に合わせて行います。Google 検索のメタディスクリプションは約 120 文字 (日本語)、Twitter は 280 文字、LINE のプッシュ通知は約 40 文字、新聞の見出しは 13 文字前後です。同じ内容を 120 文字で要約するのと 13 文字で要約するのでは、求められる技術がまったく異なります。文字数が少ないほど、一文字あたりの情報密度を高める必要があります。
文字数カウントツールは要約作業の必須ツールです。目標文字数に対する現在の文字数をリアルタイムで確認しながら、「あと何文字削るか」「この情報を残すか捨てるか」を判断します。要約の上達には、同じ文章を 100 文字、50 文字、20 文字と段階的に圧縮する練習が効果的です。文字数の制約が厳しくなるほど、本当に重要な情報が何かを見極める力が鍛えられます。