単語数
テキストに含まれる単語の数。英語ではスペース区切りで数え、日本語では形態素解析が必要。
単語数 (ワードカウント) は、テキストに含まれる単語の総数です。英語ではスペースで区切られた各トークンを 1 単語として数えるのが基本ですが、ハイフンで結ばれた複合語や省略形の扱いはツールによって異なります。日本語にはスペースによる単語区切りがないため、形態素解析器 (MeCab、Sudachi など) を用いて単語を分割する必要があり、英語に比べて単語数の算出が複雑です。
SEO では記事の単語数がコンテンツの充実度を示す指標の一つとされています。英語圏では 1,500〜2,500 語の記事が検索上位に表示されやすいというデータがあり、Google のアルゴリズムはコンテンツの網羅性を評価する際に単語数を間接的に考慮していると考えられています。ただし、単語数が多ければ良いわけではなく、検索意図に対して過不足のない情報量が重要です。日本語の SEO では単語数よりも文字数 (2,000〜5,000 文字程度) が目安として使われることが多いです。SEO ライティングの書籍でも最適な文字数・単語数が解説されています。
学術論文やレポートでは「○○語以内」という指定が一般的です。英語の学術論文では 3,000〜8,000 語が標準的な長さで、アブストラクトは 150〜300 語に制限されることが多いです。Microsoft Word や Google ドキュメントには単語数カウント機能が内蔵されており、執筆中にリアルタイムで単語数を確認できます。翻訳業界では単語数が料金算出の基準になっており、英日翻訳では原文の英語単語数に単価を掛けて料金を計算するのが一般的です。
日本語と英語の単語数の関係には一定の目安があります。英語 1 語は日本語で約 2〜3 文字に相当するため、英語 1,000 語の文章は日本語では約 2,000〜3,000 文字になります。この換算は翻訳の見積もりや、多言語コンテンツの文字数制限を検討する際に役立ちます。
プログラミングでの単語数カウントは、言語によってアプローチが異なります。英語テキストでは text.split(/\s+/).length のようにスペースで分割するのが基本ですが、句読点の扱いや空文字列の除外に注意が必要です。日本語テキストでは形態素解析ライブラリを使うか、文字数で代替するのが現実的です。日本語文章術の書籍では、適切な文字数の目安が詳しく紹介されています。
文字数カウントとの関連では、単語数と文字数は異なる指標ですが、どちらもテキストの「長さ」を測る尺度として使われます。英語圏では単語数が主流で、日本語圏では文字数が主流です。文字数カウントツールで単語数も併せて表示することで、英語コンテンツの作成や翻訳の見積もりなど、幅広い用途に対応できます。