用語集
テキスト計測
文字数
テキストに含まれる文字の総数。スペースや改行を含むかどうかは文脈によって異なる。
バイト数
テキストデータをエンコーディングした際のバイト単位のサイズ。文字コードによって同じ文字でもバイト数が異なる。
単語数
テキストに含まれる単語の数。英語ではスペース区切りで数え、日本語では形態素解析が必要。
読了時間
テキストを読み終えるまでの推定所要時間。文字数や単語数から算出される。
段落数
テキスト内の段落の数。文章の構造化や読みやすさの指標として使われる。
文数
テキスト内の文の数。句点やピリオドで区切られた文の総数を指す。
リーダビリティスコア
テキストの読みやすさを数値化した指標。Flesch Reading Ease や Flesch-Kincaid Grade Level が代表的。
文字エンコーディング
Unicode
世界中の文字を統一的に扱うための文字コード規格。14 万字以上の文字を収録する。
UTF-8
Unicode の可変長エンコーディング方式。Web の標準文字コードとして広く使われている。
Shift_JIS
日本語向けの文字エンコーディング。レガシーシステムで広く使われているが、現在は UTF-8 への移行が進んでいる。
ASCII
7 ビットで 128 文字を表現する文字コード規格。英数字と基本的な記号を収録する。
UTF-16
Unicode の 16 ビット単位のエンコーディング方式。JavaScript や Java の内部文字列表現に使用される。
EUC-JP
UNIX 系システムで広く使われた日本語文字エンコーディング。Extended Unix Code の日本語版。
ISO-2022-JP
電子メールで使われた日本語エンコーディング。エスケープシーケンスで文字集合を切り替える。
BOM (バイトオーダーマーク)
ファイル先頭に付与されるエンコーディング識別用のバイト列。UTF-8 では EF BB BF、UTF-16 では FF FE または FE FF。
コードポイント
Unicode で各文字に割り当てられた一意の番号。U+0041 (A) のように U+ に続く 16 進数で表記する。
サロゲートペア
UTF-16 で基本多言語面 (BMP) 外の文字を 2 つの 16 ビットコードユニットで表現する仕組み。
結合文字
直前の基底文字に結合して表示される Unicode 文字。ダイアクリティカルマークや濁点などが該当する。
エンディアン
マルチバイトデータのバイト順序。ビッグエンディアンとリトルエンディアンの 2 種類がある。
文字集合 (キャラクタセット)
特定の文字の集まりとその番号付けの体系。ASCII、ISO 8859、Unicode などが代表的。
文字種・文字体系
全角文字
固定幅フォントで半角文字の 2 倍の幅を占める文字。日本語のひらがな、カタカナ、漢字が該当する。
半角文字
固定幅フォントで全角文字の半分の幅を占める文字。ASCII 英数字や半角カタカナが該当する。
ひらがな
日本語の表音文字の一つ。やわらかい印象を持ち、助詞や活用語尾に使われる。
カタカナ
日本語の表音文字の一つ。外来語、擬音語、学術用語の表記に使われる。
漢字
中国で生まれた表意文字。日本語では常用漢字 2,136 字が日常的に使用される。
書記素クラスタ
人間が 1 文字と認識する最小の表示単位。複数のコードポイントで構成されることがある。
絵文字
Unicode に収録された絵文字記号。テキストコミュニケーションで感情や概念を視覚的に表現する。
ローマ字
日本語をラテン文字 (アルファベット) で表記する方式。ヘボン式と訓令式が代表的。
ゼロ幅スペース
表示幅がゼロの不可視文字 (U+200B)。改行位置のヒントやテキスト処理の制御に使われる。
ダイアクリティカルマーク
文字の上下に付加される補助記号。アクセント記号やウムラウトなど、発音の違いを示す。
表意文字
文字自体が意味を持つ文字体系。漢字が代表例で、CJK 統合漢字として Unicode に収録されている。
テキスト処理
トークン
テキストを処理する際の最小単位。自然言語処理や LLM では文字や単語とは異なる独自の分割単位を使用する。
文字列の切り詰め
テキストを指定された長さで切り詰める処理。表示領域やデータベースの制限に合わせて使用される。
改行
テキストを次の行に折り返す処理。CSS の word-break や overflow-wrap で制御する。
改行コード
改行を表す制御文字。LF (Unix)、CR (旧 Mac)、CRLF (Windows) の 3 種類がある。
Unicode 正規化
同じ文字の異なる表現を統一する処理。NFC, NFD, NFKC, NFKD の 4 形式がある。
トリム
文字列の前後の空白を除去する処理。多くのプログラミング言語で標準メソッドとして提供される。
エスケープシーケンス
特殊文字を表現するための文字列。バックスラッシュに続く文字で改行やタブなどを表す。
文字列結合
複数の文字列を連結して 1 つの文字列にする処理。+ 演算子やテンプレートリテラルなどで実現する。
部分文字列
文字列の一部を抽出する処理。slice、substring、substr などのメソッドで取得する。
文字列補間
テンプレートリテラルなどで変数や式の値を文字列に埋め込む処理。
パディング
文字列を指定した長さに揃えるために特定の文字を埋める処理。padStart や padEnd で実現する。
Base64
バイナリデータを ASCII 文字列に変換するエンコーディング方式。A-Z, a-z, 0-9, +, / の 64 文字を使用する。
パーセントエンコーディング
URL で特殊文字を %XX 形式の 16 進数で表現するエンコーディング方式。URL エンコーディングとも呼ばれる。
差分 (diff)
2 つのテキスト間の違いを検出・表示する処理。バージョン管理やコードレビューの基盤技術。
テキスト圧縮
テキストデータのサイズを削減する技術。gzip、Brotli、deflate などのアルゴリズムが使われる。
レーベンシュタイン距離
2 つの文字列間の編集距離。一方の文字列を他方に変換するために必要な挿入・削除・置換の最小回数。
あいまい検索 (ファジーマッチング)
完全一致ではなく、類似した文字列を検索する手法。タイプミスや表記揺れに対応できる。
プラットフォーム制限
文字数制限
プラットフォームやシステムが設定するテキスト入力の最大文字数。SNS、広告、フォームなどで適用される。
メタディスクリプション
HTML の meta description タグ。検索結果に表示される説明文で、120〜160 文字が推奨される。
タイトルタグ
HTML の title タグ。検索結果やブラウザタブに表示されるページのタイトルで、30〜60 文字が推奨される。
代替テキスト (alt 属性)
画像の代替テキスト。アクセシビリティと SEO に重要で、画像が表示できない場合に代わりに表示される。
スラッグ (URL スラッグ)
URL のパス部分に使われる人間が読める識別子。SEO とユーザビリティに影響する。
Open Graph
SNS でのリンク共有時に表示される情報を制御するメタタグプロトコル。Facebook が策定した。
X (Twitter) 文字数制限
X (旧 Twitter) の投稿は 280 文字まで。日本語・中国語・韓国語は 1 文字が 2 文字分としてカウントされる。
Instagram キャプション制限
Instagram のキャプションは 2,200 文字まで。ハッシュタグは最大 30 個まで使用可能。
SMS 文字数制限
SMS は 1 通 160 文字 (GSM 7-bit) または 70 文字 (Unicode/UCS-2)。長文は分割送信される。
国際化
ロケール
言語・地域・書式設定の組み合わせ。ja-JP (日本語・日本)、en-US (英語・米国) などの識別子で表す。
ICU (International Components for Unicode)
Unicode の国際化ライブラリ。文字列の照合・変換・書式設定など多言語処理の基盤を提供する。
双方向テキスト (BiDi)
左→右 (LTR) と右→左 (RTL) のテキストが混在する処理。アラビア語やヘブライ語を含む多言語テキストで必要。
CJK (中日韓統合漢字)
中国語・日本語・韓国語で共通する漢字を Unicode で統合的に扱う体系。CJK Unified Ideographs。
入力メソッド (IME)
キーボードから文字を入力するためのソフトウェア。日本語や中国語など、キーボードに直接対応しない文字の入力を可能にする。
照合順序 (コレーション)
文字列の比較・並べ替えの規則。言語や文化圏によって異なるソート順を定義する。
翻字 (トランスリテレーション)
ある文字体系のテキストを別の文字体系に変換する処理。音韻を保持しながら文字を置き換える。
正規表現
正規表現パターン
テキストの検索・置換に使うパターン記述言語。特殊文字とリテラル文字を組み合わせて文字列のパターンを定義する。
正規表現量指定子
*, +, ?, {n,m} などの繰り返し回数を指定するメタ文字。直前の要素の出現回数を制御する。
正規表現文字クラス
[a-z], d, w などの文字集合を指定する構文。マッチさせたい文字の範囲を定義する。
正規表現グループ
() によるキャプチャグループと後方参照。パターンの一部をグループ化し、マッチした部分を取得・再利用する。
正規表現先読み
(?=...) や (?!...) で後続パターンを条件にマッチさせる正規表現の構文。文字列を消費せずに条件を検査する。
正規表現後方参照
キャプチャグループでマッチした文字列を、同じパターン内で再利用する機能。\1、\2 などで参照する。
自然言語処理
形態素解析
テキストを最小の意味単位 (形態素) に分割し、品詞や読みなどの情報を付与する処理。
トークナイゼーション
テキストをトークン (単語やサブワードなどの処理単位) に分割する処理。
ストップワード
検索やテキスト分析で除外される頻出語。「の」「は」「a」「the」など意味的に重要度の低い語。
N-gram
テキストを N 文字または N 単語ずつの連続部分列に分割する手法。検索やテキスト類似度の計算に使われる。
感情分析
テキストからポジティブ・ネガティブ・ニュートラルなどの感情極性を判定する処理。
TF-IDF
Term Frequency-Inverse Document Frequency の略。文書内での単語の重要度を数値化する手法。
固有表現抽出 (NER)
テキストから人名、地名、組織名などの固有表現を自動的に識別・分類する自然言語処理技術。
タイポグラフィ
行間 (行送り)
テキストの行と行の間隔。CSS では line-height プロパティで指定し、可読性に大きく影響する。
フォントサイズ
文字の表示サイズ。CSS では px, em, rem, vw などの単位で指定する。
空白文字
スペース、タブ、改行などの不可視文字。テキスト処理やレイアウトで重要な役割を果たす。
合字 (リガチャ)
2 つ以上の文字を結合して 1 つのグリフとして表示する技法。fi, fl などが代表例。
カーニング
隣接する文字間の間隔を調整する技法。文字の組み合わせに応じて視覚的に均等な間隔を実現する。
データ形式
JSON
JavaScript Object Notation の略で、軽量なデータ交換フォーマット。人間にも機械にも読みやすい構造を持つ。
CSV
Comma-Separated Values の略で、カンマ区切りでデータを表現するテキスト形式。表形式データの交換に広く使われる。
XML
Extensible Markup Language の略で、データの構造をタグで記述するマークアップ言語。
YAML
YAML Ain't Markup Language の略で、インデントベースの人間に読みやすいデータシリアライゼーション形式。
Markdown
軽量マークアップ言語の一つ。プレーンテキストに簡易な記法で書式を付与し、HTML に変換できる。
HTML エンティティ
HTML で特殊文字を表現するための文字参照。& で始まり ; で終わる記法。
MIME タイプ
ファイルやデータの種類を識別するための標準的な分類方式。type/subtype の形式で表現される。
セキュリティ
ハッシュ値
任意の長さのデータを固定長の値に変換したもの。データの一意性検証や改ざん検知に使われる。
チェックサム
データの誤り検出のために計算される値。データ転送やファイル保存時の整合性確認に使われる。
暗号化
データを第三者が読めない形式に変換する技術。復号鍵を持つ者だけが元のデータを復元できる。
平文 (プレーンテキスト)
暗号化されていない、人間が直接読める形式のテキストデータ。
サニタイズ
ユーザー入力から有害なコードや不正な文字を除去・無害化する処理。XSS や SQL インジェクション対策の基本。
アクセシビリティ
スクリーンリーダー
画面上のテキストや UI 要素を音声で読み上げる支援技術。視覚障害者の Web アクセスを支援する。
ARIA ラベル
WAI-ARIA 仕様で定義された属性で、UI 要素にアクセシブルな名前を付与する。スクリーンリーダーが読み上げるテキストを指定する。
コントラスト比
前景色と背景色の明度差を数値化した比率。WCAG ではテキストの可読性基準として 4.5:1 以上を要求する。
セマンティック HTML
コンテンツの意味や構造を明確に伝える HTML 要素の使用。header, nav, main, article, section などの要素を適切に使い分ける。
フォーカスインジケーター
キーボード操作時に現在フォーカスされている要素を視覚的に示す表示。アウトラインやハイライトで表現される。
テキスト読み上げ (TTS)
テキストデータを音声に変換する技術。Text-to-Speech の略。スクリーンリーダーや音声アシスタントの基盤技術。