用語集

テキスト計測

文字エンコーディング

Unicode

世界中の文字を統一的に扱うための文字コード規格。14 万字以上の文字を収録する。

UTF-8

Unicode の可変長エンコーディング方式。Web の標準文字コードとして広く使われている。

Shift_JIS

日本語向けの文字エンコーディング。レガシーシステムで広く使われているが、現在は UTF-8 への移行が進んでいる。

ASCII

7 ビットで 128 文字を表現する文字コード規格。英数字と基本的な記号を収録する。

UTF-16

Unicode の 16 ビット単位のエンコーディング方式。JavaScript や Java の内部文字列表現に使用される。

EUC-JP

UNIX 系システムで広く使われた日本語文字エンコーディング。Extended Unix Code の日本語版。

ISO-2022-JP

電子メールで使われた日本語エンコーディング。エスケープシーケンスで文字集合を切り替える。

BOM (バイトオーダーマーク)

ファイル先頭に付与されるエンコーディング識別用のバイト列。UTF-8 では EF BB BF、UTF-16 では FF FE または FE FF。

コードポイント

Unicode で各文字に割り当てられた一意の番号。U+0041 (A) のように U+ に続く 16 進数で表記する。

サロゲートペア

UTF-16 で基本多言語面 (BMP) 外の文字を 2 つの 16 ビットコードユニットで表現する仕組み。

結合文字

直前の基底文字に結合して表示される Unicode 文字。ダイアクリティカルマークや濁点などが該当する。

エンディアン

マルチバイトデータのバイト順序。ビッグエンディアンとリトルエンディアンの 2 種類がある。

文字集合 (キャラクタセット)

特定の文字の集まりとその番号付けの体系。ASCII、ISO 8859、Unicode などが代表的。

文字種・文字体系

全角文字

固定幅フォントで半角文字の 2 倍の幅を占める文字。日本語のひらがな、カタカナ、漢字が該当する。

半角文字

固定幅フォントで全角文字の半分の幅を占める文字。ASCII 英数字や半角カタカナが該当する。

ひらがな

日本語の表音文字の一つ。やわらかい印象を持ち、助詞や活用語尾に使われる。

カタカナ

日本語の表音文字の一つ。外来語、擬音語、学術用語の表記に使われる。

漢字

中国で生まれた表意文字。日本語では常用漢字 2,136 字が日常的に使用される。

書記素クラスタ

人間が 1 文字と認識する最小の表示単位。複数のコードポイントで構成されることがある。

絵文字

Unicode に収録された絵文字記号。テキストコミュニケーションで感情や概念を視覚的に表現する。

ローマ字

日本語をラテン文字 (アルファベット) で表記する方式。ヘボン式と訓令式が代表的。

ゼロ幅スペース

表示幅がゼロの不可視文字 (U+200B)。改行位置のヒントやテキスト処理の制御に使われる。

ダイアクリティカルマーク

文字の上下に付加される補助記号。アクセント記号やウムラウトなど、発音の違いを示す。

表意文字

文字自体が意味を持つ文字体系。漢字が代表例で、CJK 統合漢字として Unicode に収録されている。

テキスト処理

トークン

テキストを処理する際の最小単位。自然言語処理や LLM では文字や単語とは異なる独自の分割単位を使用する。

文字列の切り詰め

テキストを指定された長さで切り詰める処理。表示領域やデータベースの制限に合わせて使用される。

改行

テキストを次の行に折り返す処理。CSS の word-break や overflow-wrap で制御する。

改行コード

改行を表す制御文字。LF (Unix)、CR (旧 Mac)、CRLF (Windows) の 3 種類がある。

Unicode 正規化

同じ文字の異なる表現を統一する処理。NFC, NFD, NFKC, NFKD の 4 形式がある。

トリム

文字列の前後の空白を除去する処理。多くのプログラミング言語で標準メソッドとして提供される。

エスケープシーケンス

特殊文字を表現するための文字列。バックスラッシュに続く文字で改行やタブなどを表す。

文字列結合

複数の文字列を連結して 1 つの文字列にする処理。+ 演算子やテンプレートリテラルなどで実現する。

部分文字列

文字列の一部を抽出する処理。slice、substring、substr などのメソッドで取得する。

文字列補間

テンプレートリテラルなどで変数や式の値を文字列に埋め込む処理。

パディング

文字列を指定した長さに揃えるために特定の文字を埋める処理。padStart や padEnd で実現する。

Base64

バイナリデータを ASCII 文字列に変換するエンコーディング方式。A-Z, a-z, 0-9, +, / の 64 文字を使用する。

パーセントエンコーディング

URL で特殊文字を %XX 形式の 16 進数で表現するエンコーディング方式。URL エンコーディングとも呼ばれる。

差分 (diff)

2 つのテキスト間の違いを検出・表示する処理。バージョン管理やコードレビューの基盤技術。

テキスト圧縮

テキストデータのサイズを削減する技術。gzip、Brotli、deflate などのアルゴリズムが使われる。

レーベンシュタイン距離

2 つの文字列間の編集距離。一方の文字列を他方に変換するために必要な挿入・削除・置換の最小回数。

あいまい検索 (ファジーマッチング)

完全一致ではなく、類似した文字列を検索する手法。タイプミスや表記揺れに対応できる。

プラットフォーム制限

国際化

正規表現

自然言語処理

タイポグラフィ

データ形式

セキュリティ

アクセシビリティ