正規表現文字クラス
[a-z], d, w などの文字集合を指定する構文。マッチさせたい文字の範囲を定義する。
正規表現文字クラス (Character Class) は、マッチさせたい文字の集合を定義する構文です。角括弧 [] 内に文字や範囲を記述するカスタムクラスと、d、w などの定義済みクラスがあります。
[a-z] は小文字のアルファベット、[0-9] は数字、[^abc] は a, b, c 以外の文字にマッチします。定義済みクラスでは d (数字)、w (単語文字)、s (空白文字) が頻繁に使われます。正規表現パターンの書籍で文字クラスの活用法を学べます。
Unicode 対応の正規表現では p{Script=Hiragana} のように Unicode プロパティエスケープを使って、特定のスクリプトやカテゴリの文字にマッチさせることができます。
文字クラス内ではメタ文字の多くがリテラルとして扱われますが、]、、^ (先頭)、- (範囲) は特別な意味を持つため注意が必要です。テキスト処理自動化の書籍で正規表現を使った実践的なテキスト処理が解説されています。