#知识

🔍 核心概述

定义解析
正则表达式(regular expression)是一种字符串匹配模式(pattern),可实现三大核心功能:

  • 检查字符串是否包含特定子串
  • 批量替换匹配的子串
  • 提取符合条件的子串片段
    核心价值:显著提升文本处理效率,尤其适用于翻译、编辑、质检等需要大规模文本操作的场景。

💡 应用场景与实用价值

应用维度 典型场景 正则优势
精准搜索 搜索”cat”但排除”catalog”等衍生词 避免无关结果干扰
格式校验 验证手机号(1开头11位数字)、日期格式 自动化质检,减少人工核对
批量替换 将独立”size”替换为”isize”,保留”oversize” 精准定位,避免误操作
文本清洗 移除连续空格、特殊符号 统一格式,提升文本规范性
本地化处理 网站翻译中批量替换URL中的”en”为”zh” 降低重复劳动,提升项目效率

🎯 核心语法与基础符号

一、基础匹配符号

符号 名称 功能描述 示例
. 匹配任意单个字符 c.t → cat/cbt/c@t
* 星号 匹配前项0次/1次/多次 c.*t → ct/cat/caaaat
+ 加号 匹配前项1次/多次 c.+t → cat/caat(不匹配ct)
? 问号 匹配前项0次/1次 colou?r → color/colour
^ 脱字符 匹配字符串开头 ^1\d{10} → 匹配1开头的手机号
$ 美元符 匹配字符串结尾 \d{4}$ → 匹配以4位数字结尾的文本

二、转义符与预定义字符

  • **转义符 \**:将特殊符号转为普通字符,如 \. 匹配小数点,\+ 匹配加号
  • 常用预定义字符
    • \s:匹配空格
    • \d:匹配数字(等价于 [0-9]
    • \n:匹配换行符
    • \t:匹配制表符

三、字符集与重复次数

  • 字符集 []:定义匹配范围,支持组合与区间表示
    [A-Za-z0-9] 匹配字母数字
    [\u4e00-\u9fa5] 匹配中文字符
    [a-zA-Z0-9_\u4e00-\u9fa5]+ 匹配至少一个汉字/数字/字母/下划线
  • 重复次数 {}:精确控制匹配数量
    \d{11} 匹配11位数字(手机号)
    .{3,5} 匹配3-5个任意字