■ 我很丑可是我很能干- 正则表达式(Regular Expression) 正则表达式被用于描述某一类特定格式的字符串方法,能简洁地、能几何倍数地改善文本处理效率,但它不招人疼所以让人厌恶,原因并不是概念有多高深,主要是它长得太丑!一个字符串是否符合某一类特定格式的字符串,关键在于它是否符合这个特定格式的多个匹配规则。
理解
正则表达式的钥匙在于提炼每条匹配规则的三个要素:字符子集、重复次数与位置。例字符串"两位数字开头三位英文字母结尾",写正则表达式之前需要我们这么变换句式:"开头 数字{2位} 任意字符{0或多位} 字母{3位} 结尾",
正则表达式为"^ [0-9]{2} [\s\S]* [a-zA-Z]{3} $"。
在每条匹配规则中,可能出现的字符子串有个范围,属于固定的字符子集,
正则表达式用常量、区域和逻辑运算来表示这个集合,如图13-2所例,值得注意是部份字符已被定义成元字符,具有特殊的含义。
每条匹配规则中,其字符子集可能出现重复,可以用两种方法表示:一是紧跟着字符子集后加个大括号,内标数字,另一种用元字符表示,如图13-3例。每条匹配规则中字符子集的位置由其在
正则表达式中的位置决定,整个字符串开头用"^"表示,结尾用"$"表示。
在很多时候,两条或以上的匹配规则可能要用到同一个字符子集,如html标记中,标签声明应当是同一字符子集,比如"<div>……</div>"。如果要定义一个字符子集以便其后引用,可用小括号标识,用"\数字"引用。
正则表达式的应用范围很广,除了数据校验外,UBB论坛、页面动态转静态、搜索技术等时常出现它的身影,"我很丑可是我很能干",在这里我们仅仅只是探讨表达式的书写方法。最后用两个实例总结,如图13-4所示。
查看本文来源