1.字符缩略表示法
\a [\b] \e \f \n \r \t \0octal \x## \u#### \cchar --- \u####只运行4位16进制数字;\0octal要求开头是0,后面接1至3为10进制数字;\cchar是区分大小写的,直接对后面字符的十进制编码进行异或操作。
2.字符组及相关结构
字符组:[...],[^...],可包含运算符
几乎任何字符:点号(根据模式不同,含义不同)
字符组缩略表示法:\w \d \s \W \D \S --- \w \W只能识别ASCII字符
3.锚点及其他零长断言
行/字符串起始位置:^ \A
行/字符串结束位置:$ \z \Z
当前匹配的起始位置:\G
单词分解符:\b \B --- 能够识别Unicode字符
环视结构:(?=...) (?!...) (?<=...) (?<!...) --- 顺序环视结构中可以使用任意正则表达式,逆序环视中只能匹配长度有限的文本
4.注释及修饰模式
模式修饰符:(?mods-mods)允许出现的模式:x d s m i u
模式修饰范围:(?mods-mods:...)
注释:从#到行末(只有在启动时有效) --- 只有在使用/x修饰符或者Pattern.COMMENTS选项时,#才算注释。没有转移的ASCII空白字符将被忽略。字符组内部的注释和空白字符也会被忽略
文字文本模式:\Q...\E
5.分组及捕获
捕获型括号:(...) \1 \2...
仅分组的括号:(?:...)
固化分组:(?>...)
多选结构:|
匹配优先量词:* + ? {n} {m,n} {m,}
忽略优先量词:*? +? ?? {n}? {n,}? {m,n}?
占有优先量词:*+ ++ ?+ {n}+ {n,}+ {m,n}+
ps:其中标注为蓝绿色的内容将在之后的教程讲解
下面开始介绍java中的正则api
首先看看正则的编译
Java代码
Pattern regex = Pattern.compile(".*?", Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
正则的编译相对来说很耗时 ,所以要注意复用。
第一个参数是正则,第二个是编译选项,可以同时指定多个,当然,也可以像下面这样什么也不指定
Java代码
Pattern regex = Pattern.compile(".*?");
Matcher
我们把字符串传给matcher,然后设置各种条件,最后再用它干活
下面看看matcher都能干些什么
首先要获取Matcher对象
Java代码
Matcher matcher = pattern.matcher(str);
中途要更换正则
Java代码
matcher.usePattern(newPattern);
中途替换目标字符串
Java代码
matcher.reset(str);
此时的matcher会丢失之前所有的明确的状态信息 - 比如下面要说到的搜索范围,之前匹配过的信息也就没有了
另一个相似函数,只是没有替换字符串而已
Java代码
matcher.reset();
设定搜索范围
Java代码
matcher.region(start, end);
matcher.regionStart();
matcher.regionEnd();
第一个用做设置搜索边界。默认为搜索整个字符串
后两个用来得到设置的边界位置
设置边界后的环视
Java代码
matcher.useTransparentBounds(bool);
matcher.hasTransparentBounds();
如果设置了边界,那么环视查找时,是否允许检查环视外的字符可以通过上面的函数设置
默认为false,也就是说不考虑边界之外的字符。
给一个简单的例子
目标字符串为abcde,我要查找b,但是要求b的前面是a。
如果边界设置为[1,5],也就是在bcde中查找,那么默认情况下是匹配不到结果的,,因为b已经在边界上了
但是如果允许在边界外检查,那么这里的b就符合要求
Java代码
String str = "abcde";
String regex = "(?<=a)b";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(str);
matcher.region(1, 5);//设置边界
System.out.println("hasTransparentBounds:" + matcher.hasTransparentBounds());//查看默认状态
System.out.println("find:" + matcher.find());//查找结果
matcher.reset();//重置
System.out.println("hasTransparentBounds:" + matcher.hasTransparentBounds());//查看重置后状态
matcher.useTransparentBounds(true);//设置
System.out.println("find:" + matcher.find());//查看结果
matcher.reset();//重置
System.out.println("hasTransparentBounds:" + matcher.hasTransparentBounds());//查看重置后状态
输出:
Xml代码
hasTransparentBounds:false
find:false
hasTransparentBounds:false
find:true
hasTransparentBounds:true
我们可以看出,hasTransparentBounds默认是false
重置之后依然是false,当设置为true的时候再去重置,hasTransparentBounds没有改变
应用正则
查找
Java代码
matcher.find();
matcher.find(int);
find():在当前检索范围应用正则。如果找到匹配,返回true,否则返回false。多次调用,则每次都从上次匹配之后的位置开始查找。
Java代码
String str = "are you a boy?";
String regex = "\\b\\w+\\b";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(str);
while (matcher.find()) {
System.out.println(matcher.group());
}
结果:
Xml代码
are
you
a
boy
find(int):参数为查找的起始偏移量。此函数不受当前检索范围影响,因为它调用了reset
Java代码
public boolean find(int start) {
int limit = getTextLength();
if ((start < 0) || (start > limit))
throw new IndexOutOfBoundsException("Illegal start index");
reset();
return search(start);
}
完全的匹配
Java代码
matcher.matches();
正则如果能完全匹配目标字符串,那么返回true,否则返回false。匹配成功意味着匹配的结果为检索范围开始到检索范围结束的所有文本。
Java代码
matcher.lookingAt();
与matches()类似,但是不要求检索范围内的整段文本都能匹配
匹配结果
Java代码
matcher.group();
matcher.group(int);
matcher.groupCount();
group()返回上一次匹配的完整结果
group(int)返回上一次匹配中第N组的结果,如果N=0,那么同group()结果一样
Java代码
public String group() {
return group(0);
}
groupCount()返回捕获型括号的数目,组数
以下几个函数返回匹配结果的位置,其中无参的返回完整匹配的起始和结束位置,有参的返回分组匹配的起始和结束位置
Java代码
matcher.start();
matcher.start(int);
matcher.end();
matcher.end(int);
替换
Java代码
matcher.replaceAll(String);
matcher.replaceFirst(String);
返回目标字符串副本,其中匹配到的字符被替换
Java代码
matcher.appendReplacement(StringBuffer result, String replacement);
matcher.appendTail(StringBuffer result);
appendReplacement:将上次匹配结束到这次匹配之前的字符串加入result,然后将这次匹
补充:软件开发 , Java ,