Java正则表达式详解#

什么是正则表达式？#

正则表达式是一种用于匹配字符串中字符组合的模式。在Java中，正则表达式是通过java.util.regex包中的类实现的。

正则表达式的用途#

字符串匹配：检查字符串是否符合特定模式
字符串查找：在字符串中查找符合特定模式的子串
字符串替换：替换字符串中符合特定模式的部分
字符串分割：根据特定模式分割字符串
表单验证：验证用户输入是否符合要求

正则表达式的语法#

1. 字符类#

表达式	描述
`[abc]`	匹配方括号内的任意一个字符
`[^abc]`	匹配除了方括号内的任意一个字符
`[a-z]`	匹配a到z范围内的任意一个字符
`[A-Z]`	匹配A到Z范围内的任意一个字符
`[0-9]`	匹配0到9范围内的任意一个字符
`[a-zA-Z]`	匹配a到z或A到Z范围内的任意一个字符
`[a-zA-Z0-9]`	匹配a到z、A到Z或0到9范围内的任意一个字符

2. 预定义字符类#

表达式	描述
`.`	匹配任意一个字符（除了换行符）
`\d`	匹配一个数字字符，等价于`[0-9]`
`\D`	匹配一个非数字字符，等价于`[^0-9]`
`\w`	匹配一个单词字符（字母、数字、下划线），等价于`[a-zA-Z0-9_]`
`\W`	匹配一个非单词字符，等价于`[^a-zA-Z0-9_]`
`\s`	匹配一个空白字符（空格、制表符、换行符等）
`\S`	匹配一个非空白字符

3. 边界匹配器#

表达式	描述
`^`	匹配字符串的开始
`$`	匹配字符串的结束
`\b`	匹配单词边界
`\B`	匹配非单词边界

4. 量词#

表达式	描述
`*`	匹配前面的表达式0次或多次，等价于`{0,}`
`+`	匹配前面的表达式1次或多次，等价于`{1,}`
`?`	匹配前面的表达式0次或1次，等价于`{0,1}`
`{n}`	匹配前面的表达式恰好n次
`{n,}`	匹配前面的表达式至少n次
`{n,m}`	匹配前面的表达式至少n次，最多m次

5. 贪婪与非贪婪#

表达式	描述
`*?`	非贪婪匹配前面的表达式0次或多次
`+?`	非贪婪匹配前面的表达式1次或多次
`??`	非贪婪匹配前面的表达式0次或1次
`{n,m}?`	非贪婪匹配前面的表达式至少n次，最多m次

6. 逻辑运算符#

表达式	描述
`	`
`(xyz)`	捕获组，匹配括号内的表达式并捕获匹配项
`(?:xyz)`	非捕获组，匹配括号内的表达式但不捕获匹配项
`(?<name>xyz)`	命名捕获组，匹配括号内的表达式并以指定名称捕获匹配项

7. 特殊字符#

表达式	描述
`\`	转义字符，用于匹配特殊字符本身
`	`
`()`	捕获组
`[]`	字符类
`{}`	量词
`^`	字符串开始
`$`	字符串结束
`.`	任意字符
`*`	0次或多次
`+`	1次或多次
`?`	0次或1次

Java中使用正则表达式#

1. Pattern和Matcher类#

Java中使用Pattern和Matcher类来处理正则表达式。

1
import java.util.regex.Matcher;
2
import java.util.regex.Pattern;
3

4
public class RegexDemo {
5
    public static void main(String[] args) {
6
        // 正则表达式模式
7
        String regex = "\\d{3}-\\d{3}-\\d{4}"; // 匹配电话号码格式
8

9
        // 要匹配的字符串
10
        String text = "我的电话号码是123-456-7890，你的电话号码是987-654-3210。";
11

12
        // 编译正则表达式
13
        Pattern pattern = Pattern.compile(regex);
14

15
        // 创建Matcher对象
16
        Matcher matcher = pattern.matcher(text);
17

18
        // 查找所有匹配项
19
        while (matcher.find()) {
20
            System.out.println("找到匹配项: " + matcher.group());
21
            System.out.println("开始位置: " + matcher.start());
22
            System.out.println("结束位置: " + matcher.end());
23
        }
24
    }
25
}

2. String类中的正则表达式方法#

String类提供了一些使用正则表达式的方法：

2.1 matches()#

检查字符串是否完全匹配正则表达式。

1
String email = "user@example.com";
2
String emailRegex = "[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}";
3
boolean isValid = email.matches(emailRegex);
4
System.out.println("邮箱是否有效: " + isValid);

2.2 split()#

根据正则表达式分割字符串。

1
String text = "apple,banana,orange";
2
String[] fruits = text.split(",");
3
for (String fruit : fruits) {
4
    System.out.println(fruit);
5
}

2.3 replaceAll()#

替换字符串中所有匹配正则表达式的部分。

1
String text = "Hello 123 World 456";
2
String replaced = text.replaceAll("\\d+", "*");
3
System.out.println("替换后: " + replaced); // 输出: Hello * World *

2.4 replaceFirst()#

替换字符串中第一个匹配正则表达式的部分。

1
String text = "Hello 123 World 456";
2
String replaced = text.replaceFirst("\\d+", "*");
3
System.out.println("替换后: " + replaced); // 输出: Hello * World 456

正则表达式的应用示例#

1. 验证邮箱#

1
public static boolean isValidEmail(String email) {
2
    String regex = "[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}";
3
    return email.matches(regex);
4
}

2. 验证电话号码#

1
public static boolean isValidPhone(String phone) {
2
    String regex = "\\d{3}-\\d{3}-\\d{4}";
3
    return phone.matches(regex);
4
}

3. 验证身份证号#

1
public static boolean isValidIdCard(String idCard) {
2
    String regex = "[1-9]\\d{5}(18|19|20)\\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\\d|3[01])\\d{3}[\\dXx]";
3
    return idCard.matches(regex);
4
}

4. 验证URL#

1
public static boolean isValidUrl(String url) {
2
    String regex = "https?:\\/\\/(www\\.)?[-a-zA-Z0-9@:%._\\+~#=]{1,256}\\.[a-zA-Z0-9()]{1,6}\\b([-a-zA-Z0-9()@:%_\\+.~#?&//=]*)",
3
    return url.matches(regex);
4
}

5. 提取HTML标签#

1
public static List<String> extractHtmlTags(String html) {
2
    List<String> tags = new ArrayList<>();
3
    String regex = "<([a-z][a-z0-9]*)\\b[^>]*>([\\s\\S]*?)<\\/\\1>";
4
    Pattern pattern = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
5
    Matcher matcher = pattern.matcher(html);
6
    while (matcher.find()) {
7
        tags.add(matcher.group());
8
    }
9
    return tags;
10
}

6. 替换空白字符#

1
public static String replaceWhitespace(String text) {
2
    return text.replaceAll("\\s+", " ");
3
}

7. 提取数字#

1
public static List<String> extractNumbers(String text) {
2
    List<String> numbers = new ArrayList<>();
3
    String regex = "\\d+";
4
    Pattern pattern = Pattern.compile(regex);
5
    Matcher matcher = pattern.matcher(text);
6
    while (matcher.find()) {
7
        numbers.add(matcher.group());
8
    }
9
    return numbers;
10
}

8. 驼峰命名转换为下划线命名#

1
public static String camelToSnake(String camelCase) {
2
    return camelCase.replaceAll("([a-z0-9])([A-Z])", "$1_$2").toLowerCase();
3
}

9. 下划线命名转换为驼峰命名#

1
public static String snakeToCamel(String snakeCase) {
2
    return Pattern.compile("_([a-z])").matcher(snakeCase).replaceAll(m -> m.group(1).toUpperCase());
3
}

10. 验证密码强度#

1
public static boolean isStrongPassword(String password) {
2
    // 至少8个字符，包含至少一个大写字母、一个小写字母、一个数字和一个特殊字符
3
    String regex = "^(?=.*[a-z])(?=.*[A-Z])(?=.*\\d)(?=.*[@$!%*?&])[A-Za-z\\d@$!%*?&]{8,}$";
4
    return password.matches(regex);
5
}

正则表达式的最佳实践#

1. 编译正则表达式#

对于频繁使用的正则表达式，应该编译成Pattern对象并缓存起来，以提高性能。

1
// 缓存Pattern对象
2
private static final Pattern EMAIL_PATTERN = Pattern.compile("[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}");
3

4
public static boolean isValidEmail(String email) {
5
    return EMAIL_PATTERN.matcher(email).matches();
6
}

2. 使用非捕获组#

对于不需要捕获的组，使用非捕获组(?:...)可以提高性能。

1
// 捕获组
2
Pattern pattern1 = Pattern.compile("(abc|def)");
3

4
// 非捕获组（更高效）
5
Pattern pattern2 = Pattern.compile("(?:abc|def)");

3. 避免回溯#

复杂的正则表达式可能会导致回溯，影响性能。应该：

避免使用嵌套量词
避免使用贪婪量词
使用更具体的模式

4. 测试正则表达式#

在使用正则表达式之前，应该使用各种测试用例进行测试，确保它能正确匹配预期的字符串，同时不匹配非预期的字符串。

5. 文档化正则表达式#

复杂的正则表达式应该添加注释，说明其用途和工作原理。

1
/**
2
 * 验证邮箱格式
3
 * 规则：
4
 * 1. 用户名部分：字母、数字、点、下划线、百分号、加号、减号
5
 * 2. @符号
6
 * 3. 域名部分：字母、数字、点、减号
7
 * 4. 顶级域名：至少2个字母
8
 */
9
private static final Pattern EMAIL_PATTERN = Pattern.compile("[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}");

6. 处理转义字符#

在Java字符串中，反斜杠是转义字符，因此在正则表达式中使用反斜杠时，需要使用双反斜杠。

1
// 匹配一个数字
2
String regex = "\\d"; // 第一个反斜杠是Java字符串的转义字符

7. 考虑国际化#

在处理国际化字符串时，应该考虑不同语言的字符集。

1
// 匹配任何语言的字母
2
String regex = "\\p{L}+";

常见陷阱#

1. 贪婪匹配#

默认情况下，量词是贪婪的，会尽可能多地匹配字符。这可能会导致意外的结果。

1
String text = "<div>内容1</div><div>内容2</div>";
2
String regex = "<div>.*</div>";
3
// 匹配结果：<div>内容1</div><div>内容2</div>（整个字符串）
4

5
// 使用非贪婪匹配
6
String regexNonGreedy = "<div>.*?</div>";
7
// 匹配结果：<div>内容1</div>（第一个div）

2. 转义字符#