Question

Я пытаюсь извлечь имя страницы и строку запроса из URL, который не должен содержать .html

Вот пример кода на Java:

public class TestRegex { 
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("/test/(((?!\\.html).)+)\\?(.+)");
        Matcher matcher = pattern.matcher("/test/page?param=value");
        System.out.println(matcher.matches());
        System.out.println(matcher.group(1));
        System.out.println(matcher.group(2));
    }
}

Запустив этот код, можно получить следующий вывод:

правда
страница
е

Что не так с моим регулярным выражением, поэтому вторая группа содержит букву e вместо param=value?

Bart Kiers · Answer 1 · 03 июня 2010

Вы делаете:

Pattern.compile("/test/(((?!\\.html).)+)\\?(.+)")
//                     ^^            ^ ^   ^  ^
//                     ||            | |   |  |
//                     |+------2-----+ |   +-3+
//                     |               |  
//                     +-------1-------+

Попробуйте:

Pattern.compile("/test/((?:(?!\\.html).)+)\\?(.+)")
//                     ^                 ^   ^  ^
//                     |                 |   |  |
//                     |                 |   +-2+
//                     |                 |  
//                     +--------1--------+

Другими словами: (?:...) делает эту группу не захватывающей.

Lookahead регулярное выражение производит неожиданную группу

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Lookahead регулярное выражение производит неожиданную группу

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов