Именованные группы Regex в Java - PullRequest
150 голосов
/ 06 января 2009

Насколько я понимаю, пакет java.regex не поддерживает именованные группы (http://www.regular -expressions.info / named.html ), поэтому любой может указать мне на стороннюю библиотеку что делает?

Я посмотрел на jregex , но его последний выпуск был в 2002 году, и он не работал для меня (по общему признанию, я только попробовал кратко) под java5.

Ответы [ 6 ]

242 голосов
/ 06 января 2009

( Обновление : Август 2011 )

Как geofflane упоминает в его ответ , Java 7 теперь поддерживает именованные группы .
tchrist указывает в комментарии, что поддержка ограничена.
Он подробно описывает ограничения в своем великолепном ответе " Java Regex Helper "

Поддержка именованных групп Java 7 regex была представлена ​​еще в сентябре 2010 в блоге Oracle .

В официальном выпуске Java 7 конструкции для поддержки именованной группы захвата:

  • (?<name>capturing text) для определения именованной группы "имя"
  • \k<name> для обратной ссылки именованной группы "name"
  • ${name} для ссылки на захваченную группу в строке замены Matcher
  • Matcher.group(String name) для возврата захваченной входной подпоследовательности заданной «именованной группой».

Другими альтернативами до Java 7 были:


( Оригинальный ответ : Янв 2009 , следующие две ссылки теперь разорваны)

Вы не можете ссылаться на именованную группу, если вы не написали свою собственную версию Regex ...

Именно это и сделал Gorbush2 в этой теме .

Regex2

(ограниченная реализация, как снова указывает tchrist , поскольку она ищет только идентификаторы ASCII. Tchrist детализирует ограничение как:

только иметь возможность иметь одну именованную группу для одного и того же имени (которую вы не всегда можете контролировать!) И не использовать их для рекурсии в регулярном выражении.

Примечание. Истинные примеры рекурсии можно найти в регулярных выражениях Perl и PCRE, как указано в Мощность регулярных выражений , Спецификации PCRE и Соответствие строк со сбалансированными скобками слайд)

Пример:

Строка:

"TEST 123"

RegExp:

"(?<login>\\w+) (?<id>\\d+)"

Доступ

matcher.group(1) ==> TEST
matcher.group("login") ==> TEST
matcher.name(1) ==> login

Заменить

matcher.replaceAll("aaaaa_$1_sssss_$2____") ==> aaaaa_TEST_sssss_123____
matcher.replaceAll("aaaaa_${login}_sssss_${id}____") ==> aaaaa_TEST_sssss_123____ 

(выписка из реализации)

public final class Pattern
    implements java.io.Serializable
{
[...]
    /**
     * Parses a group and returns the head node of a set of nodes that process
     * the group. Sometimes a double return system is used where the tail is
     * returned in root.
     */
    private Node group0() {
        boolean capturingGroup = false;
        Node head = null;
        Node tail = null;
        int save = flags;
        root = null;
        int ch = next();
        if (ch == '?') {
            ch = skip();
            switch (ch) {

            case '<':   // (?<xxx)  look behind or group name
                ch = read();
                int start = cursor;
[...]
                // test forGroupName
                int startChar = ch;
                while(ASCII.isWord(ch) && ch != '>') ch=read();
                if(ch == '>'){
                    // valid group name
                    int len = cursor-start;
                    int[] newtemp = new int[2*(len) + 2];
                    //System.arraycopy(temp, start, newtemp, 0, len);
                    StringBuilder name = new StringBuilder();
                    for(int i = start; i< cursor; i++){
                        name.append((char)temp[i-1]);
                    }
                    // create Named group
                    head = createGroup(false);
                    ((GroupTail)root).name = name.toString();

                    capturingGroup = true;
                    tail = root;
                    head.next = expr(tail);
                    break;
                }
27 голосов
/ 08 июля 2009

Да, но это грязное хакерское солнце. Есть более простой способ:

http://code.google.com/p/named-regexp/

named-regexp - это тонкая оболочка для стандартные регулярные выражения JDK реализация, с единой цель обработки именованного захвата группы в стиле .net: (? ...).

Может использоваться с Java 5 и 6 (используются дженерики).

Java 7 будет обрабатывать захват имен группы, так что этот проект не предназначен до последнего.

25 голосов
/ 12 августа 2011

Для людей, приходящих так поздно: Java 7 добавляет именованные группы. Документация Matcher.group (String groupName).

2 голосов
/ 27 мая 2012

Для тех, кто работает до java7, именованные группы поддерживаются joni (порт Java библиотеки Oniguruma regexp). Документация скудная, но у нас она хорошо сработала.
Двоичные файлы доступны через Maven (http://repository.codehaus.org/org/jruby/joni/joni/).

2 голосов
/ 24 сентября 2010

Какую проблему вы испытываете с jregex ? Это хорошо работало для меня под java5 и java6.

Jregex хорошо справляется со своей задачей (даже если последняя версия 2002 года), если только вы не хотите ждать javaSE 7 .

1 голос
/ 09 июня 2012

Немного старый вопрос, но я тоже нуждался в этом, и что приведенные выше предложения были неадекватны - и поэтому я сам разработал тонкую оболочку: https://github.com/hofmeister/MatchIt

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...