Java регулярное выражение ленивый оператор не так ленив? - PullRequest
1 голос
/ 07 сентября 2010

У меня есть класс Java, который должен извлекать содержимое URL-адреса в Интернете (возвращая XML) и применять к нему регулярное выражение (поведение определяется сторонними файлами, поэтому я не могу использовать DOM или SAX для анализаответ).Вот код:

    import java.io.InputStream;
    import java.net.HttpURLConnection;
    import java.net.URL;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;


    public class RegExpTest {
        public static void main(String[] args) {
            try {
                StringBuffer buffer = new StringBuffer();
                URL url = new URL("http://api.themoviedb.org/2.1/Movie.search/en/xml/57983e31fb435df4df77afb854740ea9/Inglourious+Bastards");
                HttpURLConnection conn = (HttpURLConnection)url.openConnection();

                conn.connect();
                InputStream input = conn.getInputStream();

                for(int c = input.read(); c != -1; c = input.read())
                    buffer.append((char)c);

                Pattern pattern = Pattern.compile("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>", Pattern.DOTALL);
                Matcher matcher = pattern.matcher(buffer);
                for(int i = 1; i < (matcher.groupCount() + 1); i++) {
                    matcher.find();
                    String toReplace = matcher.group(i);
                    System.out.println(toReplace);
                }
            }
            catch (Exception e) {
                e.printStackTrace();
            }
        }
}

Его выходные данные для этого образца "Inglourious Basterds", а затем "22311", который является содержимым тега name в первом теге фильма и содержимым idтег в теге фильма second .Однако ленивый оператор должен гарантировать, что извлекаются только элементы в первом теге фильма.

Более того, следующий код в python, который в основном делает то же самое, работает ожидаемым образом.

import re
import urllib

url = urllib.urlopen("http://api.themoviedb.org/2.1/Movie.search/en/xml/"
    "57983e31fb435df4df77afb854740ea9/Inglourious+Bastards")

m = re.search("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>",
        url.read(), re.DOTALL)
print m.group(1), m.group(2)

Есть идеи, что не так с моим кодом?

Спасибо

1 Ответ

2 голосов
/ 07 сентября 2010

В регулярном выражении есть две группы захвата, поэтому find() вызывается дважды.Вам нужно позвонить find() (и проверить результат) до того, как вы начнете смотреть информацию о матче:

while (matcher.find()) {
    for(int i = 1; i < (matcher.groupCount() + 1); i++) {
        String toReplace = matcher.group(i);
        System.out.println(toReplace);
    }
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...