Получение только небольшой части из пути src изображения с помощью jsoup - PullRequest
2 голосов
/ 04 октября 2019

Пока мне удалось сделать это:

final Document doc = Jsoup
                .connect(strings[0])
                .userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
                .timeout(5000).get();

            Pattern pattern = Pattern.compile("data:image.*");
            Elements scripts = doc.select("script");
            for (Element script : scripts) {
                if (script.html().contains("data:image") && script.html().contains("dimg_"))
                {
                    Log.i("INSIDE", imgurl);
                    Matcher matcher = pattern.matcher(script.html());
                    if(matcher.find())
                    {
                        imgurl = script.html().substring(matcher.start(), matcher.end());
                        Log.i("REGEX", imgurl);
                        break;
                    }
                }
            }

, и это работает довольно хорошо, но по какой-то причине останавливается на 3/4 пути.

этодает мне это:



, но мне нужно больше:



Я даже пытался использовать этот шаблон регулярных выражений - "data: image. *? (? = \ ")" для чтения до запятых, но не получается.

1 Ответ

2 голосов
/ 04 октября 2019

Данные, которые вы хотите, находятся внутри тега javascript. Попробуйте извлечь этот тег:

String url = "https://www.google.com/search?q=885178979613&num10";
    final Document doc = Jsoup
            .connect(url)
            .userAgent("Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0")
            .timeout(5000).get();
    Elements scripts = doc.select("script");
    for (Element script : scripts) {
        if (script.html().contains("data:image")) {
            System.out.println(script.html());
            System.out.println("-----------------------------------------");
        }
    }

, а затем извлечь его с помощью регулярного выражения, например 'data:image.*'.
Вы можете увидеть пример здесь .

РЕДАКТИРОВАТЬ 1. Измените строку шаблона регулярного выражения на Pattern pattern = Pattern.compile("data:image.*?'");
Это добавляет дополнительный апостроф. Вы можете избежать этого, вычтя 1 из matcher.end() (я думаю, что есть более чистый способ, но я не эксперт по регулярным выражениям). 2. Я запускаю приведенный выше код (с другим шаблоном, конечно) в Eclipse и получаю ожидаемый результат. Я предполагаю, что вы используете Android studio - возможно, есть проблема с длиной выходного буфера, поэтому он печатает только часть строки. Ваш вывод имеет 4060 символов, а ожидаемый - 6276 символов - проверьте фактическую длину строки с помощью .length() и посмотрите, прав ли я.

...