Соскребите веб-страницу с помощью jsoup - PullRequest
0 голосов
/ 11 ноября 2018

Мне нужно удалить почтовый индекс из HTML-кода ниже, используя jsoup. Мне нужен только почтовый индекс, который является частью атрибута href тега a, который называется W2 :

<a href="/properties-for-sale/w2/chpk3848653" class="property_photo_holder" style="backgroundimage:url(https://assets.foxtons.co.uk/w/480/1523289105/chpk3848653-23.jpg)"></a>

Это HTML-код:

</div>

<div id="property_1062067" class="property_summary">

<h6><a href="/properties-for-sale/w2/chpk3848653">Lancaster Gate, <span class="property_address_location_name">Bayswater,</span> W2</a></h6>

Кто-нибудь может помочь? Спасибо.

1 Ответ

0 голосов
/ 13 ноября 2018

Вы можете использовать JSOUP для этого, вам просто нужно получить значение атрибута href следующим образом:

Document document = Jsoup.connect(URL).userAgent("Mozilla/5.0").get();

Elements elements = document.select("a");

String href = elements.attr("href");

Теперь, когда у вас есть атрибут href в виде строки, вам нужно применить RegEx (Регулярное выражение), чтобы получить нужное поле, в данном случае почтовый индекс, содержащийся в: "/ properties-for-sale / w2 / chpk3848653".Для этого вам необходимо:

String regex = "[a-zA-Z0-9]{11}";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(href);

String postalCode = matcher.find().group(0);

Вот и все, если вам нужно что-то еще, не стесняйтесь спрашивать!Надеюсь, это помогло вам!

...