Jsoup извлекает Hrefs из содержимого HTML - PullRequest
0 голосов
/ 05 июля 2019

Моя проблема в том, что я пытаюсь получить Hrefs с этого сайта с помощью JSoup

https://www.amazon.de/s?k=kissen&__mk_de_DE=%C3%85M%C3%85%C5%BD%C3%95%C3%91&ref=nb_sb_noss_2

, но это не работает.

Я пытался выбрать класс из Href следующим образом

Elements elements = documentMainSite.select(".a-link-normal");

, и после этого я попытался извлечь Hrefs с помощью следующего фрагмента кода.

for (Element element : elements) {
  String href = element.attributes().get("href");
}

но, к сожалению, это ничего мне не дает ...

Может кто-нибудь сказать мне, где моя ошибка, пожалуйста?


Я не просто подключаюсь к сайту.Я также сохраняю hrefs в строке, извлекая их с помощью

String href = element.attributes().get("href");

, после чего я печатаю строку href, но она пуста.

С другой стороны код работает с другим селектором css,так что это не имеет ничего общего с самим кодом.это просто селектор css (.a-link-normal), который, вероятно, неверен.

1 Ответ

0 голосов
/ 05 июля 2019

Вы ничего не получите, просто подключившись к URL через Jsoup.

Document document = Jsoup.connect(yourUrl).get();
String bodyText = document.getElementsByTag("body").get(0).text();

Вот перевод основного текста, который я получил из приведенного выше кода.

Введите символы ниже Мы просим вашего понимания и хотим быть уверены, чтоты не бот.Для достижения наилучших результатов, пожалуйста, используйте браузер, который принимает куки.Введите символы, которые вы видите на картинке: Введите символы Попробуйте другое изображение Продолжить покупки Условия использования Политика конфиденциальности © 1996-2015, Amazon.com, Inc. или ее филиалы

Либо вам нужно пропустить капчуили эмулировать браузер с помощью Selenium, например.

...