jsoup java не может очистить полную информацию - PullRequest
0 голосов
/ 12 сентября 2018

У меня есть информация, которую нужно удалить с веб-сайта. Я мог бы поцарапать это. Но не вся информация очищается. Существует так много потери данных. Следующие изображения помогут вам понять: This is the data which I want to scrape :

Я использовал Jsoup, подключил его к URL, а затем извлек эти конкретные данные, используя следующий код:

Document doc = Jsoup.connect("https://www.awattar.com/tariffs/hourly#").userAgent("Mozilla/17.0").get();
Elements durationCycle = doc.select("g.x.axis g.tick text");

Но в результате я вообще не смог найти никакой связанной с этим информации. Таким образом, я распечатал весь документ из URL, и он показывает следующее: Scrapped data and full information missing

Я мог видеть информацию, когда загружал страницу и считывал ее как входной файл, но не при прямом подключении к URL. Но я хочу подключить его к URL. Есть какие-нибудь предложения?

Надеюсь, мой вопрос понятен. Дайте мне знать, если это не объясняет.

1 Ответ

0 голосов
/ 01 мая 2019

В Jsoup есть ограничение тела запроса. Вы должны использовать параметр maxBodySize:

Document doc = Jsoup.connect("https://www.awattar.com/tariffs/hourly#").userAgent("Mozilla/17.0").maxBodySize(0).get();

«0» - это не предел.

...