Получить содержимое HTML со страницы бесконечной прокрутки (Facebook) - PullRequest
0 голосов
/ 17 октября 2018

Я хотел бы получить данные HTML с динамической веб-страницы, например, с общедоступной страницы Facebook: https://www.facebook.com/bbcnews/ (общедоступный контент, без входа в систему)

Например, на этой страницеу нас есть бесконечная прокрутка, и мы должны идти внизу страницы, чтобы загрузить больше сообщений.

Мой текущий код здесь:

URL url = new URL("https://www.facebook.com/bbcnews/");

BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
BufferedWriter writer = new BufferedWriter(new FileWriter("path"));

while ((line = reader.readLine()) != null) {
    writer.write(line);
}

Этот код извлекает только первую частьстраницы.

Как получить больше содержимого веб-страницы с помощью бесконечной прокрутки?

Спасибо.

1 Ответ

0 голосов
/ 25 октября 2018

Вы не получите этого через простой BufferedReader просмотр HTTP-потока.Откройте консоль браузера, затем дойдите до конца страницы.Вы увидите, что вызов XHR (асинхронный запрос) запускается по этому URL:

https://www.facebook.com/pages_reaction_units

с lot параметров загадочного запроса.Вам нужно будет выполнить этот вид вызова в вашем коде Java.Это запутано по некоторым причинам.Делать это с нуля не кажется хорошим подходом.

Лучше использовать API, предоставляемый Facebook (возможно API Graph ).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...