Node.js Web Crawling - Как загрузить все данные в HTML? - PullRequest
0 голосов
/ 06 февраля 2019

Я пытаюсь использовать Node.js для реализации Data Scrawling.Я использовал axios, чтобы получить HTML-файл и использовать cheerio для получения данных.

Однако я обнаружил, что HTML не возвращается с данными, а только с макетом.Я предполагаю, что веб-сайт сначала загружает макет, затем выполняет ajax-операции для запроса данных, а затем рендеринга.

Итак, кто-нибудь знает, как получить полный HTML-код с данными?Любая библиотека или инструменты?

Спасибо.

1 Ответ

0 голосов
/ 06 февраля 2019

Я бы предложил вам использовать библиотеку селена с библиотекой bs4 в Python, если у вас есть некоторый опыт работы с Python.

для узла

https://www.npmjs.com/package/selenium-webdriver

я написал scrapper в python, используя обе библиотеки.

scrapper предназначен для ссылок в профиле, которые берут имя из файла Excel и ищут, если имеющиеся данные, добавляют его в другой файл Excel

https://github.com/harsh4870/Scraper_LinkedIn

для кода узла идет как

    driver = webdriver.Firefox();
driver.get("http://example.com");
html = driver.getPageSource();
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...