как сканировать страницу сайта, когда она полностью загружена (js, css все загружено) - PullRequest
0 голосов
/ 04 сентября 2018

Я хотел бы просканировать страницу некоторых веб-сайтов, например Amazon или eBay, чтобы найти путь к фотографиям проданных товаров. Когда я проверил страницу, кажется, что изображение src модифицируется javascript, когда страница полностью загружена.

Существует одна библиотека с именем cheerio. это просто, но он не предоставляет метод для некоторой проверки после полной загрузки страницы и возвращает только html обратно. У кого-нибудь есть опыт по этому поводу? или есть какая-нибудь библиотека, которую я могу использовать, чтобы получить реальный путь к изображению, так как он был изменен с помощью javascript? спасибо за вашу помощь.

1 Ответ

0 голосов
/ 08 сентября 2018

Как уже упоминалось в комментариях, кукловод, вероятно, является лучшим способом очистки динамических страниц. Это библиотека узлов, которая взаимодействует с Chrome / Chromium и загружает страницу, как экземпляр обычного Chrome.

Внутри page.evaluate вы можете использовать браузер API MutationObserver для просмотра DOM и ожидания нужных изображений.

У меня был хороший опыт использования Apify , который будет запускать для вас экземпляры кукловода и имеет щедрый бесплатный уровень.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...