Web Scraping контента с нескольких страниц без посещения каждой из них через веб-драйвер - PullRequest
0 голосов
/ 17 февраля 2019

Я довольно плохо знаком с веб-очисткой, но мне удалось создать мою программу, которая позволяет мне очищать определенные данные (динамический контент), открывая страницу с помощью веб-драйвера selenium.

В частности, я собираю данные со страницы часто задаваемых вопросов (количество просмотров на пост), но на этом сайте нет способа проверить количество комментариев на пост, не нажимая на каждое сообщение и не проверяя его.вручную.На данный момент я написал так, чтобы веб-драйвер мог просто определять количество просмотров каждого поста, когда он просматривает страницу 1 общей страницы публикации и продолжает это делать для последующих страниц.

Насколько я знаю, исходный код на странице общих сообщений не отображает никакого отношения к количеству комментариев, и я подумал, что если бы я обращался к каждому посту, время обработки значительно увеличилось бы.Можно ли как-нибудь узнать количество комментариев, не вводя мой веб-драйвер в каждое сообщение?

Спасибо!

1 Ответ

0 голосов
/ 17 февраля 2019

Это зависит от архитектуры страницы.

Вы можете проверить, использует ли этот сайт API для отправки запросов к базе данных, чтобы вы могли делать некоторые публикации и использовать API для получения данных.

В противном случае, если вы не можете извлечь из этого пользу, вы можете попытаться использовать python с aiohttp, чтобы сделать грубый лом, избегая соединения / ввода-вывода, связанного с асинхронными задачами.

Взгляните:

  1. asyncio
  2. aiohttp
  3. образец асинхронного лома
...