Как получить данные для сканирования отзывов с любой страницы URL - PullRequest
0 голосов
/ 01 апреля 2019

Предположим, у вас есть страница комментариев игрового магазина, на которой сотни людей регулярно комментируют.Моя идея - брать данные со страницы комментариев магазина игр не только на той же странице, но и во время прокрутки.Таким образом, он должен взять все данные со страниц комментариев. Кто это прокомментировал?Если он дал какие-либо оценки или нет.Включая его / ее фотографии.

Как мне подойти к этой проблеме и какие инструменты я могу использовать для этого?Поделитесь всеми ссылками, где я могу прочитать больше об этом типе постановки задачи.

1 Ответ

0 голосов
/ 01 апреля 2019

Я бы использовал scrapy с зацикливанием запросов к URL-адресу ajax. Логика завершения цикла может обрабатываться несколькими способами в зависимости от того, какие данные доступны.

  1. Если ожидается, что каждый список ответов будет состоять из N комментариев, и вы получите ответ, содержащий менее N комментариев, прервать
  2. Если доступно общее количество комментариев, пролистывайте до тех пор, пока количество запрошенных страниц не станет равным общему количеству комментариев, деленному на количество комментариев на странице.
  3. Существуют другие решения

Как очистить все содержимое с сайта бесконечной прокрутки? SCRAPY

Очистка бесконечной прокрутки страниц с помощью кнопки «Загрузить еще» с помощью Scrapy

https://stackoverflow.com/search?q=scrapy+infinite+scroll

...