Очистка комментариев пользователей в Scrapy - Откуда сайт получает данные? - PullRequest
0 голосов
/ 30 января 2020

Может кто-нибудь сказать мне, как использовать Scrapy, чтобы получить текст комментариев пользователей с этой страницы ? Я понимаю, как использовать селекторы для извлечения элементов из очищенного кода, но страница, кажется, рисует данные для комментариев откуда-то еще. Я не могу работать где.

Я попытался проверить сайт с помощью инспектора сайта и вкладки «Сеть» в Chrome. Я думал, что это может быть 'https://user.guancha.cn/static/js/comments-plugin-cms.js?201910221652', но я не вижу комментарии, хранящиеся там.

Спасибо за любую помощь!

1 Ответ

0 голосов
/ 30 января 2020

Комментарии к этой статье поступают из этого запроса: https://user.guancha.cn/comment/cmt-list.json?codeId=440605&codeType=1&pageNo=1&order=1&ff=www

Здесь вы можете увидеть некоторые важные переменные: codeId (который является своего рода articleid, это число устанавливается на странице статьи, вы можете увидеть его в источнике страницы) и курсор для разбивки на страницы - pageNo.

Итак, вам просто нужно получить codeId для заинтересованной статьи и отсканировать все комментарии для нее из этой конечной точки (cmt-list. json). Ответ json, так что легко проанализировать данные комментария.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...