Использование Beautiful Soup для сайта, который не загружается полностью без прокрутки - PullRequest
0 голосов
/ 22 октября 2018

Я пытаюсь вычеркнуть названия компаний с этого сайта, но этот сайт автоматически не отображает полный список компаний.При взаимодействии через браузер сайт загружает ~ 25 компаний, затем при прокрутке он загружает еще ~ 25, пока не достигнет конца списка.Когда я очищаю названия компаний с помощью Beautiful Soup, я получаю только 25 имен.

Есть ли способ очистить все имена с помощью Beautiful Soup (или какой-либо другой библиотеки в python)?

1 Ответ

0 голосов
/ 22 октября 2018

Данные, которые загружаются при прокрутке вниз, являются дополнительным URL-адресом запроса, 'http://fortune.com/api/v2/list/1141696/expand/item/ranking/asc/20/30'

20 - количество элементов на текущей странице, 30 - количество элементов, которые будут получены на следующей странице.

Если вы хотите получить следующие страницы, вам нужно сформировать URL, например,

http://fortune.com/api/v2/list/1141696/expand/item/ranking/asc/50/30 http://fortune.com/api/v2/list/1141696/expand/item/ranking/asc/80/30 http://fortune.com/api/v2/list/1141696/expand/item/ranking/asc/110/30 и так далее.

Это не может быть отображено в BeautifulSoup, так как это ответ json.

Списки компаний хранятся в значении list-items ответа json.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...