Нужна помощь в получении кода для зацикливания сайта - PullRequest
0 голосов
/ 16 сентября 2018

Как я могу получить этот код для просмотра всех 430 страниц веб-сайта и вывода в файл?

>>> import requests, bs4
>>> resp = requests.get('https://everythingrs.com/tools/osrs/itemlist')
>>> bs = bs4.BeautifulSoup(resp.content)
>>> [(tr.find('strong').text, tr.find('td', class_='alt1').text) for tr in bs.find_all('tr')[1:]]

1 Ответ

0 голосов
/ 16 сентября 2018

На веб-сайте, который вы отбрасываете, страницы идентифицируются по url + pagenumber, поэтому для получения всех 430 страниц нужно просто создать цикл for для циклического просмотра всех страниц, т.е.

for page_no in range(1,431): resp = requests.get('https://everythingrs.com/tools/osrs/itemlist' + str(page_no)) // All the rest of the code here

Для сохранения вывода в файл вы можете использовать open(filename)

with open(filename, 'wb') as f: for i in output_array: f.write(i[0]); f.write(i[1]);

Измените приведенный выше код в формате, который вы хотите. Вы также можете использовать requests.session для увеличения скорости загрузки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...