Как l oop через 100 URL-адресов и извлекать информацию из каждого с помощью селена - PullRequest
0 голосов
/ 18 июня 2020

У меня есть этот список, что лучше go для извлечения информации из каждого из них и сохранения этой информации в другом списке рассмотреть требуемую информацию <<em> a> hello world <</em> / а>

def pagination():
    pagination = range(1, 100)
    for p in pagination:
        page = f"https://www.xx.xx{p}"

1 Ответ

1 голос
/ 18 июня 2020

Так как вы имеете дело с одним хостом. поэтому вы должны сначала поддерживать объект session, чтобы избежать блокировки или пометки почти на всех брандмауэрах сайтов как DDOS-Attack, где вы фактически поддерживаете тот же поток сокета TCP, не открывая / закрывая / повторно открывая сокет .

После этого вы можете l oop поверх желаемого параметра разбиения на страницы и извлечь заголовок.

Ниже приведен пример для этого.

import requests
from bs4 import BeautifulSoup


def main(url):
    with requests.Session() as req:
        for page in range(1, 11):
            r = req.get(url.format(page))
            soup = BeautifulSoup(r.content, 'html.parser')
            print(soup.title.text)


main("https://www.example.com/page={}")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...