Я написал скрипт на python, используя прокси для очистки ссылок разных постов, проходящих через разные страницы веб-страницы.Я пытался использовать proxies
из списка.Предполагается, что скрипт берет случайное значение proxies
из списка и отправляет запрос на этот сайт и, наконец, анализирует элементы.Однако, если какой-либо proxy
не работает, его следует исключить из списка.
Я думал, что способ, которым я использовал number of proxies
и list of urls
в ThreadPool(10).starmap(make_requests, zip(proxyVault,lead_url))
, точен, но это нене дает никаких результатов;скорее, скрипт застревает.
Как я могу передать прокси и ссылки на ThreadPool для того, чтобы скрипт дал результаты?
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from multiprocessing.pool import ThreadPool
from itertools import cycle
import random
base_url = 'https://stackoverflow.com/questions/tagged/web-scraping'
lead_url = ["https://stackoverflow.com/questions/tagged/web-scraping?sort=newest&page={}&pagesize=15".format(page) for page in range(1,6)]
proxyVault = ['104.248.159.145:8888', '113.53.83.252:54356', '206.189.236.200:80', '218.48.229.173:808', '119.15.90.38:60622', '186.250.176.156:42575']
def make_requests(proxyVault,lead_url):
while True:
random.shuffle(proxyVault)
global pitem
pitem = cycle(proxyVault)
proxy = {'https':'http://{}'.format(next(pitem))}
try:
res = requests.get(lead_url,proxies=proxy)
soup = BeautifulSoup(res.text,"lxml")
[get_title(proxy,urljoin(base_url,item.get("href"))) for item in soup.select(".summary .question-hyperlink")]
except Exception:
try:
proxyVault.pop(0)
make_requests(proxyVault,lead_url)
except Exception:pass
def get_title(proxy,itemlink):
res = requests.get(itemlink,proxies=proxy)
soup = BeautifulSoup(res.text,"lxml")
print(soup.select_one("h1[itemprop='name'] a").text)
if __name__ == '__main__':
ThreadPool(10).starmap(make_requests, zip(proxyVault,lead_url))
Кстати, proxies
, использованное выше, является просто заполнителями.