Нужно читать 10 URL за один раз, чтобы ускорить соскоб в Python.URL хранятся в CSV-файле - PullRequest
0 голосов
/ 20 октября 2018

Я собираю названия компаний из каждого URL, которые хранятся в CSV-файле.

from bs4 import BeautifulSoup 
import requests
import csv

with open("urls.csv", "r") as f_urls, open("results.csv", "w", newline="") as f_output:
    csv_output = csv.writer(f_output)
    csv_output.writerow(['url', 'results'])

    for url in f_urls:
        url = url.strip()
        html = requests.get(url).content
        soup = BeautifulSoup(html, "html.parser")           
        Company_Name = soup.find('h1')
        csv_output.writerow([url, Company_Name])

1 Ответ

0 голосов
/ 20 октября 2018

Ну, html = requests.get(url).content - это то, что является «тяжелой» частью вашего кода.Он загружает сайт.Чтобы ускорить ваш код, вы хотите загрузить несколько веб-сайтов одновременно.

Просмотрите asyncio или этот пост: https://stackoverflow.com/a/40392029/47351

...