Многопроцессорная функция Beautifulsoup4 для повышения производительности - PullRequest
1 голос
/ 12 марта 2020

Как есть: я построил функцию, которая принимает URL в качестве аргумента, очищает страницу и помещает проанализированную информацию в список. Кроме того, у меня есть список URL-адресов, и я отображаю список URL-адресов в функцию анализатора URL-адресов и выполняю итерацию по каждому URL-адресу. Проблема в том, что у меня около 7000-8000 ссылок, поэтому итерационный анализ занимает много времени. Это текущее итеративное решение:

mapped_parse_links = map(parse, my_new_list)
all_parsed = list(it.chain.from_iterable(mapped_parse_links))

'parse' - это функция скребка, а 'my_new_list' - это список URL.

То есть: я хочу реализовать многопроцессорность, чтобы вместо этого итерации по списку URL, он будет использовать несколько процессоров для одновременного получения большего количества ссылок и анализа информации с помощью функции разбора. Я попробовал следующее:

import multiprocessing
with multiprocessing.Pool() as p:
    mapped_parse_links = p.map(parse, my_new_list)
    all_parsed = list(it.chain.from_iterable(mapped_parse_links))

Я пробовал разные решения, используя функцию «Пул», однако все решения работают вечно. Может кто-нибудь подсказать мне, как это решить? Спасибо.

1 Ответ

0 голосов
/ 12 марта 2020

Взятые, с небольшими изменениями, из документов для concurrent.futures :

import concurrent.futures
import urllib.request

URLS = ['http://www.foxnews.com/',
        'http://www.cnn.com/',
        'http://europe.wsj.com/',
        'http://www.bbc.co.uk/',
        'http://some-made-up-domain.com/']

# Retrieve a single page and report the URL and contents
def load_url(url, timeout):
    with urllib.request.urlopen(url, timeout=timeout) as conn:
        return conn.read()

if __name__ == '__main__':
    # We can use a with statement to ensure threads are cleaned up promptly
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
        # Start the load operations and mark each future with its URL
        future_to_url = {executor.submit(load_url, url, 60): url for url in URLS}
        for future in concurrent.futures.as_completed(future_to_url):
            url = future_to_url[future]
            try:
                data = future.result()
                # Do something with the scraped data here
            except Exception as exc:
                print('%r generated an exception: %s' % (url, exc))

Вам придется заменить функцию синтаксического анализа на load_url.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...