Как есть: я построил функцию, которая принимает URL в качестве аргумента, очищает страницу и помещает проанализированную информацию в список. Кроме того, у меня есть список URL-адресов, и я отображаю список URL-адресов в функцию анализатора URL-адресов и выполняю итерацию по каждому URL-адресу. Проблема в том, что у меня около 7000-8000 ссылок, поэтому итерационный анализ занимает много времени. Это текущее итеративное решение:
mapped_parse_links = map(parse, my_new_list)
all_parsed = list(it.chain.from_iterable(mapped_parse_links))
'parse' - это функция скребка, а 'my_new_list' - это список URL.
То есть: я хочу реализовать многопроцессорность, чтобы вместо этого итерации по списку URL, он будет использовать несколько процессоров для одновременного получения большего количества ссылок и анализа информации с помощью функции разбора. Я попробовал следующее:
import multiprocessing
with multiprocessing.Pool() as p:
mapped_parse_links = p.map(parse, my_new_list)
all_parsed = list(it.chain.from_iterable(mapped_parse_links))
Я пробовал разные решения, используя функцию «Пул», однако все решения работают вечно. Может кто-нибудь подсказать мне, как это решить? Спасибо.