MaybeEncodingError при использовании многопроцессорной обработки с urllib.request - PullRequest
0 голосов
/ 28 октября 2018

Я написал некоторый код для отслеживания времени, которое требуется для открытия некоторых URL-адресов, используя urllib.request с многопроцессорной обработкой и без нее:

import urllib.request
from multiprocessing import Pool
from bs4 import BeautifulSoup
import time

FANCY = 1

urls = [
    'http://www.python.org', 
    'http://www.python.org/about/',
    'http://www.onlamp.com/pub/a/python/2003/04/17/metaclasses.html',
    'http://www.python.org/doc/',
    'http://www.python.org/download/',
    'http://www.python.org/getit/',
    'http://www.python.org/community/',
    'https://wiki.python.org/moin/',
    'http://planet.python.org/',
    'https://wiki.python.org/moin/LocalUserGroups',
    'http://www.python.org/psf/',
    'http://docs.python.org/devguide/',
    'http://www.python.org/community/awards/'   
]

if __name__ == '__main__':

    start_time = time.time()
    if FANCY:
        pool = Pool() 
        # Abre URLs em seus próprios processos e retorna os resultados,
        results = pool.map(urllib.request.urlopen, urls)
        pool.close() 
        pool.join()
    else:
        results = list(map(urllib.request.urlopen, urls))
    # soup = BeautifulSoup(results[0].read(), 'html.parser')

    print(results)
    print(f"Execution time: {time.time() - start_time}")

Если я использую многопоточность нормально с multiprocessing.dummy, я не получаю ошибок, нопри запуске разных процессов я получаю следующую ошибку:

multiprocessing.pool.MaybeEncodingError: Error sending result: '[<http.client.HTTPResponse object at 0x0400AB50>]'. Reason: 'TypeError("cannot serialize '_io.BufferedReader' object")'

Итак, что не так с многопроцессорностью при работе с объектами HTTPResponse?

...