Question

Я настроил процесс, который читает очередь для входящих URL-адресов для загрузки, но когда urllib2 открывает соединение, система зависает.

import urllib2, multiprocessing
from threading import Thread
from Queue import Queue
from multiprocessing import Queue as ProcessQueue, Process

def download(url):
    """Download a page from an url.
    url [str]: url to get.
    return [unicode]: page downloaded.
    """
    if settings.DEBUG:
        print u'Downloading %s' % url
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    encoding = response.headers['content-type'].split('charset=')[-1]
    content = unicode(response.read(), encoding)
    return content

def downloader(url_queue, page_queue):
    def _downloader(url_queue, page_queue):
        while True:
            try:
                url = url_queue.get()
                page_queue.put_nowait({'url': url, 'page': download(url)})
            except Exception, err:
                print u'Error downloading %s' % url
                raise err
            finally:
                url_queue.task_done()

    ## Init internal workers
    internal_url_queue = Queue()
    internal_page_queue = Queue()
    for num in range(multiprocessing.cpu_count()):
        worker = Thread(target=_downloader, args=(internal_url_queue, internal_page_queue))
        worker.setDaemon(True)
        worker.start()

    # Loop waiting closing
    for url in iter(url_queue.get, 'STOP'):
        internal_url_queue.put(url)

    # Wait for closing
    internal_url_queue.join()

# Init the queues
url_queue = ProcessQueue()
page_queue = ProcessQueue()

# Init the process
download_worker = Process(target=downloader, args=(url_queue, page_queue))
download_worker.start()

Из другого модуля я могу добавить URL и, когда захочу, остановить процесс и дождаться его закрытия.

import module

module.url_queue.put('http://foobar1')
module.url_queue.put('http://foobar2')
module.url_queue.put('http://foobar3')
module.url_queue.put('STOP')
downloader.download_worker.join()

Проблема в том, что когда я использую urlopen ("response = urllib2.urlopen (request)"), он остается заблокированным.

Нет проблем, если я вызываю функцию download () или когда я использую только потоки без Process.

interjay · Answer 1 · 26 января 2010

Проблема здесь не в urllib2, а в использовании многопроцессорного модуля. При использовании многопроцессорного модуля под Windows вы не должны использовать код, который запускается сразу при импорте вашего модуля - вместо этого поместите вещи в основной модуль внутри блока if __name__=='__main__'. См. Раздел «Безопасный импорт основного модуля» здесь .

Для вашего кода внесите следующие изменения в модуль загрузчика:

#....
def start():
    global download_worker
    download_worker = Process(target=downloader, args=(url_queue, page_queue))
    download_worker.start()

А в основном модуле:

import module
if __name__=='__main__':
    module.start()
    module.url_queue.put('http://foobar1')
    #....

Поскольку вы этого не делали, при каждом запуске подпроцесса он снова запускал основной код и запускал другой процесс, вызывая зависание.

Процесс Python заблокирован urllib2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Процесс Python заблокирован urllib2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы