Как я могу разбить этот многопоточный скрипт Python на «куски»? - PullRequest
1 голос
/ 28 июня 2010

Я обрабатываю 100 тыс. Доменных имен в CSV на основе результатов, полученных с Siteadvisor с использованием urllib (я знаю, что это не лучший метод). Тем не менее, мой текущий скрипт создает слишком много потоков и Python сталкивается с ошибками. Есть ли способ, которым я могу «разбить» этот сценарий на количество доменов за раз (скажем, 10-20), чтобы предотвратить эти ошибки? Заранее спасибо.

import threading
import urllib

class Resolver(threading.Thread):
    def __init__(self, address, result_dict):
        threading.Thread.__init__(self)
        self.address = address
        self.result_dict = result_dict

    def run(self):
        try:
            content = urllib.urlopen("http://www.siteadvisor.com/sites/" + self.address).read(12000)
            search1 = content.find("didn't find any significant problems.")
            search2 = content.find('yellow')
            search3 = content.find('web reputation analysis found potential security')
            search4 = content.find("don't have the results yet.")

            if search1 != -1:
                result = "safe"
            elif search2 != -1:
                result = "caution"
            elif search3 != -1:
                result = "warning"
            elif search4 != -1:
                result = "unknown"
            else:
                result = ""

            self.result_dict[self.address] = result

        except:
            pass


def main():
    infile = open("domainslist", "r")
    intext = infile.readlines()
    threads = []
    results = {}
    for address in [address.strip() for address in intext if address.strip()]:
        resolver_thread = Resolver(address, results)
        threads.append(resolver_thread)
        resolver_thread.start()

    for thread in threads:
        thread.join()

    outfile = open('final.csv', 'w')
    outfile.write("\n".join("%s,%s" % (address, ip) for address, ip in results.iteritems()))
    outfile.close()

if __name__ == '__main__':
    main()

Редактировать : новая версия, основанная на предложениях andyortlieb.

import threading
import urllib
import time

class Resolver(threading.Thread):
    def __init__(self, address, result_dict, threads):
        threading.Thread.__init__(self)
        self.address = address
        self.result_dict = result_dict
        self.threads = threads
    def run(self):
        try:
            content = urllib.urlopen("http://www.siteadvisor.com/sites/" + self.address).read(12000)
            search1 = content.find("didn't find any significant problems.")
            search2 = content.find('yellow')
            search3 = content.find('web reputation analysis found potential security')
            search4 = content.find("don't have the results yet.")

            if search1 != -1:
                result = "safe"
            elif search2 != -1:
                result = "caution"
            elif search3 != -1:
                result = "warning"
            elif search4 != -1:
                result = "unknown"
            else:
                result = ""

            self.result_dict[self.address] = result

            outfile = open('final.csv', 'a')
            outfile.write(self.address + "," + result + "\n")
            outfile.close()
            print self.address + result

            threads.remove(self)
        except:
            pass


def main():
    infile = open("domainslist", "r")
    intext = infile.readlines()
    threads = []
    results = {}

    for address in [address.strip() for address in intext if address.strip()]:
        loop=True
        while loop:
            if len(threads) < 20:
                resolver_thread = Resolver(address, results, threads)
                threads.append(resolver_thread)
                resolver_thread.start()
                loop=False
            else:
                time.sleep(.25)


    for thread in threads:
        thread.join()

#    removed so I can track the progress of the script
#    outfile = open('final.csv', 'w')
#    outfile.write("\n".join("%s,%s" % (address, ip) for address, ip in results.iteritems()))
#    outfile.close()

if __name__ == '__main__':
     main()

Ответы [ 2 ]

2 голосов
/ 28 июня 2010

Это может быть довольно жестко, но вы можете передавать потоки в Resolver, чтобы после завершения Resolver.run он мог вызывать threads.remove (self)

Тогда вы можете вложить некоторые условия так, чтобы потоки создавались только в том случае, если для них есть место, а если нет места, они ждут, пока они появятся.

for address in [address.strip() for address in intext if address.strip()]:
        loop=True
        while loop:
            if len(threads)<20:
                resolver_thread = Resolver(address, results, threads)
                threads.append(resolver_thread)
                resolver_thread.start()
                loop=False
            else: 
                time.sleep(.25)
2 голосов
/ 28 июня 2010

Ваш существующий код будет работать прекрасно - просто измените ваш метод __init__ внутри Resolver, чтобы получать дополнительный список адресов вместо одного за раз, поэтому вместо одного потока для каждого адреса у вас есть один потокза каждые 10 (например).Таким образом, вы не будете перегружать многопоточность.

Очевидно, что вам также придется немного изменить run, чтобы он перебирал массив адресов вместо одного self.address.

* 1008.* Я могу привести небольшой пример, если хотите, но из-за качества вашего кода я чувствую, что вы справитесь с ним довольно легко.

Надеюсь, это поможет!

РЕДАКТИРОВАТЬ Пример ниже по запросу.Обратите внимание, что вам придется изменить main, чтобы отправлять списки адресов вашего экземпляра Resolver вместо одного адреса - я не смогу справиться с этим, не зная больше о формате вашего файла и способах хранения адресов.Обратите внимание - вы могли бы сделать метод run с помощью вспомогательной функции, но я подумал, что это может быть более понятно в качестве примера

class Resolver(threading.Thread):
    def __init__(self, addresses, result_dict):
        threading.Thread.__init__(self)
        self.addresses = addresses  # Now takes in a list of multiple addresses
        self.result_dict = result_dict

    def run(self):
        for address in self.addresses: # do your existing code for every address in the list
            try:
                content = urllib.urlopen("http://www.siteadvisor.com/sites/" + address).read(12000)
                search1 = content.find("didn't find any significant problems.")
                search2 = content.find('yellow')
                search3 = content.find('web reputation analysis found potential security')
                search4 = content.find("don't have the results yet.")

                if search1 != -1:
                    result = "safe"
                elif search2 != -1:
                    result = "caution"
                elif search3 != -1:
                    result = "warning"
                elif search4 != -1:
                    result = "unknown"
                else:
                    result = ""

                self.result_dict[address] = result
            except:
                pass
...