У меня есть задача обработки данных, написанная на Python, которая читает огромный CSV-файл с помощью программы чтения Python CSV, проверяет данные в каждом столбце, а затем записывает каждую строку в новый файл в другом формате.Затем данные массово загружаются в базу данных.Это создание нового CSV занимает около 60 минут, а продолжительность загрузки незначительна.
Я хотел бы ускорить создание CSV, и, поскольку задача связана с ЦП, очевидное решение будетпопытаться использовать все 12 ядер сервера и обрабатывать секции файла параллельно.
Я посмотрел на то, что доступно здесь: http://wiki.python.org/moin/ParallelProcessing, и, в частности, в библиотеке Parallel Python,кажется, это именно то, что мне нужно (http://www.parallelpython.com/content/view/17/31/), но ни один из них не работает с Python 3 / Windows.
Кто-нибудь знает о структуре параллельной обработки, которая бы отвечала моим потребностям, или любойдругой совет о том, как лучше всего добиться того, что я пытаюсь сделать, - я ищу что-то гибкое, но, надеюсь, избегая необходимости изобретать велосипед или разбираться с грязными деталями.