Параметры параллельной обработки в Python - PullRequest
2 голосов
/ 06 октября 2011

Я недавно создал скрипт на python, который выполнял некоторые задачи обработки на естественном языке и довольно хорошо работал над решением моей проблемы.Но это заняло 9 часов.Сначала я исследовал использование hadoop, чтобы разбить проблему на этапы и, надеюсь, воспользоваться преимуществами масштабируемой параллельной обработки, которую я получу, используя Amazon Web Services.

Но мой друг отметил тот факт, что Hadoop действительнодля хранения больших объемов данных на диске, для которых вы хотите выполнить много простых операций.В моей ситуации у меня есть сравнительно небольшой набор исходных данных (не более 100 мегабайт), над которым я выполняю много сложных операций, занимаю много памяти во время процесса и отнимаю много часов.

Какую инфраструктуру можно использоватьиспользовать в моем сценарии для использования масштабируемых кластеров в AWS (или аналогичных сервисах)?

Ответы [ 3 ]

0 голосов
/ 06 октября 2011

В этом примере показано, как создать скрипт, подобный MapReduce, используя процессы на одном компьютере. Во-вторых, если можете, попробуйте кешировать промежуточные результаты. Я сделал это для задачи НЛП и получил значительное ускорение.

0 голосов
/ 29 марта 2012

Моя посылка, кувшин , может быть очень подходящей для ваших нужд. Без дополнительной информации я не могу точно сказать, как будет выглядеть код, но я разработал его для задач размером с подкадр.

0 голосов
/ 06 октября 2011

Parallel Python - это одна из опций для распределения вещей по нескольким машинам в кластере.

...