Никакая система параллельной обработки не имеет большого смысла, если большую часть времени выполняет одна машина. Сложность, связанная с большинством задач распараллеливания, значительна и требует веских оснований для ее использования.
Даже когда очевидно, что задача не может быть решена без параллельной обработки в приемлемое время, платформы параллельного выполнения бывают разных видов: от более низкоуровневых, ориентированных на науку инструментов, таких как PVM или MPI высокоуровневым, специализированным (например, отображать / уменьшать) средам, таким как Hadoop.
Среди параметров, которые вы должны учитывать, это время запуска и масштабируемость (насколько близко к линейному масштабируется система). Hadoop не будет хорошим выбором, если вам нужны быстрые ответы, но может быть хорошим выбором, если вы можете поместить свой процесс в рамку сокращения карты.