Может кто-нибудь объяснить параллельный Python по сравнению с Hadoop для распределения процессов Python по различным серверам? - PullRequest
3 голосов
/ 09 октября 2011

Я новичок в использовании нескольких процессоров для обработки заданий, и мне было интересно, могут ли люди рассказать мне о плюсах и минусах параллельного python (или любого типа модуля python) по сравнению с потоковой передачей hadoop?

У меня очень большой процесс с интенсивным использованием процессора, который я хотел бы распределить по нескольким серверам.

Ответы [ 2 ]

2 голосов
/ 09 октября 2011

Поскольку перемещение данных становится все сложнее и сложнее с размером;когда дело доходит до параллельных вычислений, локализация данных становится очень важной.Hadoop в качестве структуры сопоставления / сокращения обеспечивает максимальную локализацию обрабатываемых данных.Это также дает вам возможность эффективно распределять ваши данные по кластеру (hdfs).В общем, даже если вы используете другие параллельные модули, если у вас нет данных, локализованных на компьютерах, которые вы обрабатываете, или если вам приходится постоянно перемещать данные по кластеру, вы не получитемаксимальная выгода от параллельных вычислений.Это одна из ключевых идей hadoop.

2 голосов
/ 09 октября 2011

Основное отличие состоит в том, что Hadoop хорошо обрабатывает большие данные (от десятка до терабайта данных). Он предоставляет простую логическую структуру MapReduce, которая хорошо подходит для агрегирования данных, и распределенную систему хранения, называемую HDFS.

Если ваш ввод меньше 1 гигабайта, вы, вероятно, не хотите использовать Hadoop.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...