Интеграция Кассандры и Свиньи - Hadoop необязательно? - PullRequest
4 голосов
/ 11 января 2012

Я пытаюсь настроить пробную кассандру + свинья.Вики из cassandra звучит так, как будто вам нужен hadoop для интеграции с pig.

, но readme в cassandra-src / contrib / pig делает так, будто вы можете запускать pig на cassandra без hadoop.

Если hadoop не является обязательным, что вы теряете, не используя его?

Ответы [ 2 ]

6 голосов
/ 11 января 2012

Hadoop не обязателен, только когда вы тестируете вещи. Для того, чтобы делать что-либо в любом масштабе, вам также понадобится hadoop.

Запуск без hadoop означает, что вы запускаете pig в локальном режиме. Это в основном означает, что все данные обрабатываются одним и тем же процессом, в котором вы работаете. Это прекрасно работает с одним узлом и примерами данных.

При работе с любым значительным объемом данных или несколькими машинами вы хотите запустить pig в режиме hadoop. Запустив средства отслеживания задач hadoop на узлах cassandra, pig может воспользоваться преимуществами карты, которую обеспечивает сокращение, распределяя рабочую нагрузку и используя локальность данных для сокращения передачи по сети.

0 голосов
/ 11 января 2012

Это необязательно.Cassandra имеет свою собственную реализацию свиной LoadFunc и storeFunc, которая позволяет вам запрашивать и хранить

Hadoop и Cassandra отличаются во многих отношениях.Трудно сказать, что вы теряете, не зная, чего именно вы пытаетесь достичь.

...