Hadoop не обязателен, только когда вы тестируете вещи. Для того, чтобы делать что-либо в любом масштабе, вам также понадобится hadoop.
Запуск без hadoop означает, что вы запускаете pig в локальном режиме. Это в основном означает, что все данные обрабатываются одним и тем же процессом, в котором вы работаете. Это прекрасно работает с одним узлом и примерами данных.
При работе с любым значительным объемом данных или несколькими машинами вы хотите запустить pig в режиме hadoop. Запустив средства отслеживания задач hadoop на узлах cassandra, pig может воспользоваться преимуществами карты, которую обеспечивает сокращение, распределяя рабочую нагрузку и используя локальность данных для сокращения передачи по сети.