объединение 2 отсортированных файлов с помощью свиньи - PullRequest
0 голосов
/ 13 декабря 2011

У меня в HDFS 2 наборы данных с одинаковой структурой, оба отсортированы по одному и тому же ключу. Я хотел бы объединить их в один большой набор данных, отсортированный по этому ключу.

Теперь я знаю, что у pig есть эффективное объединение слиянием (http://wiki.apache.org/pig/PigMergeJoin) есть ли у него эффективная сортировка слиянием?

Ответы [ 2 ]

0 голосов
/ 10 января 2014

вывод объединения слиянием будет одним отсортированным списком. так что вам не нужна отдельная сортировка.

0 голосов
/ 14 декабря 2011

Может быть, умный загрузчик (, такой как Zebra ) мог бы создать правильные сплиты из индекса для каждой карты, а COGROUP USING 'merge', за которым следует GENERATE group, все еще сохраняют порядок?

Если бы не новый UNION USING 'merge' был бы идеальным в этом случае!

...