используя TOKENIZE в PIG - PullRequest
       0

используя TOKENIZE в PIG

1 голос
/ 18 ноября 2011

Я пытаюсь использовать функцию TOKENIZE в PIG для документа, разделенного запятой.Я хотел бы разделить на запятые, но не на пробел.Например, я хотел бы, чтобы список (автомобиль, игрушечный автомобиль, кролик) был ((автомобиль), (игрушечный автомобиль), (кролик) не ((автомобиль), (игрушка), (автомобиль), (кролик)). Есть ли способ для этого?

Ответы [ 2 ]

1 голос
/ 18 ноября 2011

Вы смотрели на STRSPLIT для разделения только на запятую?

(это работает для CHARARRAY как TOKENIZE)

0 голосов
/ 24 января 2012

Альтернативный способ,

Вы также можете попробовать с оператором Flatten

Пример:

Ввод -> (a, (b, c))

B = foreach A генерирует $ 0, выравнивается ($ 1)

Выход -> (a, b, c)

Использование Flatten и Tokenize вместе

Вы можете прочитать проблему подсчета слов Здесь

...