Я загружаю файл в PIG.После разделения записей с помощью STRSPLIT(doc,',')
я бы хотел очистить данные с помощью TRIM()
, чтобы избавиться от лишних пробелов.Я не могу понять, как использовать TRIM()
для каждого слова в записи.Пример:
((car , truck, jeep , honk)).
Схема для этого: tokens:(t:(w:chararray))
Я пробовал
clean_docs = FOREACH tokenized_docs GENERATE TRIM(tokens.$0.w) AS tokens:(t:(w:chararray));
И многие другие варианты, и, кажется, не могу заставить его работать.Пожалуйста помоги!Спасибо!