Avro файл схемы использования не удалось с Pig - PullRequest
0 голосов
/ 09 мая 2019

Я пытаюсь использовать схему Avro для загрузки данных, находящихся на HDFS, используя сценарий Pig.Загрузка данных работает, но на определенной стадии моего сценария использование этой схемы, кажется, вызывает некоторые проблемы.

Сначала я загружаю данные из HDFS:

%declare CURR_DATE `date '+%Y-%m-%d %H:%M:%S'`;

A = LOAD '/input/files/*avro' using AvroStorage('hdfs:///input/schema/schema.avsc');

Затем я загружаю таблицу Hive (другие данные):

B = LOAD 'db.input_table' USING org.apache.hive.hcatalog.pig.HCatLoader();

Я выполняю объединение, используяA и B:

C = JOIN A BY ROW_ID, B BY ROW_ID; 

Это объединение возвращает согласованный результат с данными.Но на следующем шаге у меня нет данных в следующей структуре без явных журналов:

D = FOREACH C GENERATE
       TRIM(REPLACE(REPLACE((chararray)ROW_ID, '[\\n]', ' '), '[\\r]', ' ')) AS row_id,  
       '$CURR_DATE' AS dt_raff; 

STORE D INTO 'db.output_table' USING org.apache.hive.hcatalog.pig.HCatStorer();

D пусто, тогда как в C. есть данные. Есть идеи?

...