Я пытаюсь использовать схему Avro для загрузки данных, находящихся на HDFS, используя сценарий Pig.Загрузка данных работает, но на определенной стадии моего сценария использование этой схемы, кажется, вызывает некоторые проблемы.
Сначала я загружаю данные из HDFS:
%declare CURR_DATE `date '+%Y-%m-%d %H:%M:%S'`;
A = LOAD '/input/files/*avro' using AvroStorage('hdfs:///input/schema/schema.avsc');
Затем я загружаю таблицу Hive (другие данные):
B = LOAD 'db.input_table' USING org.apache.hive.hcatalog.pig.HCatLoader();
Я выполняю объединение, используяA и B:
C = JOIN A BY ROW_ID, B BY ROW_ID;
Это объединение возвращает согласованный результат с данными.Но на следующем шаге у меня нет данных в следующей структуре без явных журналов:
D = FOREACH C GENERATE
TRIM(REPLACE(REPLACE((chararray)ROW_ID, '[\\n]', ' '), '[\\r]', ' ')) AS row_id,
'$CURR_DATE' AS dt_raff;
STORE D INTO 'db.output_table' USING org.apache.hive.hcatalog.pig.HCatStorer();
D пусто, тогда как в C. есть данные. Есть идеи?