PIG: отфильтровать таблицу кустов по результатам предыдущей таблицы - PullRequest
0 голосов
/ 12 декабря 2018

Мне нужно запросить одну таблицу HIVE и отфильтровать другую таблицу с одним столбцом предыдущего.

Пример:

A = LOAD 'db.table1' USING org.apache.hive.hcatalog.pig.HCatLoader();

filterA = filter A by (id=='123');

B = LOAD 'db.table2' USING org.apache.hive.hcatalog.pig.HCatLoader();

//the problem is here. filterA has many rows. I need to apply filter for each of the row.

filterB = filter B by (id==filterA.id);

Данные в A:

Адрес табуляции ID

1 1 IS SJ

2 4 CS SF

3 5 EC MD

Данные в формате B:

идентификатор идентификатора таблированного адреса

1 4 Джон 123 S AVE

2 5 янв 456 N BLVD

39 ник 789 GREAT LAKE DR

Ожидаемый результат:

Табличный идентификатор имя адрес

1 4 Джон 123 S AVE

25 января 456 N BLVD

1 Ответ

0 голосов
/ 14 декабря 2018

Как указано в комментарии, звучит так, будто вы ищете соединение.Извините, если я неправильно понял ваш вопрос.

A = LOAD 'db.table1' USING org.apache.hive.hcatalog.pig.HCatLoader();
B = LOAD 'db.table2' USING org.apache.hive.hcatalog.pig.HCatLoader();
C = JOIN A by id, B by id;
...