Hive / Hadoop / Flatfile: Какой эффективный способ объединить и объединить строки - PullRequest
0 голосов
/ 05 мая 2011
id col1 col2 ... coln
---------------------
foo barA barB ...
foo barD barX
boo barA barC
foo barC barC

Я бы хотел объединить это в «свернутые» строки, которые выглядят так:

foo barA;barD;barC barB;barX;barC
boo barD barC

На данный момент исходный документ представляет собой «таблицу» улья, [которая, по-моему, идентична плоскому текстовому файлу], и мне интересно, каков наиболее эффективный способ сделать это?

РЕДАКТИРОВАТЬ: связанный ранее вопрос (для SQL, увы, не куст) Объединить несколько строк в одну строку, разделенную пробелом

1 Ответ

0 голосов
/ 05 мая 2011

Если вы загружаете данные в улей из задания mapreduce, вы можете настроить MR для выполнения преобразования данных за вас и загрузить их в таблицу так, как вам нужно (массив или; с разделителями и т. Д.). )

Если вы хотите обновить / скорректировать данные, вероятно, HIVE не лучший вариант для этого. Возможно, вы захотите взглянуть на HBase и выполнить «агрегацию», чтобы сгенерировать данные так, как вы хотите, чтобы они загружались в HBase. Каждый раз, когда генерируется одно и то же значение Key / ColumnFamily / Column, оно перезаписывает его, если оно существует, поэтому оно «обновляет» значение. Я использую это в производстве, чтобы генерировать данные в течение дня, которые постоянно обновляются.

В любом случае для манипулирования структурой больших объемов данных вы, вероятно, захотите использовать задание mapreduce и попросить его выполнить для вас реструктуризацию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...