Использование Apache Hive в качестве входного формата MapReduce и / или метаданных Hiveing ​​Hive - PullRequest
1 голос
/ 14 апреля 2011

Наша среда тяжело хранит данные в улье.Я сейчас работаю над тем, что выходит за рамки возможностей.У меня написано mapreduce, но для него требуется много прямого пользовательского ввода информации, которую можно легко получить из Hive.Тем не менее, когда я запрашиваю куст для данных расширенной таблицы, вся расширенная информация выбрасывается в 1 или 2 столбца в виде гигантского двоичного объекта почти в формате JSON.Есть ли удобный способ проанализировать эту информацию или, что еще лучше, получить ее непосредственно в более прямом поместье?

В качестве альтернативы, если бы я мог указать на документацию по ручному использованию CombinedHiveInputFormat, это упростило бы мой коднамного больше.Но кажется, что InputFormat используется исключительно внутри Hive, используя его пользовательские структуры.

В конечном счете, мне нужно знать имена таблиц, столбцы (не включая разделы) и расположение разделов для разделения, над которым работает маппер.Если есть еще один способ сделать это, я хочу знать.

Спасибо!John

...