Я давно над этим работаю и чувствую себя очень измученным;Я надеюсь на [очевидное?] Понимание со стороны сообщества SO, которое может вернуть мой любимый проект в движение, чтобы я мог перестать пинать себя.Я использую Cloudera CDH3, HBase .89 и Hadoop .20.
У меня есть приложение Python / Django, которое записывает данные в одну таблицу HBase с использованием интерфейса Thrift, и это прекрасно работает.Теперь я хочу отобразить / уменьшить его еще на несколько таблиц HBase.
Очевидный ответ здесь - либо Dumbo, либо Apache PIG, но с Pig поддержка адаптера HBaseStorage для моей версии пока недоступна (Pig может загружать классы и определения, но зависает на «карте»."step, жалуясь на" Input Splits "; списки рассылки Pig предполагают, что это исправлено в Pig 0.8, что несовместимо с CDH3 Hadoop, поэтому мне придется использовать крайние версии всего (я думаю]).Я не могу найти никакой информации о том, как заставить Dumbo использовать HBaseStorage в качестве приемника данных.
Мне все равно, Python, Ruby, Scala, Clojure, Jython, JRuby или даже PHP, я просто на самом деле не хотят писать на Java (по многим причинам, большинство из которых связаны с ощущением погружения, которое я испытываю каждый раз, когда мне приходится конвертировать Int () в IntWritable () и т. Д.).
Я пробовал буквально каждое последнее решение и пример, который я могу найти (за последние 4 недели) для написания заданий HBase Map / Reduce на альтернативных языках, но все кажется устаревшим или неполным.Пожалуйста, Stack Overflow, спаси меня от моих собственных устройств!